terça-feira, janeiro 03, 2006

Alguma luz na floresta de nomes de genes e proteínas


A rápida produção de informação biológica na área da genómica e proteómica está a levar à criação de bases de dados com grande número de entradas para genes clonados ou sequenciados e proteínas isoladas ou identificadas. É por isso frequente chocarmos com informações não coincidentes quando pesquisamos proteínas ou genes em diferentes bases de dados porque o mesmo nome pode designar entidades diferentes ou então as informações são mesmo contraditórias. Isto pode começar a acabar com o sistema BioThesaurus que congrega cerca de 2,8 milhões de nomes de várias bases de dados biológicas referenciadas na iProClass, uma base de dados integrada de classificação de proteínas. Este sistema faz assim a relação dos nomes sinónimos dos genes e proteínas da maior parte das bases de dados biológicas com todas as sequências de proteínas conhecidas. Deste modo, é possível detectar proteínas ou genes diferentes com o mesmo nome, pesquisar sinónimos de uma dada proteína ou gene, resolver ambiguidades e padronização de nomenclatura.
(Liu et al., 2005. Bioinformatics 22: 103-105)

Sem comentários: