O crescimento exponencial da quantidade de sequências de nucleotídeos e aminoácidos disponíveis nos bancos de dados públicos tornou impraticável a execução simultânea de múltiplas pesquisas de similaridade usando conjuntos de sequências genéricos e abrangentes [1]. A criação de bancos de dados contendo sequências revisadas que sejam representativas de grupos funcionais de proteínas oferecem uma alternativa viável para agilizar a execução das pesquisas de similaridade [1]. Esses conjuntos de dados também possibilitam a identificação de domínios e padrões conservados entre proteínas, que auxiliam na anotação funcional das sequências [2].
O Conserved Domain Database (CDD; https://www.ncbi.nlm.nih.gov/cdd) é uma coleção de alinhamentos múltiplos de sequências anotadas de domínios e proteínas completas. O CDD foi organizado pelo NCBI para oferecer aos seus usuários insights sobre as relações entre sequências, estruturas e funções de proteínas [1, 2]. Os dados de alinhamentos do CDD estão disponíveis no formato de Matrizes de Pontuação Específicas de Posição (Position-Specific Score Matrices; PSSMs), que representam as frequências dos aminoácidos nas posições do alinhamento, e podem ser usados para pesquisas de similaridade usando a ferramenta Reverse Position-Specific BLAST (RPS-BLAST) do software BLAST (https://blast.ncbi.nlm.nih.gov) [3].
A atual versão 3.19 do CDD contém 58.385 modelos proteínas e domínios que foram obtidos dos bancos de dados Pfam (http://pfam.xfam.org) [18.271], NCBI Protein Clusters (https://www.ncbi.nlm.nih.gov/proteinclusters) [11.657], COG (https://www.ncbi.nlm.nih.gov/COG) [4.871], TIGRFAM (http://tigrfams.jcvi.org/cgi-bin/index) [4.488], SMART (http://smart.embl-heidelberg.de) [1.011] e demais modelos revisados pela equipe de curadores. Esses modelos também estão disponíveis em arquivos formatados para serem usados com a ferramenta RPS-BLAST e os usuários do CDD podem fazer o download no seguinte endereço eletrônico: https://ftp.ncbi.nih.gov/pub/mmdb/cdd/little_endian.
Os usuários do CDD também usar a ferramenta CD-Search para executar pesquisas de similaridade e usar os resultados como uma interface para acessar e explorar as informações armazenadas no banco de dados. Conjuntos maiores de sequências também podem ser analisados nos servidores do CDD usando a ferramenta Batch CD-Search, que permite os usuários analisarem até 4.000 sequências em um único processo.
Referências:
[1] Aron Marchler-Bauer, Myra K. Derbyshire, Noreen R. Gonzales, Shennan Lu, Farideh Chitsaz, Lewis Y. Geer, Renata C. Geer, Jane He, Marc Gwadz, David I. Hurwitz, Christopher J. Lanczycki, Fu Lu, Gabriele H. Marchler, James S. Song, Narmada Thanki, Zhouxi Wang, Roxanne A. Yamashita, Dachuan Zhang, Chanjuan Zheng, Stephen H. Bryant, CDD: NCBI’s conserved domain database, Nucleic Acids Research, Volume 43, Issue D1, 28 January 2015, Pages D222–D226, https://doi.org/10.1093/nar/gku1221
[2] https://en.wikipedia.org/wiki/Conserved_Domain_Database[3] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ. Basic local alignment search tool. J Mol Biol. 1990 Oct 5;215(3):403-10, https://doi.org/10.1016/S0022-2836(05)80360-2