O banco de dados Pfam (http://pfam.xfam.org/) reúne informações sobre famílias de proteínas, sendo amplamente usado na anotação funcional de genomas, transcritomas, proteomas e metagenomas [1].
O Pfam é organizado a partir de um conjunto de sequências de proteínas denominado pfamseq, que reúne sequências dos proteoma de referência disponíveis no banco de dados UniProtKB (https://www.uniprot.org/proteomes). Os acessos do Pfam representam famílias de proteínas e são definidos pelo alinhamento de um conjunto representativo de sequências de proteínas (denominado “seed“). Esses acessos são anotados manualmente pela equipe de curadores do banco de dados, usando informações funcionais relacionadas às proteínas que estejam disponíveis na literatura.
Os alinhamentos “seed” de cada acesso do Pfam são usados para gerar perfis de Modelo Oculto de Markov (Hidden Markov Model, HMM) que servem como referências para a classificação das demais proteínas do pfamseq. A classificação é feita por meio da comparação das sequências das proteínas com os perfis HMM usando o software HMMER (http://hmmer.org). Todas as regiões das proteínas do pfamseq que se alinham significativamente ao perfil HMM são selecionadas para fazerem parte do alinhamento completo (denominado “full“), que também é disponibilizado junto com o alinhamento “seed” nas páginas de cada acesso do Pfam.
Os conjuntos de acessos do Pfam que estão relacionados evolutivamente são também agrupados em clãs. Os clãs são definidos pelos curadores do Pfam por meio de pesquisas de similaridade de sequências, da identificação de similaridade estrutural e funcional entre as proteínas ou pelas comparações de perfis HMM usando o software HHsearch (https://github.com/soedinglab/hh-suite). Assim, os clãs possibilitam a representação de superfamílias de proteínas ao permitirem a sobreposição de vários perfis de famílias de proteínas diferentes.
A versão atual do Pfam 34.0, liberada em março de 2021, reúne 42.513.961 de sequências de proteínas classificadas em 19.179 famílias. Os dados estão disponíveis para download no seguinte endereço eletrônico: http://ftp.ebi.ac.uk/pub/databases/Pfam/current_release.
Referência:
[1] Jaina Mistry, Sara Chuguransky, Lowri Williams, Matloob Qureshi, Gustavo A Salazar, Erik L L Sonnhammer, Silvio C E Tosatto, Lisanna Paladin, Shriya Raj, Lorna J Richardson, Robert D Finn, Alex Bateman, Pfam: The protein families database in 2021, Nucleic Acids Research, Volume 49, Issue D1, 8 January 2021, Pages D412–D419, https://doi.org/10.1093/nar/gkaa913