A análise de variantes genéticas, incluindo os polimorfismos de nucleotídeo único (single nucleotide polymorphisms, SNPs) e as inserções e deleções (insertions/deletions, indels), é uma etapa central na compreensão da relação entre o genótipo e o fenótipo [1] e também uma metodologia importante para os estudos de genômica comparativa entre microrganismos. [2].
A identificação de SNPs e indels é realizada por meio do alinhamento (mapeamento) das sequências das leituras (reads) geradas pelos sequenciadores em um genoma de referência, que corresponde a uma sequência representativa do genoma de uma determinada espécie. Alternativamente, pode-se optar pela montagem da sequência do genoma de um determinado organismo e então comparar a sequência obtida com o genoma de referência. A estratégia de mapeamento das reads possibilita uma maior resolução para a descoberta de SNPs do que a estratégia de comparação direta entre sequências de genomas. No mapeamento de reads será possível quantificar as proporções de alelos presentes nos loci genômicos analisados, enquanto que na comparação entre sequências apenas os alelos mais frequentes estarão representados [2].
Atualmente, ainda não existem diretrizes gerais para orientar os métodos de predição de polimorfismos que sejam amplamente aceitas pela comunidade científica [2]. A falta dessas diretrizes resultou em uma diversidade de metodologias que são apresentadas na literatura com resultados muitas vezes inconsistentes [2]. Entretanto, iniciativas como as boas práticas propostas pelos desenvolvedores do software Genome Analysis Tool Kit (GATK) (https://gatk.broadinstitute.org) têm orientado a comunidade científica sobre alguns cuidados a serem tomados ao executar as análises de polimorfismos. Esse conjunto de boas práticas recomenda as seguintes etapas para o pré-processamento dos dados: mapear no genoma de referência, marcar as duplicatas e recalibrar os escores de qualidade.
A primeira etapa do pré-processamento dos dados é o mapeamento das reads no genoma de referência, fornecendo as coordenadas para a identificação dos SNPs e indels. Os principais softwares usados nesta etapa são o BWA (https://github.com/bwa-mem2/bwa-mem2) e o Bowtie (https://github.com/BenLangmead/bowtie2). Após o mapeamento, as informações contendo as respectivas posições de alinhamento (coordenadas) das reads no genoma de referência serão armazenadas em arquivos no formato Sequence Aligment Map (SAM). Os dados desses arquivos deverão ser ordenados conforme as coordenadas de mapeamentos das reads e convertidos para o formato Binary Alignment Map (BAM).
A segunda etapa é a identificação de reads duplicadas que possivelmente se originaram dos mesmos fragmentos DNA e que representam artefatos do sequenciamento. As duplicatas são consideradas observações não independentes e seus dados devem ser ignorados durante o processo de identificação dos polimorfismos. O Samtools (https://github.com/samtools) e o Picard (https://github.com/broadinstitute/picard) estão entre os softwares mais usados para processar os arquivos dos mapeamentos e identificar as duplicatas nos conjuntos de dados analisados.
A terceira etapa do processo é a recalibração dos escores de qualidade das bases sequenciadas (base quality score recalibration, BQSR). Os escores de qualidade desempenham um papel importante ao fornecerem as evidências para a identificação dos polimorfismos e é necessário corrigir erros sistemáticos gerados pelos sequenciadores que podem alterar os valores desses escores nos arquivos das reads. A BQSR envolve a análise da covariância dos escores de qualidade de todos os nucleotídeos sequenciados e a geração de um modelo estatístico usando metodologias computacionais baseadas em aprendizado de máquina (machine learning) para corrigir esses escores e melhorar a qualidade dados que serão usados na análise de polimorfismos. Essa etapa de recalibração pode ser executada usando a ferramenta BaseRecalibrator do software GATK.
Após o pré-processamento dos dados, a predição dos polimorfismos pode ser feita usando softwares como o Samtools (https://github.com/samtools), o Freebayes (https://github.com/freebayes/freebayes) e o GATK (https://gatk.broadinstitute.org). Os resultados da análise de polimorfismos serão armazenados em arquivos do tipo Variant Call Format (VCF). Os arquivos VCF podem ser analisados usando softwares como o VCFtools (https://vcftools.github.io/) e anotados, identificando polimorfismos dentro de genes e substituições sinônimas e não sinônimas, usando softwares como SNPeff (https://pcingola.github.io/SnpEff/) e Variant Effect Predictor (https://github.com/Ensembl/ensembl-vep).
Referências:
[1] Adetunji MO, Lamont SJ, Abasht B, Schmidt CJ. Variant analysis pipeline for accurate detection of genomic variants from transcriptome sequencing data. PLoS One. 2019.14(9):e0216838. doi: 10.1371/journal.pone.0216838. PMID: 31545812; PMCID: PMC6756534.
[2] Olson ND, Lund SP, Colman RE, Foster JT, Sahl JW, Schupp JM, Keim P, Morrow JB, Salit ML, Zook JM. Best practices for evaluating single nucleotide variant calling methods for microbial genomics. Front Genet. 2015. 7;6:235. doi: 10.3389/fgene.2015.00235. PMID: 26217378; PMCID: PMC4493402.