Análise da qualidade dos dados de sequenciamento

Escrito por Pedro Vidigal
  •  
  •  
  •  
  •  
  •   
  •  
  •  
  •  

As tecnologias de sequenciamento de alto rendimento (High Throughput Sequencing technologies, HTS), que também são conhecidas como tecnologias de sequenciamento de nova geração (Next-Generation Sequencing technologies, NGS), tornaram acessível a execução dos projetos de sequenciamento de genomas e transcriptomas e revolucionaram a capacidade geração de dados de sequências.

Mesmo com o progresso dessas tecnologias, a análise da qualidade das leituras (“reads”) geradas pelos sequenciadores ainda é uma etapa essencial para evitar que a propagação dos erros de sequenciamento interfira nos resultados obtidos nos projetos. Os principais erros detectados na análise da qualidade dos dados incluem a presença de nucleotídeos sequenciados com baixa acurácia nas reads, a contaminação das reads com os adaptadores das bibliotecas e a degradação ou contaminação das amostras sequenciadas. Esses erros podem impactar diretamente a montagem das sequências dos genomas, a análise de polimorfismos e a quantificação da expressão gênica em transcriptomas.

A acurácia do sequenciamento é quantificada usando uma escola logarítmica denominada escore Phred (“Phred score”). O escore Phred foi desenvolvido como uma métrica de avaliação dos dados que estavam sendo gerados no projeto do genoma humano e se tornou referência para avaliar a qualidade dos dados de sequenciamento [1]. Esse escore (Q) é definido pela seguinte fórmula: Q = -log10 P; onde P corresponde à probabilidade erro do sequenciamento. Assim, um escore Q igual a 20 equivale a uma probabilidade de erro de 0,01 (1%) e um escore Q igual a 30 equivale a uma probabilidade de erro de 0,001 (0,1%).

Os adaptadores das bibliotecas são oligonucleotídeos artificiais que fazem parte dos kits de sequenciamento e se ligam às extremidades dos fragmentos que serão sequenciados. Esses oligonucleotídeos eventualmente são sequenciados juntos com os fragmentos e as suas sequências devem ser removidas das extremidades das reads.

A contaminação das amostras sequenciadas pode ser verificada por meio da análise do conteúdo GC das reads (porcentagem dos nucleotídeos guanina e citosina nas sequências). Em uma biblioteca sequenciada, espera-se uma distribuição normal do conteúdo GC e que o pico central dessa distribuição corresponda ao conteúdo GC geral do genoma ou transcriptoma do organismo cujos dados de sequenciamento foram gerados. A presença de múltiplos picos nos gráficos de conteúdo GC pode indicar, por exemplo, a contaminação das amostras sequenciadas com materiais genéticos de outros organismos ou a contaminação de transcriptomas com RNA ribossomais. Além disso, as alterações no formato da curva de conteúdo GC podem indicar a degradação das amostras ou contaminação com outros artefatos.

A análise da qualidade e a verificação desses erros geralmente é feita por meio da avaliação de relatórios descritivos dos dados sequenciados. Esses relatórios podem ser gerados por softwares como o FASTQc [https://github.com/s-andrews/FastQC], AfterQC [https://github.com/OpenGene/AfterQC] e MuliQC [https://multiqc.info/].

Referência:

[1] Ewing B, Green P. Base-calling of automated sequencer traces using phred. II. Error probabilities. Genome Res. 1998 . 8(3):186-94. doi: 10.1101/gr.8.3.186. PMID: 9521922.


  •  
  •  
  •  
  •  
  •   
  •  
  •  
  •  
Sem categoria

Atualizado em: 10 de março de 2021

Artigos Relacionados