Os softwares montadores de genomas geralmente produzem conjuntos de contigs fragmentados devido às limitações das tecnologias de sequenciamento e à complexidade dos genomas. Os métodos de scaffolding são utilizados para reduzir os efeitos dessas limitações e aumentar a contiguidade dos genomas, reduzindo a fragmentação e aumentando o tamanho das sequências. Nesse processo, os contigs são orientados, ordenados e agrupados em scaffolds.
Os métodos de scaffolding podem utilizar dados de diferentes tecnologias de sequenciamento, que têm desempenhos diferentes no agrupamento das sequências, e as lacunas existentes entre os contigs adjacentes são preenchidas com nucleotídeos ambíguos (representados pelo caractere “N”). A sequências de short reads paired-ends, cujos fragmentos das bibliotecas geralmente apresentam tamanhos curtos, apresentam limitações para abranger as regiões repetitivas dos genomas e geralmente são usadas para ordenar e agrupar contigs de regiões genômicas próximas. Alternativamente, as sequências de short reads mate pairs podem ser usadas para contornar essas limitações, pois os fragmentos das bibliotecas apresentam tamanhos longos e possibilitam abranger regiões genômicas maiores. As sequências das long reads, por sua vez, podem abranger a maioria das regiões repetitivas e são as mais eficientes para unir diferentes contigs, tendo contribuído para aperfeiçoar os métodos de scaffolding e melhorar significativamente a qualidade da montagem de genomas.
Sequências de genomas de referência também têm sido utilizadas para dar suporte aos métodos de scaffolding. Embora as sequências dos genomas variem ao longo do processo evolutivo, genes conservados são compartilhados entre espécies relacionadas e o ordenamento desses genes muitas vezes é retido. Assim, genomas de espécies relacionadas podem apresentar regiões conservadas e livres de eventos de recombinação que podem ser usadas para auxiliar a junção dos contigs.
O SSPACE [https://github.com/nsoranzo/sspace_basic] é um dos softwares mais populares para a geração de scaffolds a partir de dados de sequenciamento, possuindo uma versão específica para usar dados de long reads [https://github.com/Runsheng/sspace_longread]. O software RaGOO /RagTag [https://github.com/malonge/RagTag] se destaca entre os softwares de scaffolding que utilizam genomas de referência pela facilidade de execução pelos usuários.
Referências:
Luo J, Wei Y, Lyu M, Wu Z, Liu X, Luo H, Yan C. A comprehensive review of scaffolding methods in genome assembly. Brief Bioinform. 2021 Feb 25:bbab033. doi: https://doi.org/10.1093/bib/bbab033
Boetzer M, Henkel CV, Jansen HJ, Butler D, Pirovano W. Scaffolding pre-assembled contigs using SSPACE. Bioinformatics. 2011 Feb 15;27(4):578-9. doi: https://doi.org/10.1093/bioinformatics/btq683
Boetzer M, Pirovano W. SSPACE-LongRead: scaffolding bacterial draft genomes using long read sequence information. BMC Bioinformatics. 2014 Jun 20;15:211. doi: https://doi.org/10.1186/1471-2105-15-211
Alonge M, Soyk S, Ramakrishnan S, Wang X, Goodwin S, Sedlazeck FJ, Lippman ZB, Schatz MC. RaGOO: fast and accurate reference-guided scaffolding of draft genomes. Genome Biol. 2019 Oct 28;20(1):224. doi: https://doi.org/10.1186/s13059-019-1829-6