banner
Centro de notícias
Nossos esforços conjuntos produzirão um resultado satisfatório.

Pipelines de perfil metagenômico melhoram a classificação taxonômica para dados de sequenciamento de amplicon 16S

Aug 06, 2023

Scientific Reports volume 13, Artigo número: 13957 (2023) Citar este artigo

8834 Acessos

122 Altmétrico

Detalhes das métricas

A maioria dos experimentos que estudam microbiomas bacterianos baseiam-se na amplificação por PCR de todo ou parte do gene para a subunidade 16S rRNA, que serve como biomarcador para identificar e quantificar os vários táxons presentes em uma amostra de microbioma. Existem vários métodos computacionais para analisar o sequenciamento do amplicon 16S. No entanto, as ferramentas de bioinformática mais utilizadas não podem produzir chamadas taxonômicas de alta qualidade em nível de gênero ou espécie e podem subestimar a precisão potencial dessas chamadas. Usamos dados de sequenciamento 16S de comunidades bacterianas simuladas para avaliar a sensibilidade e especificidade de vários pipelines de bioinformática e bibliotecas de referência genômica usadas para análises de microbioma, concentrando-nos na medição da precisão das atribuições taxonômicas em nível de espécie de leituras de amplicon 16S. Avaliamos as ferramentas DADA2, QIIME 2, Mothur, PathoScope 2 e Kraken 2 em conjunto com bibliotecas de referência de Greengenes, SILVA, Kraken 2 e RefSeq. As ferramentas de criação de perfil foram comparadas usando dados simulados de comunidades publicamente disponíveis de diversas fontes, compreendendo 136 amostras com riqueza e uniformidade de espécies variadas, diversas regiões amplificadas diferentes dentro do gene 16S rRNA e ambos os picos de DNA e cDNA de coleções de células plaqueadas. PathoScope 2 e Kraken 2, ambas ferramentas projetadas para metagenômica de genoma completo, superaram DADA2, QIIME 2 usando o plugin DADA2 e Mothur, que são teoricamente especializados para análises 16S. Avaliações de bibliotecas de referência identificaram as bibliotecas SILVA e RefSeq/Kraken 2 Standard como superiores em precisão em comparação com Greengenes. Essas descobertas apoiam o PathoScope e o Kraken 2 como opções competitivas e totalmente capazes para análise de dados de sequenciamento de amplicon 16S em nível de gênero e espécie, sequenciamento de genoma completo e ferramentas de dados metagenômicos.

O sequenciamento de alto rendimento acelerou enormemente o estudo da microbiômica, ou seja, o campo científico focado no estudo da composição, diversidade e função das comunidades microbianas e suas interações com seus hospedeiros ou ambientes1. A caracterização da composição de amostras microbianas geralmente depende da amplificação de sequências da subunidade ribossômica 16S, um gene onipresente com regiões altamente conservadas. A subunidade simplifica os esforços para isolar e amplificar o 16S rRNA com primers de PCR estabelecidos e regiões hipervariáveis ​​para estabelecer identidade e filogenia. O sequenciamento de 16S rRNA e rDNA pode ser usado para identificar espécies procarióticas conhecidas e atuar como um proxy para quantificar as abundâncias relativas de unidades taxonômicas operacionais (OTUs) em amostras de microbioma.

Métodos para perfil taxonômico de sequências de genes de RNA ribossômico permitem a identificação de amostras de OTU, classificando sequências de rRNA em grupos taxonômicos. Embora seja possível obter uma precisão considerável na identificação em nível de espécie com as ferramentas disponíveis2, o software atual de criação de perfis para dados de sequenciamento de amplicon 16S hesita em identificar até o nível de espécie. Em vez disso, eles agrupam leituras com base na similaridade de sequências para atribuir identificações de gênero ou de nível superior para aumentar a especificidade e a sensibilidade, ou usam diretamente sequências filtradas por erros para classificação taxonômica . À medida que as capacidades das plataformas modernas de sequenciamento aumentam, e à medida que os bancos de dados de referência do genoma bacteriano se expandem e melhoram, surge mais potencial para alcançar um desempenho aprimorado de análise 16S com métodos alternativos mais comumente aplicados na metagenômica do genoma completo.

Os pacotes de software mais comuns atualmente empregados na análise de dados de sequenciamento de amplicon 16S são DADA24, QIIME 25, seu antecessor, QIIME 26, e Mothur7. QIIME 2 e Mothur foram originalmente desenvolvidos logo após a invenção do sequenciamento de próxima geração e, junto com o QIIME 2, seguem essencialmente o mesmo fluxo de trabalho: as leituras são normalmente agrupadas de novo com base na similaridade de sequência em unidades taxonômicas operacionais (OTUs) ou OTUs sem ruído (muitos se referem a estes como variantes de sequência de amplicon ou ASVs) dependendo se a identidade completa da sequência é desejada para agrupamento. A etapa inicial de agrupamento serve para 1) melhorar a eficiência computacional, limitando o número de sequências que necessitam de alinhamento a um grande conjunto de genomas de referência e 2) acomodar os baixos níveis de variação genética presentes em uma determinada cepa bacteriana, mitigando assim os erros de sequenciamento. Por quase uma década, o ponto de corte para inclusão de OTU foi de 97% de identidade de sequência8,9, mas as recomendações atuais de corte estão agora em torno de 99-100% de identidade de sequência3,10, normalmente após alguma forma de remoção de ruído ou outra correção para erros de sequenciamento4,11.

 128 GB) and runtimes on the order of several hours, whereas Kraken 2 in particular took mere minutes. Issues aside, PathoScope is likely to outperform QIIME 2, DADA2, and Mothur in identification regardless of the database used. This finding partly results from PathoScope’s Bayesian mixed modeling identification algorithm, which accounts for the possibility that multiple species can be present in the sample or that the target strain is not present in the reference database. PathoScope consistently outperformed Kraken 2 in most cases, although the difference was often slight and not statistically significantly better. Overall, these comparisons show that methods designed for general metagenomics analyses consistently outperform methods specifically designed for analyzing 16S data./p>