Отвечаем на вопросы про биоинформатику
Слышал, что при анализе метагеномов важно использовать денойзинг. Но плохо понимаю — почему?
Юра Пеков
Ксивелью, COO
Илья Корвиго
Ведущий биоинформатик в Ксивелью
Отвечает
Под деноизингом (denoising) в метагеномике обычно понимается восстановление уникальных последовательностей из просеквенированных библиотек ампликонов маркерных генов (как правило, 16S рРНК и ITS). Поскольку этот процесс фигурирует в контексте идентификации отдельных микроорганизмов/клонов в сообществах, мы рассмотрим эти задачи вместе.

Пробежимся по истории проблемы. Когда секвенирование ампликонных библиотек только оформлялось в качестве основного метода анализа разнообразия и моделирования микробных сообществ, единственной распространенной технологией высокопроизводительного секвенирования было 454-пиросеквенирование (ныне почившее). Оно не отличалось качеством прочтений и обладало сложным профилем ошибок. Во многом по этой причине (а также из соображений оптимизации вычислений) для выделения условных самостоятельных групп последовательностей (операционных таксономических единиц, OTU) стали использовать кластеризацию сырых прочтений с фиксированным порогом сходства, т.е. допускающую определенную степень вариации. При этом, однако, объединяются не только неточные прочтения одной и той же исходной матрицы, но и последовательности близкородственных организмов. Чаще всего используется порог в 97%, который, как считалось раньше, более-менее отражает естественную вариацию гипервариабельных участков маркерных генов в пределах одного классического вида [1].

После кластеризации выделяются так называемые центроиды (репрезентативы) — условные типовые последовательности групп, которые можно использовать для таксономической идентификации [2]. В качестве альтернативы также используют готовые выборки репрезентативов с известной таксономией (например, базы данных GreenGenes, RDP и SILVA), что упрощает кластеризацию и позволяет провести её более точно [2]. Такой подход иногда называют референсным картированием прочтений, хотя для него в подавляющем большинстве случаев используются алгоритмы кластеризации, а не алгоритмы картирования на геномные индексы. На этой почве выросли упрощенные программные пакеты, позволяющие людям, не обладающим достаточными навыками в области вычислительных биологии, проводить анализ ампликонных библиотек; самыми яркими примерами являются Mothur (2009 год) и QIIME (2010 год). Из-за повсеместного распространения этих программ запечатленная в них методология до сих пор задает вектор мысли большинства микробиологических исследований.

Несмотря на распространенность, эта методология обладает рядом критических недостатков. Во-первых, точная кластеризация последовательностей (в том числе референсная) вычислительно невозможна при текущей пропускной способности секвенаторов и постоянно растущих требованиях к глубине секвенирования сообществ. Поэтому используются эвристические алгоритмы, вносящие значительные искажения [3, 4, 5].

Во-вторых, выбор жесткого порога сходства при кластеризации не позволяет учитывать разницу в естественной вариации в пределах разных классических таксонов [1, 6]. Кроме проблемы объединения независимых последовательностей в одну и ту же группу, возникает риск ложно-положительной идентификации, что особенно важно в контексте таксономической классификации при помощи референсного картирования. Например, опероны 16S рРНК в пределах одного и того же лабораторного штамма E. coli K12, в зависимости от рассматриваемого гипервариабельного фрагмента, могут отличаться более чем на 5% [7], что выходит за рамки упомянутого 97% сходства. В то же время, этот порог не позволяет отличить многие штаммы E. coli от представителей рода Shigella [8]. Эту проблему в рамках всё той же парадигмы кластеризации пытаются решать за счет статистической оптимизации порогов сходства [9], но существующие методы делают довольно жесткие допущения о распределении групп и не учитывают искажения, вносимые неравномерностью амплификации при использовании универсальных праймеров. Иными словами, недостаточно учитывать исключительно абсолютное сходство — требуется мера статистической поддержки выбора [10].

По этим причинам в последнее время всё большее распространение и признание получают альтернативные методы первичной обработки ампликонных библиотек, основанные на деноизинге [11]. Несмотря на то, что работы в области исправления ошибок в ампликонных библиотеках ведутся давно, действительно эффективные новые решения стали возможны во многом благодаря повсеместному распространению платформы Illumina (которая характеризуется сравнительно простым профилем ошибок) и развитию статистических моделей исправления ошибок для этой платформы. В частности, модель DADA2 [5] позволяет с непревзойденной точностью извлекать исходные последовательности отдельных клонов, обитающих в сообществе. Деноизинг также облегчает поиск и удаление химерных последовательностей, хотя эта задача остается очень сложной [12]. Модель DADA2 настолько хорошо зарекомендовала себя, что даже сторонники классической методологии (QIIME) начали её рекомендовать [13]. После этого для таксономической идентификации можно использовать точное (а не эвристическое) картирование на референсные последовательности: деноизинг делает эту задачу вычислительно возможной. Поскольку (по упомянутым выше причинам) такой способ идентификации в любом случае сопряжен со значительной неопределенностью, единственным более-менее надежным классическим референсным способом является поиск 100% совпадений [1]. В противном случае рекомендуется применять статистические методы предсказания таксономии, основанные либо на машинном обучении [10], либо на алгоритмах филогенетического размещения [14].
Ссылки:
1. Edgar, R. C. (2018). Updating the 97% identity threshold for 16S ribosomal RNA OTUs. Bioinformatics.
2. Rideout, J. R., He, Y., Navas-Molina, J. A., Walters, W. A., Ursell, L. K., Gibbons, S. M., … Caporaso, J. G. (2014). Subsampled open-reference clustering creates consistent, comprehensive OTU definitions and scales to billions of sequences. PeerJ, 2, e545.
3. Chen, W., Zhang, C. K., Cheng, Y., Zhang, S., & Zhao, H. (2013). A Comparison of Methods for Clustering 16S rRNA Sequences into OTUs. PLoS ONE, 8(8).
4. Jackson, M. A., Bell, J. T., Spector, T. D., & Steves, C. J. (2016). A heritability-based comparison of methods used to cluster 16S rRNA gene sequences into operational taxonomic units. PeerJ, 4, e2341.
5. Callahan, B. J., McMurdie, P. J., Rosen, M. J., Han, A. W., Johnson, A. J. A., & Holmes, S. P. (2016). DADA2: High-resolution sample inference from Illumina amplicon data. Nature Methods, 13(7), 581–583.
6. Edgar, R. C. (2017). Accuracy of microbial community diversity estimated by closed- and open-reference OTUs. PeerJ, 5, e3889.
7. De Vos, W. M. (2002). Microbial biofilms and the human intestinal microbiome. Npj Biofilms and Microbiomes, 57(6), 10–13.
8. Devanga Ragupathi, N. K., Muthuirulandi Sethuvel, D. P., Inbanathan, F. Y., & Veeraraghavan, B. (2018). Accurate differentiation of Escherichia coli and Shigella serogroups: challenges and strategies. New Microbes and New Infections, 21, 58–62.
9. Olesen, S. W., Duvallet, C., & Alm, E. J. (2017). DbOTU3: A new implementation of distribution-based OTU calling. PLoS ONE, 12(5), 1–13.
10. Murali, A., Bhargava, A., & Wright, E. S. (2018). IDTAXA: a novel approach for accurate taxonomic classification of microbiome sequences. Microbiome, 6(1), 140.
11. Callahan, B. J., McMurdie, P. J., & Holmes, S. P. (2017). Exact sequence variants should replace operational taxonomic units in marker-gene data analysis. ISME Journal.
12. Mysara, M., Saeys, Y., Leys, N., Raes, J., & Monsieurs, P. (2015). CATCh, an ensemble classifier for chimera detection in 16s rRNA sequencing studies. Applied and Environmental Microbiology, 81(5), 1573–1584.
13. Knight, R., Vrbanac, A., Taylor, B. C., Aksenov, A., Callewaert, C., Debelius, J., … Dorrestein, P. C. (2018). Best practices for analysing microbiomes. Nature Reviews Microbiology, 16(7), 410–422.
14. Janssen, S., McDonald, D., Gonzalez, A., Navas-Molina, J. A., Jiang, L., Xu, Z. Z., … Knight, R. (2018). Phylogenetic Placement of Exact Amplicon Sequences Improves Associations with Clinical Information. MSystems.
comments powered by HyperComments
Наши контакты
Телефон: +7 916 088 13 07
E-mail: hello@ksivalue.com
ООО «Ксивелью»
ИНН 7702424959, ОГРН 5177746030831
Почтовый и фактический адрес: 119049, Москва, Ленинский проспект, 30А. Схема проезда