Под деноизингом (denoising) в метагеномике обычно понимается восстановление уникальных последовательностей из просеквенированных библиотек ампликонов маркерных генов (как правило, 16S рРНК и ITS). Поскольку этот процесс фигурирует в контексте идентификации отдельных микроорганизмов/клонов в сообществах, мы рассмотрим эти задачи вместе.
Пробежимся по истории проблемы. Когда секвенирование ампликонных библиотек только оформлялось в качестве основного метода анализа разнообразия и моделирования микробных сообществ, единственной распространенной технологией высокопроизводительного секвенирования было 454-пиросеквенирование (ныне почившее). Оно не отличалось качеством прочтений и обладало сложным профилем ошибок. Во многом по этой причине (а также из соображений оптимизации вычислений) для выделения условных самостоятельных групп последовательностей (операционных таксономических единиц, OTU) стали использовать кластеризацию сырых прочтений с фиксированным порогом сходства, т.е. допускающую определенную степень вариации. При этом, однако, объединяются не только неточные прочтения одной и той же исходной матрицы, но и последовательности близкородственных организмов. Чаще всего используется порог в 97%, который, как считалось раньше, более-менее отражает естественную вариацию гипервариабельных участков маркерных генов в пределах одного классического вида [1].
После кластеризации выделяются так называемые центроиды (репрезентативы) — условные типовые последовательности групп, которые можно использовать для таксономической идентификации [2]. В качестве альтернативы также используют готовые выборки репрезентативов с известной таксономией (например, базы данных GreenGenes, RDP и SILVA), что упрощает кластеризацию и позволяет провести её более точно [2]. Такой подход иногда называют референсным картированием прочтений, хотя для него в подавляющем большинстве случаев используются алгоритмы кластеризации, а не алгоритмы картирования на геномные индексы. На этой почве выросли упрощенные программные пакеты, позволяющие людям, не обладающим достаточными навыками в области вычислительных биологии, проводить анализ ампликонных библиотек; самыми яркими примерами являются Mothur (2009 год) и QIIME (2010 год). Из-за повсеместного распространения этих программ запечатленная в них методология до сих пор задает вектор мысли большинства микробиологических исследований.
Несмотря на распространенность, эта методология обладает рядом критических недостатков. Во-первых, точная кластеризация последовательностей (в том числе референсная) вычислительно невозможна при текущей пропускной способности секвенаторов и постоянно растущих требованиях к глубине секвенирования сообществ. Поэтому используются эвристические алгоритмы, вносящие значительные искажения [3, 4, 5].
Во-вторых, выбор жесткого порога сходства при кластеризации не позволяет учитывать разницу в естественной вариации в пределах разных классических таксонов [1, 6]. Кроме проблемы объединения независимых последовательностей в одну и ту же группу, возникает риск ложно-положительной идентификации, что особенно важно в контексте таксономической классификации при помощи референсного картирования. Например, опероны 16S рРНК в пределах одного и того же лабораторного штамма E. coli K12, в зависимости от рассматриваемого гипервариабельного фрагмента, могут отличаться более чем на 5% [7], что выходит за рамки упомянутого 97% сходства. В то же время, этот порог не позволяет отличить многие штаммы E. coli от представителей рода Shigella [8]. Эту проблему в рамках всё той же парадигмы кластеризации пытаются решать за счет статистической оптимизации порогов сходства [9], но существующие методы делают довольно жесткие допущения о распределении групп и не учитывают искажения, вносимые неравномерностью амплификации при использовании универсальных праймеров. Иными словами, недостаточно учитывать исключительно абсолютное сходство — требуется мера статистической поддержки выбора [10].
По этим причинам в последнее время всё большее распространение и признание получают альтернативные методы первичной обработки ампликонных библиотек, основанные на деноизинге [11]. Несмотря на то, что работы в области исправления ошибок в ампликонных библиотеках ведутся давно, действительно эффективные новые решения стали возможны во многом благодаря повсеместному распространению платформы Illumina (которая характеризуется сравнительно простым профилем ошибок) и развитию статистических моделей исправления ошибок для этой платформы. В частности, модель DADA2 [5] позволяет с непревзойденной точностью извлекать исходные последовательности отдельных клонов, обитающих в сообществе. Деноизинг также облегчает поиск и удаление химерных последовательностей, хотя эта задача остается очень сложной [12]. Модель DADA2 настолько хорошо зарекомендовала себя, что даже сторонники классической методологии (QIIME) начали её рекомендовать [13]. После этого для таксономической идентификации можно использовать точное (а не эвристическое) картирование на референсные последовательности: деноизинг делает эту задачу вычислительно возможной. Поскольку (по упомянутым выше причинам) такой способ идентификации в любом случае сопряжен со значительной неопределенностью, единственным более-менее надежным классическим референсным способом является поиск 100% совпадений [1]. В противном случае рекомендуется применять статистические методы предсказания таксономии, основанные либо на машинном обучении [10], либо на алгоритмах филогенетического размещения [14].