Отвечаем на вопросы про биоинформатику
Есть датасет рак/норма на много пациентов. Из них нашли мутации, получили vcf-ки и MAF-файлы. Теперь встает вопрос — какие мутации самые важные/драйверные? Какую программу лучше всего использовать, чтобы отсеять всякие часто мутируемые гены типа титна и прочую неспецифику? (MutSig пробовали — работает. Но вдруг есть более крутые софтины?)
Никита Котлов
МГУ, студент
Максим Иванов
Биоинформатик в ОнкоАтласе,
научный сотрудник в МФТИ
Отвечает
Драйверными называют гены и мутации, которые запускают и поддерживают развитие рака. Есть два основных подхода к поиску таких генов:
1. MutSig — выявление генов, которые мутируют чаще обычного, то есть частота мутаций в которых значительно выше случайной. Предполагается, что именно насыщенные мутациями гены способствуют развитию заболевания, то есть выживаемости и пролиферации раковых клеток. Этот подход считается стандартом.

2. OncodriveCLUST — поиск не генов, а отдельных участков, которые насыщены мутациями. Часто мутации не хаотично разбросаны в драйверных генах, а кластеризуются вместе — например, в киназном домене или в активном центре. Не каждая мутация может привести именно к повышенной активности, поэтому такие случаи характерны в первую очередь для онкогенов, а не для генов опухолевой супрессии.

Остальные подходы почти бесполезны.


В анализ стоит включить сравнение ваших мутаций с базами данными. Полезные ссылки:
- cBioPortal — самая полная коллекция систематических исследований с открытыми данными по мутациям.
- CMO Tumor Type Tree — классификация опухолей. Тип опухоли, который вы изучаете, скорее всего уже исследован — но если нет, возьмите ближайшие по классификации.

Общий пайплайн будет такой:
- Собрать по всем генам все мутации типа missense и indel
- Получить частоты мутаций по генам из баз данных
- Сделать тест хи-квадрат для всех генов (ваш эксперимент против данных из баз)
- Провести коррекцию на множественное сравнение
- Выбрать порог по p-value и абсолютной частоте в эксперименте (к примеру, 1%)
- Рассчитать RSS (residual sum of squares) по совокупности всех генов

Методы сравнения частот мутаций генов можно посмотреть в свежей статье Mutational landscape of metastatic cancer revealed from prospective clinical sequencing of 10,000 patients

P.S. Помимо мутаций и MAF, не забывайте про CNV — вероятно, их тоже можно получить из ваших данных. Для их поиска можно использовать CNVkit, для определения целевых генов по CNV подойдет GISTIC.

P.P.S. Найти драйверные гены важно, но всех интересует, как лечить. Для этого нужно искать частоты мутаций, известные как actionable. Узнать, какие мутации или гены являются actionable, помогут базы:
comments powered by HyperComments
Наши контакты
Телефон: +7 916 088 13 07
E-mail: hello@ksivalue.com
ООО «Ксивелью»
ИНН 7702424959, ОГРН 5177746030831
Почтовый и фактический адрес: 119049, Москва, Ленинский проспект, 30А. Схема проезда