Группа российских ученых предложила новый метод сравнения метагеномов – совокупности последовательностей ДНК всех организмов в образце исследуемого биологического материала, который позволяет более эффективно и быстро решать задачу сравнения образцов и может быть легко внедрен в процесс анализа данных в любом метагеномном исследовании.
«Разработанная методика позволит более эффективно и точно находить отличия между метагеномами разнообразных бактериальных сообществ, что в частности может помочь в изучении, диагностике и лечении многих заболеваний человека», — говорится в сообщении пресс-службы МФТИ. Ученые из МФТИ входят в группу авторов исследования. Статью о своем исследовании ученые опубликовали в журнале BMC Bioinformatics.
В основе нового метода лежит представление о последовательности генома организма как о наборе всех встречающихся в нем нуклеотидных «слов», заданной длины k, называемых k-мерами. Поскольку геном является уникальной для каждого организма последовательностью, то и наборы таких «слов» различаются между отдельными организмами. Таким образом, набор всех k-меров метагенома можно рассматривать как совокупность наборов, входящих в его состав организмов. Это позволяет судить о различиях в бактериальном составе при сравнении образцов между собой.
Традиционным подходом в метагеномном анализе является сравнение образцов на основе их таксономического состава – процентных долей каждого найденного микробного вида. Для того, чтобы определить состав образца, его последовательности сопоставляют базе известных бактериальных геномов, называемых референсным набором. Однако такой подход имеет ряд недостатков. Во-первых, референсные геномы зачастую неточны, поскольку составление референсного генома — вычислительно сложная и трудоемкая задача, особенно для труднокультивируемых видов организмов; а геномы изолированного в лаборатории вида могут нести набор генов, существенно отличающийся от того же вида, обитающего в естественной среде. Во-вторых, не для всех организмов в принципе существуют собранные референсные геномы; примерами таких организмов являются вирусы. Поэтому та часть последовательностей образца, для которой не найдено соответствие с референсом, просто не учитывается в процессе анализа, несмотря на то, что она может быть достаточно объёмной и значимой. Между тем метод, основанный на сопоставлении частот k-меров, не требует обращения к референсу и наличия какой-либо информации об исследуемых организмах, и поэтому анализу подвергаются уже все последовательности образца, что даёт лучшие результаты.
Для проверки эффективности k-мерной методики по сравнению с традиционными подходами авторы работы использовали два набора метагеномных данных: реальные и сгенерированные искусственно. Искусственные данные (созданные из геномов, с известными заранее пропорциями) удобно использовать для проверки метода, поскольку мы точно знаем последовательности и можем оценить полученный результат, сравнивая его с априори правильным значением. В качестве реальных данных использовались кишечные метагеномы жителей США и Китая. Известно, что бактериальные сообщества кишечника существенно различаются между различными популяциями, и востребованы алгоритмы, позволяющие найти, в каких именно признаках состава заключаются различия. Поэтому критерием эффективности метода считалась способность метагеномов к разделению, то есть то, насколько китайские метагеномы в целом отличаются от американских.
По словам автора статьи, заместителя заведующего Лабораторией системной биологии МФТИ Дмитрия Алексеева, данный метод показал лучшие результаты на обоих типах данных в случае сравнения k-меров, а не традиционного сопоставления с референсным набором.
«Кроме того, в случае реальных кишечных данных, несоответствие между результатами k-мерного и традиционного подходов позволило детектировать еще один важный компонент метагенома кишечника – бактериальный фаг crAssphage, ускользающий от исследователей при использовании традиционного метода», — приводятся в сообщении слова Алексеева.