16.3.2025 - Последовательности анализируемых генов скачаны, файлы в формате fasta загружены на диск
19.3.2025 - Определён перечень организмов, геномы которых планируется использовать для филогенетического анализа
... Coming soon
В этом году вы научились проводить филогенетический анализ белок-кодирующих и некодирующих генов. И теперь вам предстоит провести небольшое исследование самостоятельно. Вам будет предложен список генов, из которого вы и выберете свой будущий объект для анализа. Программы и методы вы можете выбирать самостоятельно в зависимости от ваших предпочтений, а результаты нужно будет оформить в виде классической научной статьи.
Итак, вам потребуется произвести поиск ортологичных последовательностей гена в геномах различных живых организмов, входящих в эволюционную линию человека, визуализировав результат в виде филогенетического древа, и сделать вывод об эволюции этой последовательности. То есть сделать приблизительно то, что вы уже делали в первом задании. Тем не менее, будет несколько отличий. Во-первых, больше видов. Здесь вы делаете уже полноценное филогенетическое исследование, а значит нужно увеличить разрешение метода, добавив в анализ больше геномов. Во-вторых, да, именно геномов. Поиск по транскриптомам вносит существенное ограничение на точность анализа. Предковая последовательность белок-кодирующего гена как правило экспрессируется далеко не сразу после своего возникновения, у неё может не быть промоторов и рамки считывания, и следовательно она будет отсутствовать в транскриптомных базах, хотя эволюционно уже появилась. В-третьих, нужно будет разделить обнаруженные ортологи и паралоги, это делается очень просто, достаточно посмотреть на окружение гена, если оно одинаковое у двух видов — это ортолог, если разное — паралог. Такой анализ можно делать при помощи скриптов, а можно руками в геномном браузере, например, как здесь. На этом отличия, пожалуй, и заканчиваются.
tBLASTn — поиск гомологов в нуклеотидных базах с аминокислотной последовательностью в качестве ввода
MAFFT — программа для множественного выравнивания
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Конвертер форматов — web версия программы для конвертации .fasta в .nexus.
Seqmagick — программа для конвертации .fasta в .nexus.
Lifemap — филогенетическое дерево живых организмов. Позволяет посмотреть взаимное эволюционное расположение видов из всех трёх доменов жизни. В строку поиска можно вводить латинское название вида.
TimeTree — ещё один сервис по филогении, он поможет вам узнать время возникновения видов, таксонов и даже солнечную активность и концентрацию углекислого газа в разные геологические эпохи.
Перечисленные ниже действия опциональны, при желании вы можете выбрать другие инструменты. Основная задача — получить результат.
Выбрать ген или смириться с назначенным (список генов в таблице)
Получить нуклеотидную последовательность гена
Сохранить последовательность в текстовом файле с расширением .fasta
Скачать геномы выбранных организмов с ensembl.org. Геномы тоже лучше скачивать скриптом через rsync. Адрес опять же однотипен и тоже содержит латинское название вида, которое можно использовать, как переменную. Например, для шимпанзе путь к файлу с геномной последоваельностью выглядит так:
/pub/release-113/fasta/pan_troglodytes/dna/*dna.toplevel.fa.gz
Скрипт может выглядеть как-то так:
#!/bin/sh
s_list='species.txt'
while read species; do
rsync -av rsync://ftp.ensembl.org/pub/release-113/fasta/${species}/dna/*dna.toplevel.fa.gz
done < ${s_list}
Но обратите внимание, что версия базы постоянно обновляется, поэтому вместо release-113 может понадобиться подставить более свежий релиз.
Преобразовать .fasta файлы в базу .hmm. HMMER в любом случае будет генерировать такую базу на основе геномной последовательности, но при каждом новом выравнивании заново, поэтому для экономии времени лучше сгенерировать её заранее и один раз. Чтобы не вводить команду 11 раз, удобнее сделать скрипт, взяв путь к геному в качестве переменной.
Если вы ленивы или нетерпеливы, то готовые геномные базы можно скачать тут.
Подождать, выпить чай. Возможно, поспать. Генерация .hmm базы занимает весьма много времени, а если компьютер не очень мощный, то придётся подождать пару часов. Можете посмотреть, если ещё не видели, Black Books.
Подождать, выпить чай, подумать над литобзором будущей публикации и смыслом жизни
Запустить выранивание нуклеотидной последовательности на геномы в программе nHMMER. Удобнее это делать скриптом, взяв путь к базе в качестве переменной. Описание команды запуска и назначение ключей описано ниже. Если вы ленивы, то скрипт можно взять тут.
Подождать, выпить чай. Начать смотреть второй сезон Black Books. HMMER суров и молчалив, как норвежские боги, и не говорит о прогрессе выравнивания.
Среди обнаруженных последовательностей нужно выбрать только соответствующие пороговому значению по e-value (e-10 для нуклеотидных выравниваний, а вообще, ну прочитайте вы ту статью).
Получить геномные координаты подходящих последовательностей из TSV файла, перевести их в .bed формат
Получить нуклеотидные последовательности по координатам при помощи программы getfasta.
Рассортировать обнаруженные последовательности на ортологи и паралоги, исходя из их окружения (видео сбоку). Добавить в заголовок паралогов метку "paralogue".
Этот пункт опционален
Проверить, нет ли дупликатов этого гена в геноме человека. Это нужно, во-первых, для более полного описания гена, а, во-вторых, позволит корректнее построить дерево. Для этого нужно сделать выравнивание последовательности выбранного гена на геном человека при помощи nhmmer.
Добавить обнаруженные последовательности в созданный ранее .fasta файл.
Убрать из заголовков в скачанном файле все символы кроме букв "A-Z", цифр "0-9", underscore (_ подчёркивание) и скобки ">" в начале, заменив их на underscore. И хватит уже забывать про длину строки, которая не должна превышать 99 символов
Добавить в файл последовательность исследуемого Вами гена человека, не забыв отформатировать заголовок и в ней.
Убрать из заголовков в скачанном файле все символы кроме букв "A-Z", цифр "0-9", underscore (_ подчёркивание) и скобки ">" в начале, заменив их на underscore. И хватит уже забывать про длину строки, которая не должна превышать 99 символов
Double-double-check
Точно проверили?
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании консольной версии seqmagick:
seqmagick convert --output-format nexus --alphabet dna YOUR_FILE.fasta YOUR_FILE.nexus
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным справа
Открыть сгенерированное дерево в редакторе FigTree или iTOL на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность
Сделать вывод о возрасте гена, эволюционным событиям, произошедшим с его предковыми последовательностями. Здесь вам, возможно, потребуется понять, какой вид к какому таксону принадлежит. Для этого можно зайти вот сюда. А если хочется погрузиться в филогению, то можно позалипать в Time Tree. Time Tree, кстати, может вам даже дерево для списка видов нарисовать
Отредактировать дерево, выбрав шрифт и кегль, при необходимости покрасив клады в разные цвета на основании их родства.
Оформить полученные данные в виде текста в разделе "Результаты".
Провести анализ литературы, сопоставив Ваши данные с литературными. Если таковых нет, то вы только что впервые провели филогенетический анализ этого гена. Congrats!
Macaca mulatta
Monodelphis domestica
Crocodylus porosus
Pan troglodytes
Pongo pygmaeus
Danio rerio
Xenopus tropicalis
Petromyzon marinus
Callorhinchus milii
Strongylocentrotus purpuratus
Ornithorhynchus anatinus
Canis familiaris
Gallus gallus
Saccharomyces cerevisiae
Nomascus leucogenys
Gorilla gorilla
Takifugu rubripes
Ciona intestinalis
Gekko japonicus
Ovis canadensis
Mus musculus
Eptesicus fuscus
Bos taurus
Rattus norvegicus
Drosophila melanogaster
Caenorhabditis elegans
Aspergillus nidulans
Oryza sativa
Chlamydomonas reinhardtii
Dictyostelium discoideum
Leishmania major
Plasmodium yoelii
Для Linux (даже, если это консольная Ubuntu на WSL) или MacOS, команда выглядит так:
nhmmer -E 1e-9 --tblout YOUR_GENE.tsv YOUR_GENE.fasta GENOME.hmm > YOUR_GENE.txt
А теперь, что все это значит:
Ключ -E 1e-9 указывает программе, что все совпадения с e-value выше 10-9 не будут записываться в вывод. Это нужно, чтобы не загромождать файл с результатами лишней информацией, которая и так будет отброшена.
Ключ --tblout создаёт файл, обозначенный YOUR_GENE.tsv и содержащий результаты выравнивания в виде .tsv файла, из которого удобно, естественно, при помощи скрипта вытащить геномные координаты.
GENOME.hmm — база HMMER, сгенерированная на основе геномной последовательности в формате .fasta.
YOUR_GENE.fasta — выбранная вами нуклеотидная последовательность
YOUR_GENE.txt — файл, содержащий результаты выравнивания с самим выравниванием — выровненные участки, гэпы, замены, координаты.
Обычно научная публикация состоит из 6 разделов. Пример можно посмотреть вот тут. Вообще учёные публикуют свои данные, чтобы их смогли бы использовать другие исследователи по всему миру. Традиционно естественнонаучные публикации пишутся на английском языке, он международный и все его знают. Ну почти все. Ладно, не все, но многие. Публикация должна содержать чёткое и ясное описание не только полученных результатов, но и использованных методов, ведь все могут совершать ошибки, и иногда требуется перепроверка чужих результатов. Кстати, чтобы не попасться на низкокачественную статью при подборе литературы, рекомендую ознакомиться вот с этим коротким курсом. А теперь немного о структуре публикации.
Аннотация
Содержит постановку задачи, целей исследования, проверяемую гипотезу, краткое описание полученных результатов и их обсуждение. Объем - не более 1500 знаков. Дополнительно нужно указать ключевые слова для поиска.
Введение
Содержит развернутую постановку задачи и гипотезу, которая проверяется в исследовании. Должно содержать все найденные литературные данные об исследуемом гене, его эволюции, экспрессии и функциях. Если про него почти ничего не написано, то у вас есть отличных шанс описать его первыми на основании Ваших результатов.
Материалы и методы
Название говорит само за себя. Содержит описание поиска исходных данных для исследования. Должны быть описаны используемые базы данных, программы, ресурсы, пороговые значения.
Программная часть методов должна содержать:
краткое описание алгоритмов и инструментов, обоснование их использования для решения поставленной задачи
краткое описание входных файлов и описание структур данных, их назначение и порядок работы с ними
краткое описание вычислительной части, структура, функциональные блоки
описание выходных данных
краткое описание интерфейса (GUI) приложения 1 со скриншотом, структура программного кода, реализующего интерфейс с помощью библиотеки tkinter
Результаты и обсуждение
Таблицу с найденными ортологами и их номерами, филогенетическое дерево.
Описание обобщенных результатов исследования, выводов, предположение о подтверждении или опровержении сформулированной в целях гипотезы, анализ соответствия Ваших данных с литературными, предположения о причинах расхождения. И помните, что расхождение не обязательно говорит об ошибке с Вашей стороны. Возможно, вы дополнили и уточнили более ранние результаты других исследований.
Все дополнительные результаты, такие как файл с ортологами, выносятся в Приложение.
Список литературы
Список литературы в алфавитном порядке. Есть несколько форматов оформления ссылок на литературные источники:
APA (American Psychological Association) используется в публикациях по образованию, психологии и естественным наукам
MLA (Modern Language Association) для гуманитарных наук
Chicago/Turabian чаще всего используется в публикациях по экономике, бизнесу, истории и искусству
Стандартизация в оформлении списка литературы нужна не для почитания традиций, а для упрощения считывания скриптами ссылок из рукописи, когда она отправляется в печать. Поэтому большинство журналов просит использовать стандартизированные форматы.
Приложение
Содержит полные файлы результатов, спецификацию программы и ее листинг. Файлы результатов в приложении допустимо оставить в исходных форматах.
Листинг программы лучше представить в виде файла html, экспортированного из Jupyter Notebook. В этом случае спецификацию удобно совместить с листингом. Листинг должен содержать комментарии для лучшей читаемости кода.