Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.
Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.
Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.
Выполняя предыдущее задание Вы научились делать филогенетический анализ белок-кодирующих генов. Это относительно простая задача, ведь такие последовательности как правило достаточно консервативны и медленно накапливают мутации. Более того, по аминокислотной последовательности возможно реконструировать набор нуклеотидных последовательностей, способных кодировать исследуемый белок. Это позволяет использовать простые алгоритмы вырвнивания и поиска гомологичных последовательностей, такие как tBLASTn. Однако белок-кодирующие элементы в нашем составляют лишь несколько процентов нашего генома, подавляющая его часть занята некодирующими и регуляторными последовательностями. И их филогенетический анализ представляет нетривиальную и весьма сложную задачу. Кстати, вот в этой статье как раз так и пишут, что поиск гомологов некодирующих последовательностей is tedious task. Публикация старая, но рекомендую её почитать, там пишут интересное.
Итак, вы научились проводить филогенетический анализ белок-кодирующих генов, а теперь вам предстоит сделать анализ некодирующих последовательностей. На самом деле разницы почти никакой нет, но тут потребуются несколько иные программы, хотя полюбившиеся вам MAFFT и Mr.Bayes останутся. Из-за того, что весьма чувствительный tBLASTn заточен под анализ аминокислотных последовательностей, а BLASTn не годится для поиска эволюционо удалённых гомологов, предлагаю вам использовать программу HMMER. HMMER основан на скрытых марковских моделях и обладает хорошими показателями чувствительности при поиски эволюционно дальних последовательностей, даже если они накопили значительное число мутаций.
Вам будут выданы ensembl id некодирующих последоватльностей, для которых нужно будет провести филогенетический анализ. Для этого потребуется скачать их нуклеотидную последовательность из знакомой вам по предыдущему заданию базы ensembl.org. Затем при помощи HMMER найти ортологи исследуемого гена в геномах 11 видов живых организмов, перечисленных ниже. Получить нуклеотидные последовательности однаруженных ортологов при помощи ресурса BioMart. Для обнаруженных ортологов нужно провести множественное выравнивание программой MAFFT по аглоритму E-INS-i. E-INS-i наиболее оптимален для множественного выравнивания небольшого количества последовательностей с неизвестной заранее структурой. Полученный .fasta файл с результатом множественного выравнивания потребуется перевести в формат .nexus при помощи web версии конвертера или standalone пакета seqmagick. Теперь все готово для реконструкции филогенетического дерева. Это лучше делать на локально установленной версии Mr.Bayes, хотя допустимо использовать и web-версию. Однако web-версии зачастую имеют ограниченные функии и лимит на объём анализируемых данных. Полученное филогенетическое дерево можно посмотреть через FigTree или Archeopteryx, обе этих программы не требуют установки и запускаются напрямую из бинарного файла. Дерево лучше приукрасить, выбрав адекватные шрифты и кегль, раскрасив клады в разные цвета для удобства визуального восприятия. Работа выполнена, вы превосходны!
HMMER — высокая чувствительность при локальном выравнивании нуклеотидных последовательностей
MAFFT — программа для множественного выравнивания
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Конвертер форматов — web версия программы для конвертации .fasta в .nexus.
Seqmagick — программа для конвертации .fasta в .nexus.
Lifemap — филогенетическое дерево живых организмов. Позволяет посмотреть взаимное эволюционное расположение видов из всех трёх доменов жизни. В строку поиска можно вводить латинское название вида.
Выбрать ген или смириться с назначенным.
Найти на ensembl.org нуклеотидную последовательность наиболее длинной сплайс-формы, кодируемой исследуемым геном.
Сохранить выбранную нуклеотидную последовательность в текстовом файле с расширением .fasta.
Скачать геномы предложенных ниже организмов с ensembl.org. Геномы лучше скачивать скриптом через ftp. Адрес однотипен и содержит латинское название вида, которое можно использовать, как переменную. Сам файл с геномом можно качать по маске. Например для шимпанзе путь к файлу будет выглядеть так: /pub/release-113/fasta/pan_troglodytes/dna/*dna.toplevel.fa.gz. Обратите внимание, что номер релиза следует проверить на актуальность.
Скрипт может выглядеть как-то так:
#!/bin/sh
s_list='species.txt'
while read species; do
rsync -av rsync://ftp.ensembl.org/pub/release-113/fasta/${species}/dna/*dna.toplevel.fa.gz
done < ${s_list}
Запустить выравнивание нуклеотидной последовательности на геном в программе nHMMER. Удобнее это делать скриптом, взяв путь к базе в качестве переменной. Описание команды запуска и назначение ключей описано ниже. Если вы ленивы, то скрипт можно взять тут.
Подождать, выпить чай. Возможно, поспать. HMMER суров и молчалив, как норвежские боги, и не говорит о прогрессе выравнивания. Можете посмотреть, если ещё не видели, The Martian.
Среди обнаруженных последовательностей нужно выбрать только соответствующие пороговому значению по e-value (e-10 для нуклеотидных выравниваний, а вообще, ну прочитайте вы ту статью).
Если вы работали с геномами, то нужно получить геномные координаты подходящих последовательностей из TSV файла, перевести их в формат, пригодный для использования в BioMart — chromosome_name:start:end:strand, например, chr1:235783:236789:1 или chr2:235783:236789:-1.
Если вы работали с транскриптомами, то нужно сохранить id генов из первого столбца TSV файла в отдельный файл, а затем получить их нуклеотидую последовательность при помощи BioMart (справа есть инструкция).
Скачать нуклеотидные последовательности по координаиам при помощи ресурса BioMart.
Сохранить полученные последовательности в формате .fasta.
Теперь из заголовков в скачанном файле нужно убрать все символы кроме букв "A-Z", цифр "0-9", знака ">" в начале заголовка и underscore (_ -- подчёркивание). Неподходящие симолы можно заменить на underscore. Это нужно потому, что Mr.Bayes не воспринимает любые другие символы. Также длина заголовка не должна превышать 99 символов.
Добавить в файл исследуемую Вами последовательность гена человека, не забыв отформатировать заголовок и в ней.
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i. Можно запускать выравнивание, как и в предыдущей задаче, а можно прописать в командной строке все параметры разом: mafft --genafpair --maxiterate 1000 input_file > output_file
Результат множественного выравнивания можно посмотреть в программе Jalview. Она кросплатформенная и очень простая. Правда, посмотрите, чтобы понять, как оно хотя бы выглядит.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании seqmagick seqmagick convert --output-format nexus --alphabet dna YOUR_FILE.fasta YOUR_FILE.nexus
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным ниже.
Открыть сгенерированное дерево в редакторе FigTree или Archeopteryx на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность.
Сделать вывод о времени возникновения гена. Тут вам, возможно, потребуется понять, какой вид к какому таксону принадлежит. Для этого можно зайти вот сюда. А если хочется погрузиться в филогению, то можно позалипать в Time Tree.
Отредактировать дерево, выбрав шрифт и кегль, покрасив клады в разные цвета, повесить на него скворечник, скоро весна.
Mission comleted! You're breathtaking!
Pan troglodytes
Macaca mulatta
Rattus norvegicus
Bos taurus
Canis lupus familiaris
Monodelphis domestica
Ornithorhynchus anatinus
Crocodylus porosus
Xenopus tropicalis
Danio rerio
Drosophila melanogaster
Для генерации .hmm файла введите в комендную строку ./makehmmerdb.exe GENOME.fa GENOME.hmm.
Если хотите побыстрее, то воспользуйтесь скриптом (+10 to speed, requires 150 of intelligence).
Введите в командную строку, если вы работаете под Cygwin ./nhmmer.exe -E 1e-9 --tblout YOUR_GENE.tsv YOUR_GENE.fasta GENOME.hmm > YOUR_GENE.txt. Если под Linux (даже, если это консольная Ubuntu на Windows 10) или MacOS, команда выглядит так: nhmmer -E 1e-9 --tblout YOUR_GENE_tab.out YOUR_GENE.fasta GENOME.hmm > YOUR_GENE.out.
А теперь, что все это значит.
Ключ -E 1e-9 указывает программе, что все совпадения с e-value выше 10-9 не будут записываться в вывод. Это нужно, чтобы не загромождать файл с результатами лишней информацией, которая и так будет отброшена.
Ключ --tblout создаёт файл, обозначенный YOUR_GENE.tsv и содержащий результаты выравнивания в виде .tsv файла, из которого удобно, естественно, при помощи скрипта вытащить геномные координаты.
GENOME.hmm -- база HMMER, сгенерированная на основе геномной последовательности в формате .fasta.
YOUR_GENE.fasta -- выбранная вами нуклеотидная последовательность
YOUR_GENE.txt -- файл, содержащий результаты выравнивания с самим выравниванием -- выровненные участки, гэпы, замены, координаты.
Для выравнивания опять же рекомендую написать скрипт, чтобы не делать 11 раз одно и то же.
Если вы работаете с версией программы для Windows:
Input file? -- перетащить файл с ортологами в окно командной строки
Output file? -- написать путь и название файла, куда программа будет выводить результат множественного выравнивания
Output format? -- либо "Fasta format / Sorted", либо "Fasta format / Input order". На Ваш выбор.
Strategy? -- E-INS-i
Additional arguments? -- просто нажать Enter
command=".................." -- просто нажать Enter
Подождать, выпить чай
Готово.
Если вы работаете под Linux или MacOS:
В консоли ввести mafft --genafpair --maxiterate 1000 input_file > output_file
--genafpair -- ключ, который запускает выравнивание по алгоритму E-INS-i
--maxiterate 1000 -- а этот ключ указывает число генераций отдельных выравниваний, можно оставить 1000, можно больше, можно меньше
input_file -- файл с ортологами
output_file -- название файла, куда программа будет выводить результат множественного выравнивания
Написать Execute и перетащить файл в формате .nexus в окно командной строки
lset nst=6 rates=invgamma -- задаёт алгоритм построения дерева -- метод максимального правдоподобия
mcmc samplefreq=100 printfreq=100 diagnfreq=1000 stoprule=yes stopval=0.01 -- запускает реконструкцию филогенетического дерева и добавляет генерации до достижения значение в строке "Average standard deviation of split frequencies:" равному или ниже 0.01.
Подождать, выпить чай
Через некоторое время программа спросит "Continue with analysis? (yes/no):". Чтобы ей что-то ответить, нужно обратить внимание на значение в строке "Average standard deviation of split frequencies:", и если оно выше 0.01, то стоит продолжить анализ, написав "yes", нажав Enter и введя желаемое число генераций. Оно зависит от степени удалённости от 0.01, и в среднем можно добавлять по 20000 генераций, пока average standard deviation of split frequencies не достигнет 0.01. После этого можно закончить анализ, написав "no".
sump
sumt