Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.
Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.
Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.
Эволюция живых организмов — не что иное, как эволюция генома. Новые гены могут появляться несколькими способами: за счёт дупликации — удвоения самого гена или фрагмента хромосомы, его содержащего; в результате слияния двух генов, в таком случае получается fusion-ген, обладающей функциями обоих своих предков; за счёт ретровирусной вставки в половые клетки организма — гены ретровируса постепенно накапливают мутации и могут приобретать новые, полезные для организма функции; и последний способ — возникновение de novo, заново, то есть из некодирующей последовательности, приобретающей старт- и стоп-кодоны, а также промоторную область.
Гены, имеющие общее эволюционное происхождение, именуются гомологами. Гомологи можно разделить на ортологи и паралоги. Ортологи возникают в результате процесса видообразования, например, гены MYH1 (миозин-1) человека и шимпанзе. Паралоги же появляются за счёт дупликации гена. Подробнее про гомологи можно почитать тут.
Таким образом, чтобы понять эволюционное происхождение гена нужно искать его последовательность в геномах разных организмов, и временем возникновения гена будет считаться время возникновения общего предка двух видов, у которых присутствуют ортологи исследуемого гена. Например, если ортолог гена pbov1 человека обнаруживается у всех видов млекопитающих, но не обнаруживается у рептилий и более древних таксонов, то считается, что этот ген возник у млекопитающих.
Ниже подробно описаны задание и ход работы.
Вам будет предложено найти ортологи некоторых белок-кодирующих генов при помощи алгоритма tBLASTn, доступного в пакете BLAST NCBI. tBLASTn работает с аминокислотной последовательностью в качестве входной. Алгоритм отличается более высокой чувствительностью к эволюционно дальним гомологам за счёт того, что он создаёт на основе аминокислотной последовательности базу из всех вариантов нуклеотидных последовательностей, способных кодировать исследуемый белок.
Множественное выравнивание удобнее делать в программе MAFFT, которая имеет хороший балланс точности и скорости вычислений.
Для реконструкции филогенетического дерева нет ничего лучше Mr.Bayes.
Все инструкции по работе с этими приложениями вы найдете в колонке справа.
Вам будут выданы ensembl id генов (ID гена в базе Ensemble). Вам нужно скачать его аминокислотную последовательность из базы ensembl.org. Порядок действий при работе с базой Ensemble смотрите на видеоинструкции справа.
При помощи алгоритма tBLASTn, нужно найти ортологи исследуемого гена в геномах 11 видов живых организмов, перечисленных также справа. Из этих 11 видов для своего гена вы можете найти не все ортологи. tBLASTn - это алгоритм поиска ортологов в базе NCBI. Порядок работы с этим алгоритмом представлен в видеоинструкции справа.
Результатом работы алгоритма является текстовый файл в формате .fasta, который имеет следующую структуру:
В нем представлены последовательности всех найденных ортологов изучаемого гена, идущих подряд сверху вниз.
Каждый вид начинается с заголовка, который очень важен для последующего анализа. Заголовок начинается знаком '>', после которого представлена нужная информация об этой конкретной последовательности. В частности, какому виду она принадлежит.
Для изучения эволюции гена для всех обнаруженных ортологов нужно провести множественное выравнивание программой MAFFT по аглоритму E-INS-i. Видеоинструкцию и настройки программы вы сможете так же найти справа от этого описания.
Полученный .fasta файл с результатом множественного выравнивания потребуется перевести в формат .nexus при помощи конвертера.
Теперь все готово для реконструкции филогенетического дерева. Это лучше делать на локально установленной версии Mr.Bayes, хотя допустимо использовать и web-версию. Однако web-версии зачастую имеют ограниченные функции и лимит на объём анализируемых данных.
Полученное филогенетическое дерево можно посмотреть через FigTree или Archeopteryx, обе этих программы не требуют установки и запускаются напрямую из бинарного файла. Дерево лучше оформить, выбрав адекватные шрифты и кегль, раскрасив клады в разные цвета для удобства визуального восприятия.
Работа выполнена, вы превосходны!
NCBI — база данных, содержащая литературу, геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков и огромное количество другой информации. Также тут можно найти множество биоинформатических программ, доступных как через web-интерфейс, так и для скачивания
tBLASTn — высокая чувствительность при локальном выравнивании аминокислотных последовательностей
MAFFT -- программа для множественного выравнивания
Ensembl -- база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Конвертер форматов -- web версия программы для конвертации .fasta в .nexus.
Seqmagick -- программа для конвертации .fasta в .nexus.
Lifemap -- филогенетическое дерево живых организмов. Позволяет посмотреть взаимное эволюционное расположение видов из всех трёх доменов жизни. В строку поиска можно вводить латинское название вида.
Выбрать ген или смириться с назначенным (список генов - справа).
Получить аминокислотную последовательность наиболее длинной изоформы белка, кодируемого исследуемым геном, и соответствующую её кодирующую последовательность РНК (coding sequence). Изоформа белка - это вариант РНК или белка после альтернативного сплайсинга.
Сохранить выбранную аминокислотную последовательность в текстовом файле с расширением .fasta.
Загрузить полученный файл в поле "Enter Query Sequence" в tBLASTn.
В поле "Organism" раздела "Choose Search Set" ввести названия видов живых организмов (подробное описание этого процесса и список организмов указаны в колонке справа). Рекомендуется вводить не более 6 видов на одно выравнивание, чтобы избежать большого количества последовательностей в output.
Нажать BLAST.
Подождать, выпить чай.
Среди обнаруженных последовательностей нужно убрать несоответствующие пороговому значению по e-value. E-value показывает, с какой вероятностью последовательность выровнялась случайно. То есть полученные последовательности не родственны, а похожи из-за случайных мутаций. Таким образом, надо выбрать те последовательности, для которых эта случайная составляющая минимальна - E-value <= e-11 (для нуклеотидных выравниваний). Требуется также убрать отметки для BAC-clones -- неинтересные нам технические последовательности -- и целые хромосомы (chromosomes), с ними мы поработаем позже.
Скачать обнаруженные последовательности в формате .fasta, нажав "Download" и выбрав в выпавшем меню "FASTA (complete sequence)".
Теперь из заголовков в скачанном файле нужно убрать все символы кроме букв "A-Z", цифр "0-9", ">" в начале заголовка и underscore (_ нижнее подчёркивание). Неподходящие символы можно заменить на underscore с помощью инструмента блокнота "Найти-Заменить". Это нужно потому, что Mr.Bayes не воспринимает любые другие символы.
Также длина заголовка не должна превышать 99 символов, для обрезки можно написать скрипт на python или удалить все, что превышает 99 символов, пробежав по заголовкам вручную.
Добавить в файл кодирующую последовательность РНК исследуемого Вами гена человека, не забыв отформатировать заголовок и в ней. Она скачивается там же, где и аминокислотная, но выбрать нужно coding DNA.
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i. Детально этот шаг описан справа - см. Запуск MAFFT.
Результат множественного выравнивания можно посмотреть в программе Jalview. Она кросплатформенная и очень простая. Правда, посмотрите, чтобы понять, как оно хотя бы выглядит.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании seqmagick seqmagick convert --output-format nexus --alphabet dna YOUR_FILE.fasta YOUR_FILE.nexus.
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным справа - см. Запуск Mr.Bayers.
Открыть сгенерированное дерево в редакторе FigTree или Archeopteryx на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность.
Сделать вывод о времени возникновения гена.
Отредактировать дерево, выбрав шрифт и кегль, покрасив клады в разные цвета.