Любые вирусы, циркулируя в популяции живых организмов, накапливают в своём геноме мутации. Некоторые мутации могут оказаться полезными для вируса, позволяя ему распространяться быстрее, некоторые вредными, приводя к меньшей инфекционности, а иные, и их большинство, оказываются абсолютно нейтральными.
Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.
Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.
Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.
Ранее вы научились искать гомологичные последовательности генов в геномах других организмов, прослеживая их эволюцию. Но исследовать эволюционные процессы можно, не только реконструируя прошлое, но и анализируя настоящее. Эволюцию в реальном времени удобнее всего изучать на чём-то маленьком и быстро размножающемся, например, на бактериях или, ещё лучше, на вирусах. И 2019 год подарил нам просто идеальный объект для изучения. Вспышка коронавируса SARS-CoV-2, о которой впервые было сообщено в провинции Ухань в Китае в декабре 2019 года, привела к пандемии, затронувшей 213 стран и территорий по всему миру. Вирус весьма быстро распространяется и, гуляя по популяции людей, постоянно изменяется, порождая новые штаммы, иногда обладающие новыми свойствами и требующие иного подхода при лечении. Например, доминирующий нынче omicron накопил у себя 50 мутаций, 36 из которых в S-белке. Хороший научно-популярный обзор по нему можно почитать вот тут.
Вообще любые вирусы, циркулируя в популяции живых организмов, накапливают в своём геноме мутации. Некоторые мутации могут оказаться полезными для вируса, позволяя ему распространяться быстрее, некоторые вредными, приводя к меньшей инфекционности, а иные, и их большинство, оказываются абсолютно нейтральными. Полезные мутации могут помогать вирусу убегать от иммунитета, лучше связываться с клетками хозяина и активнее разноситься по организму. Кроме того, новые штаммы, появляющиеся в ходе изменений генома вируса, могут оказаться менее чувствительными к иммунитету, сформировавшемуся в ответ на введение вакцины. Поэтому не только очень интересно, но и важно отслеживать появление новых мутаций в геноме вируса и моделировать их возможный эффект.
Итак, вы научились проводить филогенетический анализ как белок-кодирующих, так и некодирующих генов, освоили несколько программ и алгоритмов и умеете создавать простые скрипты для автоматизации анализа. И теперь настало время перейти на следующий уровень. В этом задании вам предстоит проанализировать генетическое разнообразие коронавируса SARS-CoV-2, гуляющего нынче по планете. Набор инструментов останется почти тем же, разве что опять придётся поменять программу для парного выравнивания. На этот раз предложу вам использовать отвергнутый нами ранее из-за своей низкой чувствительности при поиске гомологичных последовательностей BLASTn. BLASTn один из наиболее простых инструментов для парного выравниваня, он идеален, когда вы сравниваете схожие последовательности, и намного быстрее и проще использованного ранее HMMER. Филогению вируса можно строить как по всему геному, но это долго и требует вычислительных ресурсов, так и по отдельным его генам. Самый мейнстримный ген SARS-CoV-2 — тот, что кодирует S-белок, который торчит на поверхности вируса. Помните? Если нет, то Google saves. Ну или на обложку задания посмотрите что ли. Но почему ген Ы-белка такой популярный? Все дело в том, что именно он связывается с рецепторами ACEII на поверхности наших клеток, то есть мутации в нём будут напрямую влять на прочность взаимодействия вируса с клеткой и, следовательно, на его поведение. Поэтому предлагаю вам его и использовать в этом задании. Хотите взять какой-то другой белочек? Why not?
BLASTn -- базовая программа для нуклеотидного выравнивания, идеальна для быстрого сравнения похожих последовательностей
MAFFT -- программа для множественного выравнивания
GISAID -- база данных, содержащая геномы вируса гриппа и коронавируса SARS-CoV-2, выявленные у пациентов со всего мира. Ещё там можно посмотреть красивые анимации распространения коронавируса по планете и появления новых штаммов.
Конвертер форматов -- web версия программы для конвертации .fasta в .nexus.
Seqmagick -- программа для конвертации .fasta в .nexus.
Выбрать регион мира или смириться с назначенным.
Перейти на сайт www.gisaid.org, войти под своей учётной записью и скачать все полные геномы коронавируса, выявленные в выбранном регионе.
Сохранить выбранные геномные последовательности в тексовом файле с расширением .fasta.
Скачать последовательность гена S-белка (или любого иного) вот отсюда. А сам референчный геном SARS-CoV-2 можно посмотреть вот тут.
Сохранить полученные последовательности в формате .fasta.
Найти в скачанных геномах выбранный ген. Для этого нужно, используя последовательность выбранного гена в качестве запроса и файл с геномными последовательностями в качестве базы, провести выравнивание. Это можно сделать и в десктопной, и в web-версии BLASTn.
Скачать результаты выравнивания в .fasta файл, выбрав "Aligned sequences". Этот файл будет содержать последовательности выбрнного Вами гена со всеми их мутациями.
Теперь из заголовков в скачанном файле нужно убрать все символы кроме букв "A-Z", цифр "0-9", знака ">" в начале заголовка и underscore (_ -- подчёркивание). Неподходящие симолы можно заменить на underscore. Это нужно потому, что Mr.Bayes не воспринимает любые другие символы. Также длина заголовка не должна превышать 99 символов.
Теперь множно перевести нуклеотидные последовательности гена в аминокислотные, сделав in silico трансляцию на этом сайте.
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i. Можно запускать выравнивание, как и в предыдущей задаче, а можно прописать в командной строке все параметры разом: mafft --genafpair --maxiterate 1000 input_file > output_file
Результат множественного выравнивания можно посмотреть в программе Jalview. Она кросплатформенная и очень простая. Правда, посмотрите, чтобы понять, как оно хотя бы выглядит.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании seqmagick seqmagick convert --output-format nexus --alphabet dna YOUR_FILE.fasta YOUR_FILE.nexus
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным ниже.
Открыть сгенерированное дерево в редакторе FigTree или Interactive Tree of Life на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность.
Сделать вывод о генетическом разнообразии коронавируса.
Отредактировать дерево, выбрав шрифт и кегль, покрасив клады в разные цвета, повесить на него что-нибудь.
Mission comleted! You're breathtaking!
Его можно найти вот тут.
Input file? -- перетащить файл с ортологами в окно командной строки
Output file? -- написать путь и название файла, куда программа будет выводить результат множественного выравнивания
Output format? -- либо "Fasta format / Sorted", либо "Fasta format / Input order". На Ваш выбор.
Strategy? -- E-INS-i
Additional arguments? -- просто нажать Enter
command=".................." -- просто нажать Enter
Подождать, выпить чай
Готово.
Написать Execute и перетащить файл в формате .nexus в окно командной строки
lset nst=6 rates=invgamma — задаёт алгоритм построения дерева -- метод максимального правдоподобия
mcmc samplefreq=100 printfreq=100 diagnfreq=1000 stoprule=yes stopval=0.01 — запускает реконструкцию филогенетического дерева и добавляет генерации до достижения значение в строке "Average standard deviation of split frequencies:" равному или ниже 0.01.
Подождать, выпить чай
Через некоторое время программа спросит "Continue with analysis? (yes/no):". Чтобы ей что-то ответить, нужно обратить внимание на значение в строке "Average standard deviation of split frequencies:", и если оно выше 0.01, то стоит продолжить анализ, написав "yes", нажав Enter и введя желаемое число генераций. Оно зависит от степени удалённости от 0.01, и в среднем можно добавлять по 20000 генераций, пока average standard deviation of split frequencies не достигнет 0.01. После этого можно закончить анализ, написав "no".
sump
sumt
Написать Execute и перетащить файл в формате .nexus в окно командной строки
prset aamodelpr=mixed — задаёт алгоритм построения дерева
mcmc nchains=1 stoprule=yes stopval=0.01 — запускает реконструкцию филогенетического дерева и добавляет генерации до достижения значение в строке "Average standard deviation of split frequencies:" равному или ниже 0.01.
Подождать, выпить чай
Через некоторое время программа спросит "Continue with analysis? (yes/no):". Чтобы ей что-то ответить, нужно обратить внимание на значение в строке "Average standard deviation of split frequencies:", и если оно выше 0.01, то стоит продолжить анализ, написав "yes", нажав Enter и введя желаемое число генераций. Оно зависит от степени удалённости от 0.01, и в среднем можно добавлять по 20000 генераций, пока average standard deviation of split frequencies не достигнет 0.01. После этого можно закончить анализ, написав "no".
sump
sumt