Анализ генетического разнообразия SARS-CoV-2

Раздел "Филогенетический анализ". Задание 3

Любые вирусы, циркулируя в популяции живых организмов, накапливают в своём геноме мутации. Некоторые мутации могут оказаться полезными для вируса, позволяя ему распространяться быстрее, некоторые вредными, приводя к меньшей инфекционности, а иные, и их большинство, оказываются абсолютно нейтральными.

Сборник заданий

Теория по филогенетике

Теория по выравниваниям

Теория по экспрессии

Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.

Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.

Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.

The section is almost finished.

Описание:

Ранее вы научились искать гомологичные последовательности генов в геномах других организмов, прослеживая их эволюцию. Но исследовать эволюционные процессы можно, не только реконструируя прошлое, но и анализируя настоящее. Эволюцию в реальном времени удобнее всего изучать на чём-то маленьком и быстро размножающемся, например, на бактериях или, ещё лучше, на вирусах. И 2019 год подарил нам просто идеальный объект для изучения. Вспышка коронавируса SARS-CoV-2, о которой впервые было сообщено в провинции Ухань в Китае в декабре 2019 года, привела к пандемии, затронувшей 213 стран и территорий по всему миру. Вирус весьма быстро распространяется и, гуляя по популяции людей, постоянно изменяется, порождая новые штаммы, иногда обладающие новыми свойствами и требующие иного подхода при лечении. Например, доминирующий нынче omicron накопил у себя 50 мутаций, 36 из которых в S-белке. Хороший научно-популярный обзор по нему можно почитать вот тут.

Вообще любые вирусы, циркулируя в популяции живых организмов, накапливают в своём геноме мутации. Некоторые мутации могут оказаться полезными для вируса, позволяя ему распространяться быстрее, некоторые вредными, приводя к меньшей инфекционности, а иные, и их большинство, оказываются абсолютно нейтральными. Полезные мутации могут помогать вирусу убегать от иммунитета, лучше связываться с клетками хозяина и активнее разноситься по организму. Кроме того, новые штаммы, появляющиеся в ходе изменений генома вируса, могут оказаться менее чувствительными к иммунитету, сформировавшемуся в ответ на введение вакцины. Поэтому не только очень интересно, но и важно отслеживать появление новых мутаций в геноме вируса и моделировать их возможный эффект.

Задание:

Итак, вы научились проводить филогенетический анализ как белок-кодирующих, так и некодирующих генов, освоили несколько программ и алгоритмов и умеете создавать простые скрипты для автоматизации анализа. И теперь настало время перейти на следующий уровень. В этом задании вам предстоит проанализировать генетическое разнообразие коронавируса SARS-CoV-2, гуляющего нынче по планете. Набор инструментов останется почти тем же, разве что опять придётся поменять программу для парного выравнивания. На этот раз предложу вам использовать отвергнутый нами ранее из-за своей низкой чувствительности при поиске гомологичных последовательностей BLASTn. BLASTn один из наиболее простых инструментов для парного выравниваня, он идеален, когда вы сравниваете схожие последовательности, и намного быстрее и проще использованного ранее HMMER. Филогению вируса можно строить как по всему геному, но это долго и требует вычислительных ресурсов, так и по отдельным его генам. Самый мейнстримный ген SARS-CoV-2 — тот, что кодирует S-белок, который торчит на поверхности вируса. Помните? Если нет, то Google saves. Ну или на обложку задания посмотрите что ли. Но почему ген Ы-белка такой популярный? Все дело в том, что именно он связывается с рецепторами ACEII на поверхности наших клеток, то есть мутации в нём будут напрямую влять на прочность взаимодействия вируса с клеткой и, следовательно, на его поведение. Поэтому предлагаю вам его и использовать в этом задании. Хотите взять какой-то другой белочек? Why not?

Ссылки на тулы и базы:

BLASTn -- базовая программа для нуклеотидного выравнивания, идеальна для быстрого сравнения похожих последовательностей
MAFFT -- программа для множественного выравнивания
GISAID -- база данных, содержащая геномы вируса гриппа и коронавируса SARS-CoV-2, выявленные у пациентов со всего мира. Ещё там можно посмотреть красивые анимации распространения коронавируса по планете и появления новых штаммов.
Конвертер форматов -- web версия программы для конвертации .fasta в .nexus.
Seqmagick -- программа для конвертации .fasta в .nexus.

Ход работы:

Выбрать регион мира или смириться с назначенным.
Перейти на сайт www.gisaid.org, войти под своей учётной записью и скачать все полные геномы коронавируса, выявленные в выбранном регионе.
Сохранить выбранные геномные последовательности в тексовом файле с расширением .fasta.
Скачать последовательность гена S-белка (или любого иного) вот отсюда. А сам референчный геном SARS-CoV-2 можно посмотреть вот тут.
Сохранить полученные последовательности в формате .fasta.
Найти в скачанных геномах выбранный ген. Для этого нужно, используя последовательность выбранного гена в качестве запроса и файл с геномными последовательностями в качестве базы, провести выравнивание. Это можно сделать и в десктопной, и в web-версии BLASTn.
Скачать результаты выравнивания в .fasta файл, выбрав "Aligned sequences". Этот файл будет содержать последовательности выбрнного Вами гена со всеми их мутациями.
Теперь из заголовков в скачанном файле нужно убрать все символы кроме букв "A-Z", цифр "0-9", знака ">" в начале заголовка и underscore (_ -- подчёркивание). Неподходящие симолы можно заменить на underscore. Это нужно потому, что Mr.Bayes не воспринимает любые другие символы. Также длина заголовка не должна превышать 99 символов.
Теперь множно перевести нуклеотидные последовательности гена в аминокислотные, сделав in silico трансляцию на этом сайте.
Запустить множественное выравнивание в MAFFT с использованием алгоритма E-INS-i. Можно запускать выравнивание, как и в предыдущей задаче, а можно прописать в командной строке все параметры разом: mafft --genafpair --maxiterate 1000 input_file > output_file
Результат множественного выравнивания можно посмотреть в программе Jalview. Она кросплатформенная и очень простая. Правда, посмотрите, чтобы понять, как оно хотя бы выглядит.
Сконвертировать полученный .fasta файл в формат .nexus в web-конвертере или в seqmagick. При использовании seqmagick seqmagick convert --output-format nexus --alphabet dna YOUR_FILE.fasta YOUR_FILE.nexus
Провести реконструкцию филогенетического дерева в Mr.Bayes по параметрам, описанным ниже.
Открыть сгенерированное дерево в редакторе FigTree или Interactive Tree of Life на ваш выбор, выбрав файл с расширением .con.tre.
Проанализировать дерево, его биологическую корректность.
Сделать вывод о генетическом разнообразии коронавируса.
Отредактировать дерево, выбрав шрифт и кегль, покрасив клады в разные цвета, повесить на него что-нибудь.
Mission comleted! You're breathtaking!

Загрузка геномов вируса

Список регионов:

Его можно найти вот тут.

Выравнивание в BLASTn

Запуск MAFFT:

Input file? -- перетащить файл с ортологами в окно командной строки
Output file? -- написать путь и название файла, куда программа будет выводить результат множественного выравнивания
Output format? -- либо "Fasta format / Sorted", либо "Fasta format / Input order". На Ваш выбор.
Strategy? -- E-INS-i
Additional arguments? -- просто нажать Enter
command=".................." -- просто нажать Enter
Подождать, выпить чай
Готово.

Запуск Mr.Bayes:

Для нуклеотидных последовательностей:

Написать Execute и перетащить файл в формате .nexus в окно командной строки
lset nst=6 rates=invgamma — задаёт алгоритм построения дерева -- метод максимального правдоподобия
mcmc samplefreq=100 printfreq=100 diagnfreq=1000 stoprule=yes stopval=0.01 — запускает реконструкцию филогенетического дерева и добавляет генерации до достижения значение в строке "Average standard deviation of split frequencies:" равному или ниже 0.01.
Подождать, выпить чай
Через некоторое время программа спросит "Continue with analysis? (yes/no):". Чтобы ей что-то ответить, нужно обратить внимание на значение в строке "Average standard deviation of split frequencies:", и если оно выше 0.01, то стоит продолжить анализ, написав "yes", нажав Enter и введя желаемое число генераций. Оно зависит от степени удалённости от 0.01, и в среднем можно добавлять по 20000 генераций, пока average standard deviation of split frequencies не достигнет 0.01. После этого можно закончить анализ, написав "no".
sump
sumt

Для аминокислотных последовательностей:

Написать Execute и перетащить файл в формате .nexus в окно командной строки
prset aamodelpr=mixed — задаёт алгоритм построения дерева
mcmc nchains=1 stoprule=yes stopval=0.01 — запускает реконструкцию филогенетического дерева и добавляет генерации до достижения значение в строке "Average standard deviation of split frequencies:" равному или ниже 0.01.
Подождать, выпить чай
Через некоторое время программа спросит "Continue with analysis? (yes/no):". Чтобы ей что-то ответить, нужно обратить внимание на значение в строке "Average standard deviation of split frequencies:", и если оно выше 0.01, то стоит продолжить анализ, написав "yes", нажав Enter и введя желаемое число генераций. Оно зависит от степени удалённости от 0.01, и в среднем можно добавлять по 20000 генераций, пока average standard deviation of split frequencies не достигнет 0.01. После этого можно закончить анализ, написав "no".
sump
sumt

Page updated

Google Sites

Report abuse