В курсе биоинформатики вы научились проводить филогенетический анализ белок-кодирующих и некодирующих генов, проводить сборку и аннотацию геномов и анализировать уровни экспрессии генов. И теперь вам предстоит провести небольшое исследование самостоятельно. Вам будет предложен список вирусов, из которого вы и выберете свой будущий объект для анализа. Программы и методы вы можете выбирать самостоятельно в зависимости от ваших предпочтений, а результаты нужно будет оформить в виде классической научной статьи.
Итак, для начала вам потребуется провести анализ консервативности гена, ответственного за синтез, наиболее пригодного для создания вакцины белка вируса. Оценить и обосновать пригодность белка придётся вам самим. Зачем это нужно? Дело в том, что вирусные гены, как и любые другие гены, мутируют неравномерно. В них можно выделить вариабельные и консервативные регионы. Очевидно, что для создания наиболее эффективной вакцины разумно брать стабильные участки гена, тогда она получится более универсальной, то есть будет защищать от большего числа штаммов.
Немного полезной литературы:
NCBI Virus — база данных от NCBI, содержащая нуклеотидные и аминокислотные последовательности самых разных вирусов.
Sequence Read Archive (SRA) — архив сырых данныхз секвенирования. Можно найти результаты полногеномного секвенирования до RNAseq и баркодинга.
MAFFT — программа для множественного выравнивания
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Конвертер форматов — web версия программы для конвертации .fasta в .nexus.
Seqmagick — программа для конвертации .fasta в .nexus.
Перечисленные ниже действия опциональны, при желании вы можете выбрать другие инструменты.
Основная задача — получить результат.
Выбрать вирус на свой вкус.
Скачать геномные последовательности вируса с сайта NCBI Virus или любой другой базы данных, например, созданной под конкретный вирус. Их много, нужно просто поискать.
Подобрать тот белок, который должен подходить для создания вакцины. Тут нужно вспомнить, как работает наша имунная система, и что она будет распознавать в первую очередь.
Скачать референсную последовательность выбранного гена или генов.
Провести локальное выравнивание этой последовательности на каждый геном изучаемого вируса. Вот тут потребуется написать первый скрипт, который должен сохранять лучшие совпадения в отдельный файл.
Перевести все последовательности в полученном файле из нуклеотидных в аминокислотные. Следите за наличием рамки считывания. Последовательности без неё нужно выкинуть. Это ещё один скрипт.
Сделать множественноё выравнивание этих аминокислотных последовательностей программой MAFFT.
И ещё один скрипт. Он должен находить консервативные участки во множественном выравнивании, длиной более 8 аминокислот. Консервативность значит, что в данной позиции какой-то нуклеотид встречается с частотой более 90%. Все консервативные участки сохранить в отдельный файл.
А теперь потребуется создать праймеры для вашего гена. Праймеров два. Они должны быть комплиментарными участкам в начале и в конце гена. Тут тоже придётся покодить. Ваш скрипт должен уметь подбирать сами праймеры, считать их температуру плавления, GC состав и определять самокомплиментарные участки.
Скачать с Sequence Read Archive (SRA) сырые риды, полученные при секвенировании вашего вируса. Рекомендую скачивать не совсем маленькие архивы, потому что, чем он больше, тем больше в нём ридов, а, соответственно, выше покрытие и меньше ошибок.
Собрать геном при помощи программы SPAdes.
Скорее всего, геном не соберётся до хромосомного уровня, а останется на уровне скаффолдов, которые дополнительно потребуется выровнять на референсный геном. А что это значит? Правльно ещё один скрипт. Он должен локально выравнивать скаффолды на референс, и если между ними есть пробелы, то скрипт будет брать из рефернса последовательности, соответствавающие пробелам, и схивать ими скаффолды. Справа есть рисунок, который поможет вспомнить, как это выглядит. А ещё очень рекомендую вот этот канал. Автор прям очень хорошо объясняет.
И следом ещё один скрипт. Он должен проаннотировать собранный геном.
Обычно научная публикация состоит из 6 разделов. Пример можно посмотреть вот тут. Вообще учёные публикуют свои данные, чтобы их смогли бы использовать другие исследователи по всему миру. Традиционно естественнонаучные публикации пишутся на английском языке, он международный и все его знают. Ну почти все. Ладно, не все, но многие. Публикация должна содержать чёткое и ясное описание не только полученных результатов, но и использованных методов, ведь все могут совершать ошибки, и иногда требуется перепроверка чужих результатов. Кстати, чтобы не попасться на низкокачественную статью при подборе литературы, рекомендую ознакомиться вот с этим коротким курсом. А теперь немного о структуре публикации.
Аннотация
Содержит постановку задачи, целей исследования, проверяемую гипотезу, краткое описание полученных результатов и их обсуждение. Объем - не более 1500 знаков. Дополнительно нужно указать ключевые слова для поиска.
Введение
Содержит развернутую постановку задачи и гипотезу, которая проверяется в исследовании. Должно содержать все найденные литературные данные об исследуемом гене, его эволюции, экспрессии и функциях. Если про него почти ничего не написано, то у вас есть отличных шанс описать его первыми на основании Ваших результатов.
Материалы и методы
Название говорит само за себя. Содержит описание поиска исходных данных для исследования. Должны быть описаны используемые базы данных, программы, ресурсы, пороговые значения.
Программная часть методов должна содержать:
краткое описание алгоритмов и инструментов, обоснование их использования для решения поставленной задачи
краткое описание входных файлов и описание структур данных, их назначение и порядок работы с ними
краткое описание вычислительной части, структура, функциональные блоки
описание выходных данных
краткое описание интерфейса (GUI) приложения 1 со скриншотом, структура программного кода, реализующего интерфейс с помощью библиотеки tkinter
Результаты и обсуждение
Таблицу с найденными ортологами и их номерами, филогенетическое дерево.
Описание обобщенных результатов исследования, выводов, предположение о подтверждении или опровержении сформулированной в целях гипотезы, анализ соответствия Ваших данных с литературными, предположения о причинах расхождения. И помните, что расхождение не обязательно говорит об ошибке с Вашей стороны. Возможно, вы дополнили и уточнили более ранние результаты других исследований.
Все дополнительные результаты, такие как файл с ортологами, выносятся в Приложение.
Список литературы
Список литературы в алфавитном порядке. Есть несколько форматов оформления ссылок на литературные источники:
APA (American Psychological Association) используется в публикациях по образованию, психологии и естественным наукам
MLA (Modern Language Association) для гуманитарных наук
Chicago/Turabian чаще всего используется в публикациях по экономике, бизнесу, истории и искусству
Стандартизация в оформлении списка литературы нужна не для почитания традиций, а для упрощения считывания скриптами ссылок из рукописи, когда она отправляется в печать. Поэтому большинство журналов просит использовать стандартизированные форматы.
Приложение
Содержит полные файлы результатов, спецификацию программы и ее листинг. Файлы результатов в приложении допустимо оставить в исходных форматах.
Листинг программы лучше представить в виде файла html, экспортированного из Jupyter Notebook. В этом случае спецификацию удобно совместить с листингом. Листинг должен содержать комментарии для лучшей читаемости кода.