Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.
Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.
Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.
С момента завершения проекта "Human Genome Project" в 2003 году стоимость секвенирования человеческого генома упала в 6000000 раз — с трёх миллиардов до 600 долларов. По многим прогнозам она будет падать дальше, причём не линейно, а с резкими обвалами, соответствующими появлению новых технологий секвенирования и новых алгоритмов обработки сырых данных. Поэтому в скором времени секвенирование генома может стать рутинной диагностической процедурой, хотя и сейчас можно отсеквенировать свой геном за символичесике 1500 долларов. Почему 1500, хотя предложением выше говорилось про 600? Дело в том, что отсеквенировать кусок ДНК — половина задачи, вторая половина — собрать его из очень коротких фрагметов. Причём сборка некоторых участков генома напоминает попытки составить паззл из 1000 кусочков, где в качестве картинки использовалась фотография неба в ясный день. Суммарный размер человеческого гаплоидного генома — 3 миллиона пар оснований, а длина среднего рида после секвенировании на секвенаторе Illumina — примерно 200 нуклеотидов. Выглядит сложновато, правда?
Разумеется, геномы бактерий сильно меньше, но, тем не менее, даже их сборка требует значительных вычислительных ресурсов и специальных алгоритмов.
О том, как секвенируются и собираются геномы вы можете посмотреть в видосах справа. Кстати, разных технологий секвенирования достаточно много, но Illumina — одна из самых мейнстримных. А с другим невероятно перспективным методом от Oxford Nanopore вы познакомитесь в одном из следующих заданий.
Итак, в этом задании вам предстоит пособирать паззл бактериального генома, прочитанного при помощи NGS технологии от Illumina.
Сырые риды можно скачать из репозитория SRA — Sequence Read Archive. Это база данных NCBI, куда загружаются все результаты секвенирования, использованные исследователями в опубликованных работах.
SRA — репозиторий, содержащий данные секвенирования, в том числе и результаты метагеномных проектов.
SPAdes — тулкит, разработанный для сборки геномов и транскриптомов. Применима в основном для бактериальных и вирусных геномов.
VAPiD — программа для быстрой аннотации геномов вирусов человека
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Выбрать себе бактерию по вкусу.
The mission is completed. You are amazing, dudes!