Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.
Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.
Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.
В ходе выполнения прошлого задания вы научились работать с готовыми данными по экспрессии генов человека в различных тканях и извлекать из базы нужную вам информацию. Однако в подобных базах как правило содержится информация только по белок-кодирующим последовательностям и некоторым их псевдогенам, тогда как перечень транскриптов в клетке куда более обширен. В этом задании вы научитесь получать информацию об экспрессии транскрибированных последовательностей из сырых данных, полученных методами РНК-секвенирования (RNASeq).
Вам потребуется скачать данные по РНК-секвенированию бактериального транскритома с ресурса SRA (Sequence Read Archive). База SRA содержит коллекцию ридов, полученных в ходе различныхх экспериментов, требующих проведение анализа транскриптомов. Полученные данные вам потребуется обработать с помощью программ, разработанных для выравнивания ридов на референсные геномы. Вам будет предложено использовать программу UGENE.
Скачать геном кишечной палочки (Escherichia coli) с сайта EnsemblBacteria в формате .fasta. Если вдруг не скачивается, то можно посмотреть тут. Если скрипт работает слишком долго, то воспользуйтесь вот этим файлом, он содержит только один скаффолд и значительно меньше.
Скачать разметку генома кишечной E. coli с сайта UCSC Genome Browser в формате .bed. Если вдруг опять что-то идёт не так, заляните сюда. Разметка для сокращённой версии генома лежит вот тут.
Скачать данные по РНК-секвенированию транскритома E. coli с ресурса SRA (Sequence Read Archive).