Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.
Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.
Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.
Экспрессия гена — совокупность процессов, в ходе которых наследственная информация преобразуется в функциональный продукт — белок или некодирующую РНК. Разница в уровнях экспрессии одних и тех же генов в разных тканях как раз и определяет то, как именно выглядят и функционируют эти ткани и органы.
Экспрессия генов в тканях может значительно меняться в связи с возрастными изменениями, протекающими патологическими процессами или внешним воздействием. Например, процесс канцерогенеза затрагивает многие регуляторные сети, в результате чего могут активироваться гены, молчащие в нормальных клетках. Поиск генов, неактивных в норме, но работающих в опухолях, имеет не только фундаментальное значение, но и важен для создания новых диагностических систем и методов лечения онкологических заболеваний.
С появлением методов RNASeq (RNA Sequencing) и технологий NGS (Next Generation Sequencing) учёные стали секвенировать вообще все, что видят. Потому что все это стало относительно дёшево, например, свой геном вы можете отсеквенировать всего за 1000 баксов, а уж лаборатории при наличии хорошего финансирования могут позволить себе получать сиквенсы геномов и транскриптомов для огромного количества образцов. Так сложилось, что наиболее изучаемый объект — человек. И для него уже существует большое разнообразие баз данных по всяким заболеваниям, в том числе и по опухолям.
Исследователи из NIH (National Institute of Health) решили, что неплохо было бы посмотреть, чем отличается экспрессия генов в нормальных тканях от их экспрессии в опухолях. Запросив много (очень много, вот просто огромное количество) денег и проработав несколько лет, они сделали две большие базы данных, содержащих геномные и транскриптомные данные для тысяч образцов. Первая база — The Genotype-Tissue Expression (GTEx), которая содержит данные об экспресии генов человека в 54-х нормальных тканях. Вторая — The Cancer Genome Atlas (TCGA) — содержит информацию об экспрессии генов в 34 типах опухолей с общим количеством образцов, превышающим 20000. То есть это просто Fountain of Data, из которого можно извлечь не только фундаментальные данные, но и имеющие прямое прикладное значение. В обеих базах есть сырые и уже обработанные данные. В этот раз предлагаю вам проанализировать обработанные.
Кстати, сбоку есть видео про РНК-секвенирование и интерпретацию данных, посмотрите его. А ещё можно посмотреть другие видео этого автора, он хорошо объясняет.
Есть список из 50 генов, которые нужно проанализировать на специфичность их экспрессии в опухолях. Специфичность экспрессии обозначает, что ген экспрессируется только в определённом типе клеток и нигде более. Если вы уже посмотрели список, то могли обратить внимание, что в нём указаны названия генов, но в большинстве баз данных гены идентифицируются по их id из базы Ensembl. Поэтому вам потребуется перевести названия генов из этого списка в ensembl id, с помощью BioMart.
Так как у вас будет не один ген, а 50, то руками такой объём данных копать уже сложно, тут потребуется немного покодить. Вам потребуется написать скрипт на python, который вытянет информацию об уровнях экспрессии всех генов в выбранных вами опухолях и нормальных тканях и сохранит их в двух файлах.
Полученные данные тоже будут текстовыми, в виде таблицы, и смотреть их глазами не очень-то удобно, поэтому нужно будет построить тепловую карту. Тепловая карта — вид графика, где численные значения отображаются цветами, например, минусовая температура — разными оттенками синего, а плюсовая — оттенками красного.
GTEx — база данных, содержащая результаты полнотранскриптомного секвенирования 54 тканей человека, полученных от 1000 индивидумов, не имевших явных патологий в течение жизни.
TCGA — база данных, содержащая результаты полнотранскриптомного секвенирования более 20000 образцов различных опухолей.
The GDC Data Portal — платформа, которая позволяет экспериментаторам и биоинформатикам искать и скачивать геномные и транскриптомные данные о раковых заболеваниях.
Ensembl — база данных, содержащая геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков, а ещё там есть BioMart, который поможет вам вытянуть почти любую информацию почти про любой ген.
Morpheus — программа для создания тепловых карт. К ней есть очень подробный мануал.
Выбрать себе опухоль по вкусу. Вот тут есть расшифровка кодов проекта TCGA.
С сайта GDC скачать обработанные транскриптомные данные для выбранной Вами опухоли. Важно так же скачать и sample sheet, там содержится информация о каждом из образцов.
Распакуйте архив и откройте папку. Там вы увидите множество файлов, для разных опухолей их будет разное количество. Каждый файл — отдельный образец опухоли.
Откройте sample sheet и проверьте, нет ли в нём записей "Normal" — это данные по экспрессии в нормальных тканях. Если есть, то по id в первом столбце нужно найти файлы, с соответствующими им названиям, и перенести их в другую папку.
Названия генов из полученного списка нужно перевести в ensembl id через программу BioMart. Сервера Ensembl не очень мощные, а пользуются ими часто, поэтому что-то может не работать и отваливаться. Так бывает. Подождите. Повторите. Снова подождите. Не впадайте в уныние. Попейте чай.
Теперь Вам нужно извлечь данные по экспрессии 50 генов в каждом образце выбранной опухоли. Для этого используйте ensembl id в качестве ключа, вытягивая по нему строку. Это очень удобно делать скриптом, напишите его.
Сохраните данные в отдельный файл.
Теперь скачайте с GTEx данные для нормальных тканей. Файл представляет собой огромную таблицу.
Из этой таблицы нужно извлечь данные по экспрессии генов для ткани, соответствующей выбранной вами опухоли. Например, если Вы выбрали мелкоклеточный рак лёгкого, то в качестве нормы Вам нужно выбрать лёгкое. Сохраните значения в отдельном файле.
Извлеките из полученного файла значения экспрессии для 50 генов. И тут Вам тоже пригодится скрипт. Напишите его.
В программе Morpheus постройте тепловую карту, использовав в качестве исходной матрицы полученные файлы.
Проанализируйте экспрессию генов в норме и в опухоли, выберите гены, которые изменяют уровень своей экспрессии, посмотрите, нет ли таких генов, которые не работают в норме, но активируются в опухоли. Предложите практическое применение полученным результатам. Обрадуйтесь. Подумайте, что большая часть людей на планете не умеет всего этого делать. Обрадуйтесь ещё раз.
The mission is completed. You are amazing, dudes!