Знакомство с биологическими базами данных и типами выравнивания

Раздел "Филогенетический анализ". Задание 0

В молекулярной биологии и биоинформатике используется огромное количество баз данных и инструментов, но среди них есть несколько наиболее важных и базовых. Предлагаем познакомиться с ними в этом задании.

Сборник заданий

Теория по филогенетике

Теория по выравниваниям

Теория по экспрессии

Важно! Все найденные последовательности можно открывать только в блокноте Notepad++ (клик правой клавишей мыши, выбираем из выпадающего меню Edit with Notepad++). Название и путь к файлу не должны содержать пробелы и символы кириллицы.

Прежде, чем анализировать найденные последовательности, нужно скачать их на локальную машину во временную папку, которую можно сделать в корне диска C:\.

Название папки не должно содержать пробелы и знаки кириллицы и должна содержать фамилии владельцев. После окончания работы папка целиком копируется на 01_Deti_Biotop/.../Bioinformatics/. Вы рискуете потерять результаты своей работы, если этого не сделаете. Это нужно также для того, чтобы преподаватели могли проверить правильность полученных результатов.

Описание:

Биоинформатика — это анализ биологических данных, а данные обычно живут в специальных базах. Таких хранилищ уже сейчас невероятное количество и становится все больше, ведь скорость методов в молекулярной биологии растёт. Например, получить черновую полногеномную последовательность организма сейчас можно за несколько часов, а база, содержащая геномы коронавируса SARS-CoV-2, за два года пополнилась на 14 миллионов записей.

Рост объёма данных требует новые методы, алгоритмы и программы для их обработки, и, следовательно, создаются новые инструменты.

Но есть несколько наиболее крупных баз данных и часто используемых инструментов, без которых работа современного молекулярного биолога просто невозможна. С ними вы и познакомитесь в этом задании.

Ссылки на тулы и базы:

NCBI — база данных, содержащая литературу, геномы, транскриптомы, протеомы различных живых организмов, нуклеотидные и аминокислотные последовательности генов и их белков и огромное количество другой информации. Также тут можно найти множество биоинформатических программ, доступных как через web-интерфейс, так и для скачивания
GenBank — это база данных NIH, коллекция всех аннотированных общедоступных последовательностей ДНК и РНК.
BLAST — Basic Local Alignment Tool — пакет программ, используемых для выравнивания нуклеотидных и аминокислотных последовательностей. Наиболее часто использумая программа в молекулярной биологии.

Задание:

Определение неизвестных последовательностей с помощью BLAST

Предыстория:
Одним минувшим и, безусловно, далёким летом гавайские зоологи неспешно собирали образцы всего подряд на острове Oʻahu. Потом, чтобы понять, что они насобирали, и что там водится, исследователи провели митохондриальное баркодирование образцов.
Генетический баркодинг — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.

Используя web-версию программы BLAST, определите, кому принадлежат полученные с помощью универсальных праймеров фрагменты MT-COI.

Ход работы

Сначала зайдите на главную страницу NCBI и найдите справа ссылку на BLAST. Отважно перейдите по ней.
Среди представленных программ выберете Nucleotide BLAST. Осторожно нажмите на ссылку
Спустя несколько моментов Вы увидите рабочее поле программы. Скопируйте в поле "Enter Query Sequence" по одной последовательности, из тех, что представлены в самом низу читаемой Вами страницы.
Параметры поиска лучше оставьте стандартными

"Database. Standard databases (nr etc.):
Nucleotide collection (nr/nt).

Program Selection:

Optimize for Highly similar sequences (megablast))"

Небрежно нажмите на "BLAST".
Расслабленно ждите результат.
С интересом посмотрите на таблицу и определите видопринадлежность и таксономическое положение секвенированных образцов.
Один из образцов несколько выбивается, не так ли? Предположите, как он мог оказаться в пробе.

Поиск последовательностей в GenBank NCBI. Кластеризация последовательностей

Омут памяти

6 мая 2022 года началась вспышка оспы обезьян, длящаяся и поныне. Тогда был выявлен первый случай заражения у британского туриста, вернувшегося из Нигерии. После этого в Лондоне было выявлено ещё несколько случаев заражения. 18 мая в Португалии объявили о выявлении 14 случаев заболевания оспой обезьян. В этот же день о заражениях заявили Испания, Соединённые Штаты и Канада. 19 мая о первых случаях заболевания оспой обезьян заявили Швеция и Бельгия. Далее сообщения о новых случаях стали приходить почти со всех уголков мира. По данным портала Our World in Data пик заражений пришёлся на середину августа. 20 мая 2022 года Всемирная организация здравоохранения созвала чрезвычайную встречу экспертов для обсуждения вспышки оспы обезьян, а 23 мая глава ВОЗ объявил вспышку чрезвычайной ситуацией международного масштаба. По сей день появляются новые случаи заражения, но их, как правило, не более 50 в день на всю планету.

В мае 2022 был получен первый черновой геном изолята вируса оспы обезьян, выделенного из того самого туриста, и вышла короткая заметка под авторством Isidro et al. со ссылкой на саму последовательность.

Ход работы

Зайдите на страницу GenBank NCBI. На неё ещё можно попасть со стартовой страницы NCBI, нажав на Nucleotides в разделе Popular Resources.
С помощью функции Advanced поиска найти полные последовательности геномов вирусов оспы обезьян из разных регионов планеты.
Предлагаю вам выбрать вот эти: Нигерия, Габон, ЦАР, Либерия, Берег Слоновой Кости, Сьерра Леоне, Соединённое Королевство, Израиль. Можете добавить ещё несколько регионов на Ваш вкус. Мало ли где-то всегда хотели побывать, но никак не хватало времени.
Обратите внимание на дату выделения изолятов. Нужно выбрать не из 2022, но и из более ранних вспышек.
Обратите внимание на альтернативный способ поиска – в строке поиска можно ввести (видовое название [Organism]) AND region.
Сохраните найденные последовательности в один файл. Их можно либо выделить и скопировать, либо сохранить через Send to в правом верхнем углу.
Зайти в BLAST (Nucleotide BLAST) и в режиме Align two or more sequences построить выравнивание: В окно Enter Query Sequence вставить вот эту последовательность португальского изолята, в окно Enter Subject Sequence вставить все остальные последовательности из вашей коллекции. Остальные настройки не меняйте. Таким образом вы сравните новый изолят с остальными.
На странице с выравниванием откройте ссылку Distance tree of results. Проверьте гипотезу Isidro et al., 2022 о родстве португальского изолята штаммам, распространённым в окрестностях Нигерии и в ней самой, а так же тем, которые вызывали вспышки предыдущих годов. Убедитесь, что получившаяся «филогения» штаммов, соответствует литературным данным.

Альпийская загадка

В 1991 году в Альпах двое туристов обнаружили мумифицированные останки таинственного путника. Останки оказались необычными и очень ценными сразу для нескольких наук. Предлагаю вам по митохондриальному геному узнать историю этого незнакомца. Последовательность вы можете найти внизу этой страницы.

Some video

Some information

Instruction#1

Instruction#2

Instruction#3

COI Sequences

>Sequence_1

TCCTTCCTTCTCCTACTAGCTTCTTCCACCGTAGAAGCAGGAGTCGGTACAGGCTGAACAGTATACCCCCCACTAGCCGGTAATCTCGCTCACGCCGGAGCCTCAGTTGACCTTGCAATCTTCTCTCTACACCTAGCTGGTATTTCTTCAATCCTGGGGGCAATCAACTTCATCACAACAGCTCTCAACATAAAACCCCCAGCCCTATCACAATATCAAACCCCCCTATTCGTATGATCCGTATTAATCACCGCAGTACTTCTCCTCCTCTCCCTTCCTGTACTTGCCGCAGGAATCACAATGCTTCTAACAGACCGCAACCTCAATACTACATTCTTCGACCCAGCAGGAGGAGGCGACCCAGTCCTATACCAACATCTCTTCTGATTCTTCGGCCACCCAGAAGTCTATATTCTAATTCTACCAGGATTTGGAATCATCTCTCATGTCGTAACCTACTATGCAGGGAAAAAAGAACCATTTGGTTATATAGGAATAGTATGAGCCATGCTATCCATTGGATTCCTAGGATTCATCGTCTGAGCCCACCACATATTCACGGTCGGAATAGACGTTGACACCCGAGCATACTTCACATCCGCCACTATAATCATTGCCATCCCAACCGGCATTAAAGTATTCAGCTGACTGGCTACACTCCACGGAGGCGTAATCAAATGAGACC

>Sequence_2

AACCTGGCCCATGCTGGAGCCTCAGTCGATCTCGCAATCTTCTCCTTACACCTAGCTGGTATCTCCTCAATTCTAGGAGCTATCAACTTCATCACAACAGCCATCAACATAAAACCCCCAGCCCTGTCGCAATACCAAACCCCCCTATTCGTCTGATCAGTCTTAATCACTGCAGTACTCCTACTCCTCTCCCTCCCCGTCCTTGCCGCAGGAATCACAATACTCCTAACAGACCGCAACCTCAATACTACATTCTTTGACCCAGCAGGAGGAGGTGACCCAGTCCTATACCAACACCTCTTCTGATTCTTCGGTCACCCAGAAGTCTACATCCTAATTCTGCCAGGGTTCGGAATTATCTCCCACGTCGTAACCTACTACGCAGGAAAAAAGGAACCATTCGGCTACATAGGAATAGTATGAGCTATACTATCCATCGGATTCCTAGGCTTCATCGTATGAGCCCACCACATGTTCACAGTTGGAATGGATGTTGACACTCGAGCATACTTCACATCTGCCACTATAATCATCGCCATCCCAACCGGTATCAAAGTATTTAGCTGACTAGCCACACTCCACGGAGGCGTAATCAAATGAGACCCTCCAATACTATGAGCCCTAGGATTTATCTTCCTATTCACCATCGGAGGACTAACAGGAATTGTCTTAGCAAACTCCTCAC

>Sequence_3

CATTCCTTCTTCTGTTAGCCTCCTCTACTGTCGAAGCAGGAGTTGGAACAGGCTGAACAGTGTACCCCCCACTAGCCGGTAACCTCGCCCACGCCGGAGCCTCAGTTGACCTAGCAATCTTCTCTCTACACCTAGCCGGCATCTCTTCAATTCTAGGGGCAATCAACTTCATCACAACAGCCATCAACATAAAACCCCCAGCCCTATCACAATACCAAACTCCCCTATTCGTATGATCCGTACTAATCACTGCAGTACTTCTCCTCCTCTCCCTTCCCGTGCTTGCCGCAGGAATCACAATGCTCCTAACAGACCGCAATCTCAACACTACCTTCTTCGATCCAGCAGGAGGAGGCGACCCAGTACTATACCAACATCTCTTCTGATTCTTCGGCCACCCAGAAGTCTACATTCTAATCCTACCAGGATTTGGAATCATTTCTCATGTCGTAACCTACTACTCAGGGAAAAAAGAACCATTCGGTTACATAGGAATAGTATGAGCCATGCTATCCATCGGATTCCTGGGATTCATCGTATGAGCCCACCATATATTCACAGTCGGAATAGACGTTGACACCCGAGCATACTTCACATCCGCCACTATAATCATTGCTATCCCAACCGGTATCAAAGTATTCAGCTGACTAGCCACACTCCACGGAGGCGTAATCAAGTGAGACCCA

>Sequence_4

TTCCTATTACTACTGGCTTCCTCTATAGTAGAAGCAGGTGCAGGAACAGGATGAACCGTTTATCCTCCTTTAGCTGGTAATCTGGCCCATGCAGGAGCATCTGTAGACCTAACAATTTTTTCTCTGCACTTAGCAGGTGTATCATCCATTCTTGGAGCTATTAATTTTATCACCACAATTATTAACATAAAACCTCCTGCAATATCTCAATACCAAATTCCCTTGTTCGTATGATCTGTACTAATTACAGCAGTCCTCCTACTACTATCGCTACCAGTCTTAGCAGCCGGCATTACTATATTACTTACAGATCGAAATCTAAATACAACATTCTTCGATCCTGCTGGAGGAGGTGACCCTATTTTATATCAGCACTTATTCTGATTCTTCGGACATCCTGAGGTATACATCCTAATTCTACCAGGATTCGGAATGATTTCACACATCGTCACCTACTACTCAGGAAAAAAAGAACCTTTCGGCTATATAGGAATAGTCTGAGCAATAATATCTATCGGCTTCTTGGGCTTCATTGTATGAGCCCACCATATATTTACTGTAGGAATGGATGTCGACACCCGAGCATACTTCACTTCAGCCACTATAATTATTGCAATCCCAACAGGAGTAAAAGTATTCAGCTGACTAGCTACTCTACACGGAGGCAATATTAAGTGATCTCCAGCT

>Sequence_5

TCATTCCTTCTCCTACTAGCTTCCTCCACTGTTGAAGCAGGAGTTGGTACAGGCTGAACAGTATACCCCCCACTAGCTGGCAATCTCGCTCACGCCGGAGCCTCAGTTGACTTAGCAATCTTCTCCCTACACTTGGCCGGTATCTCTTCAATCCTAGGGGCAATCAATTTCATCACAACAGCCCTCAACATAAAACCCCCAGCCCTATCACAATACCAAACTCCCCTATTCGTGTGATCCGTATTAATCACTGCAGTACTTCTACTCCTCTCCCTTCCCGTACTTGCTGCAGGAATCACAATGCTCCTGACAGACCGCAACCTCAATACCACATTCTTCGACCCAGCAGGAGGAGGGGACCCAGTCCTATACCAACACCTCTTCTGATTCTTCGGCCATCCAGAAGTCTACATTCTAATCCTACCAGGATTTGGGATCATCTCCCATGTAGTAACCTACTACGCAGGAAAAAAAGAACCATTCGGGTACATAGGAATAGTATGAGCCATGCTATCCATCGGATTCCTAGGATTCATCGTCTGAGCCCACCACATGTTCACAGTTGGAATAGACGTTGACACTCGAGCATACTTCACGTCCGCCACTATAATCATTGCCATCCCAACCGGCATTAAAGTATTCAGCTGACTGGCCACACTCCACGGGGGCGTGATCAAGTGAGACCCA

>Sequence_6

CGGACCATATTTCCTAGTATCATCCCTATGTTCATTGCTATACCATCATTTGCTCTGTTATACTCAATGGACGAGGTAGTAGTAGATCCAGCCATTACTATAAAAGCTATTGGACATCAATGGTATCGGAGTGCGCCTCTTCACGAGGGTGATTAAAGTGCAACGAAATGCCTTAAAGTTGAATAGGGTTCGCGAAGCATCTGGCTTACCGGTAATCTCCCATTCCCGCCGTCGAGAGACTTTAATAACTATAGCATGCCAGAAACGGGGAGTTGAGGTGGTTAGACCTATACCCCGAAATGCTCCCAGCATAGGAGCCTATGGTTCCATTCTTGTTGTTGCTGGAGGTACACATCCCTCTTCCCGGTGTGGAACGATATACGAGAAATAGATGCTCAGCCTGCAATGTCCGATAACGGCGCTGAAGTAGTGAATCTATCGGCACCATAGCAGTGGTATACAACTTTGGACCTAACGGCCGGCCTAGTAACCTTTCGGAATGGGGGATCCCCGTTGGCAACAACCACGGTAGTAGTTGCGGAACTACTGGGCCGGGAGAGGAGCGGAAAGCCACTTGACTGTAAGGAGAGGACAACCTCTTGTTCCTGCTCCTCTTTCTTCGCTTCGGGGACGGAGGTCCTACGGTAGGTAACAGCAGGCACAAGCAAGTTGACCGAAGGGGACCAGC

Dead Stranger

>Dead_stranger_dna

GATCACAGGTCTATCACCCTATTAACCACTCACGGGAGCTCTCCATGCATTTGGTATTTTCGTCTGGGGGGTGTGCACGCGATAGCATTGCGAGACGCTGGAGCCGGAGCACCCTATGTCGCAGTATCTGTCTTTGATTCCTGCCCCATCCTATTATTTATCGCACCTACGTTCAATATTACAGGCGAACATACTTACTAAAGTGTGTTAATTAATTAATGCTTGTAGGACATAATAATAACAATTGAATGTCTGCACAGCCGCTTTCCACACAGACATCATAACAAAAAATTTCTACCAAACCCCCCCCTCCCCCCGCTTCTGGCCACAGCACTTAAACACATCTCTGCCAAACCCCAAAAACAAAGAACCCTAACACCAGCCTAACCAGATTTCAAATTTTATCTTTTGGCGGTATGCACTTTTAACAGTCACCCCCCAACTAACACATTATTTTCCCCTCCCACTCCCATACTACTAATCTCATCAATACAACCCCCGCCCATCCTACCCAGCACACACACACCGCTGCTAACCCCATACCCCGAACCAACCAAACCCCAAAGACACCCCCCACAGTTTATGTAGCTTACCTCCTCAAAGCAATACACTGAAAATGTTTAGACGGGCTCACATCACCCCATAAACAAATAGGTTTGGTCCTAGCCTTTCTATTAGCTCTTAGTAAGATTACACATGCAAGCATCCCCGTTCCAGTGAGTTCACCCTCTAAATCACCACGATCAAAAGGGACAAGCATCAAGCACGCAGCAATGCAGCTCAAAACGCTTAGCCTAGCCACACCCCCACGGGAAACAGCAGTGATTAACCTTTAGCAATAAACGAAAGTTTAACTAAGCTATACTAACCCCAGGGTTGGTCAATTTCGTGCCAGCCACCGCGGTCACACGATTAACCCAAGTCAATAGAAGCCGGCGTAAAGAGTGTTTTAGATCACCCCCTCCCCAATAAAGCTAAAACTCACCTGAGTTGTAAAAAACTCCAGTTGACACAAAATAGACTACGAAAGTGGCTTTAACATATCTGAACACACAATAGCTAAGACCCAAACTGGGATTAGATACCCCACTATGCTTAGCCCTAAACCTCAACAGTTAAATCAACAAAACTGCTCGCCAGAACACTACGAGCCACAGCTTAAAACTCAAAGGACCTGGCGGTGCTTCATATCCCTCTAGAGGAGCCTGTTCTGTAATCGATAAACCCCGATCAACCTCACCACCTCTTGCTCAGCCTATATACCGCCATCTTCAGCAAACCCTGATGAAGGCTACAAAGTAAGCGCAAGTACCCACGTAAAGACGTTAGGTCAAGGTGTAGCCCATGAGGTGGCAAGAAATGGGCTACATTTTCTACCCCAGAAAACTACGATAGCCCTTATGAAACTTAAGGGTCGAAGGTGGATTTAGCAGTAAACTGAGAGTAGAGTGCTTAGTTGAACAGGGCCCTGAAGCGCGTACACACCGCCCGTCACCCTCCTCAAGTATACTTCAAAGGACATTTAACTAAAACCCCTACGCATTTATATAGAGGAGACAAGTCGTAACATGGTAAGTGTACTGGAAAGTGCACTTGGACGAACCAGAGTGTAGCTTAACACAAAGCACCCAACTTACACTTAGGAGATTTCAACTTAACTTGACCGCTCTGAGCTAAACCTAGCCCCAAACCCACTCCACCTTACTACCAGACAACCTTAGCCAAACCATTTACCCAAATAAAGTATAGGCGATAGAAATTGAAACCTGGCGCAATAGATATAGTACCGCAAGGGAAAGATGAAAAATTATAGCCAAGCATAATATAGCAAGGACTAACCCCTATACCTTCTGCATAATGAATTAACTAGAAATAACTTTGCAAGGAGAGCCAAAGCTAAGACCCCCGAAACCAGACGAGCTACCTAAGAACAGCTAAAAGAGCACACCCGTCTATGTAGCAAAATAGTGGGAAGATTTATAGGTAGAGGCGACAAACCTACCGAGCCTGGTGATAGCTGGTTGTCCAAGATAGAATCTTAGTTCAACTTTAAATTTGCCCACAGAACCCTCTAAATCCCCTTGTAAATTTAACTGTTAGTCCAAAGAGGAACAGCTCTTTGGACACTAGGAAAAAACCTTGTAGAGAGAGTAAAAAATTTAACACCCATAGTAGGCCTAAAAGCAGCCACCAATTAAGAAAGCGTTCAAGCTCAACACCCACTACCTAAAAAATCCCAAACATATAACTGAACTCCTCACACCCAATTGGACCAATCTATCACCCTATAGAAGAACTAATGTTAGTATAAGTAACATGAAAACATTCTCCTCCGCATAAGCCTGCGTCAGATTAAAACACTGAACTGACAATTAACAGCCCAATATCTACAATCAACCAACAAGTCATTATTACCCTCACTGTCAACCCAACACAGGCATGCTCATAAGGAAAGGTTAAAAAAAGTAAAAGGAACTCGGCAAATCTTACCCCGCCTGTTTACCAAAAACATCACCTCTAGCATCACCAGTATTAGAGGCACCGCCTGCCCAGTGACACATGTTTAACGGCCGCGGTACCCTAACCGTGCAAAGGTAGCATAATCACTTGTTCCTTAAATAGGGACCTGTATGAATGGCTCCACGAGGGTTCAGCTGTCTCTTACTTTTAACCAGTGAAATTGACCTGCCCGTGAAGAGGCGGGCATGACACAGCAAGACGAGAAGACCCTATGGAGCTTTAATTTATTAATGCAAACAGTACCTAACAAACCCACAGGTCCTAAACTACCAAACCTGCATTAAAAATTTCGGTTGGGGCGACCTCGGAGCAGAACCCAACCTCCGAGCAGTACATGCTAAGACTTCACCAGTCAAAGCGAACTACTATACTCAATTGATCCAATAACTTGACCAACGGAACAAGTTACCCTAGGGATAACAGCGCAATCCTATTCTAGAGTCCATATCAACAATAGGGTTTACGACCTCGATGTTGGATCAGGACATCCCGATGGTGCAGCCGCTATTAAAGGTTCGTTTGTTCAACGATTAAAGTCCTACGTGATCTGAGTTCAGACCGGAGTAATCCAGGTCGGTTTCTATCTACTTCAAATTCCTCCCTGTACGAAAGGACAAGAGAAATAAGGCCTACTTCACAAAGCGCCTTCCCCCGTAAATGATATCATCTCAACTTAGTATTATACCCACACCCACCCAAGAACAGGGTTTGTTAAGATGGCAGAGCCCGGTAATCGCATAAAACTTAAAACTTTACAGTCAGAGGTTCAATTCCTCTTCTTAACAACATACCCATGGCCAACCTCCTACTCCTCATTGTACCCATTCTGATCGCAATGGCATTCCTAATGCTTACCGAACGAAAAATTCTAGGCTATATACAACTACGCAAAGGCCCCAACGTTGTAGGCCCCTACGGGCTACTACAACCCTTCGCTGACGCCATAAAACTCTTCACCAAGGAGCCCCTAAAACCCGCCACATCTACCATCACCCTCTACATCACCGCCCCGACCTTAGCTCTCACCATCGCTCTTCTACTATGAACCCCCCTCCCCATACCCAACCCCCTGGTCAACCTCAACCTAGGCCTCCTATTTATTCTAGCCACCTCTAGCCTAGCCGTTTACTCAATCCTCTGATCAGGGTGAGCATCAAACTCAAACTACGCCCTGATCGGCGCACTGCGAGCAGTAGCCCAAACAATCTCATATGAAGTCACCCTAGCCATCATTCTACTATCAACATTACTAATAAGTGGCTCCTTTAACCTCTCCACCCTTATCACAACACAAGAACACCTCTGATTACTCCTGCCATCATGACCCTTGGCCATAATATGATTTATCTCCACACTAGCAGAGACCAACCGAACCCCCTTCGACCTTGCCGAAGGGGAGTCCGAACTAGTCTCAGGCTTCAACATCGAATACGCCGCAGGCCCCTTCGCCCTATTCTTCATAGCCGAATACACAAACATTATTATAATAAACACCCTCACCACTACAATCTTCCTAGGAACAACATATGACGCACTCTCCCCTGAACTCTACACAACATATTTTGTCACCAAGACCCTACTTCTAACCTCCCTGTTCTTATGAATTCGAACAGCATACCCCCGATTCCGCTACGACCAACTCATACACCTCCTATGAAAAAACTTCCTACCACTCACCCTAGCATTACTTATATGATATGTCTCCATACCCATTACAATCTCCAGCATTCCCCCTCAAACCTAAGAAATATGTCTGATAAAAGAGTTACTTTGATAGAGTAAATAATAGGAGCTTAAACCCCCTTATTTCTAGGACTATGAGAATCGAACCCATCCCTGAGAATCCAAAATTCTCCGTGCCACCTATCACACCCCATCCTAAAGTAAGGTCAGCTAAATAAGCTATCGGGCCCATACCCCGAAAATGTTGGTTATACCCTTCCCGTACTAATTAATCCCCTGGCCCAACCCGTCATCTACTCTACCATCTTTGCAGGCACACTCATCACAGCGCTAAGCTCGCACTGATTTTTTACCTGAGCAGGCCTAGAAATAAACATGCTAGCTTTTATTCCAGTTCTAACCAAAAAAATAAACCCTCGTTCCACAGAAGCTGCCATCAAGTATTTCCTCACGCAAGCAACCGCATCCATAATCCTTCTAATAGCTATCCTCTTCAACAATATACTCTCCGGACAATGAACCATAACCAATACTACCAATCAATACTCATCATTAATAATCATAATGGCTATAGCAATAAAACTAGGAATAGCCCCCTTTCACTTCTGAGTCCCAGAGGTTACCCAAGGCACCCCTCTGACATCCGGCCTGCTTCTTCTCACATGACAAAAACTAGCCCCCATCTCAATCATATACCAAATCTCTCCCTCACTAAACGTAAGCCTTCTCCTCACTCTCTCAATCTTATCCATCATAGCAGGCAGTTGAGGTGGATTAAACCAAACCCAGCTACGCAAAATCTTAGCATACTCCTCAATTACCCACATAGGATGAATAATAGCAGTTCTACCGTACAACCCTAACATAACCATTCTTAACTTAACTATTTATATTATCCTAACTACTACCGCATTCCTACTACTCAACCTAAACTCCAGCACCACGACCCTACTACTATCTCGCACCTGAAACAAGCTAACATGACTAACACCCTTAATTCCATCCACCCTCCTCTCCCTAGGAGGCCTGCCCCCGCTAACCGGCTTTTTGCCCAAATGGGCCATTATCGAAGAATTCACAAAAAACAATAGCCTCATCATCCCCACCATCATAGCCACCATCACCCTCCTTAACCTCTACTTCTACCTACGCCTAATCTACTCCACCTCAATCACACTACTCCCCATATCTAACAACGTAAAAATAAAATGACAGTTTGAACATACAAAACCCACCCCATTCCTCCCCACACTCATCGCCCTTACCACGCTACTCCTACCTATCTCCCCTTTTATACTAATAATCTTATAGAAATTTAGGTTAAATACAGACCAAGAGCCTTCAAAGCCCTCAGTAAGTTGCAATACTTAATTTCTGTAACAGCTAAGGACTGCAAAACCCCACTCTGCATCAACTGAACGCAAATCAGCCACTTTAATTAAGCTAAGCCCTTACTAGACCAATGGGACTTAAACCCACAAACACTTAGTTAACAGCTAAGCACCCTAATCAACTGGCTTCAATCTACTTCTCCCGCCGCCGGGAAAAAAGGCGGGAGAAGCCCCGGCAGGTTTGAAGCTGCTTCTTCGAATTTGCAATTCAATATGAAAATCACCTCGGAGCTGGTAAAAAGAGGCCTAACCCCTGTCTTTAGATTTACAGTCCAATGCTTCACTAGCCATTTTACCTCACCCCCACTGATGTTCGCCGACCGTTGACTATTCTCTACAAACCACAAAGACATTGGAACACTATACCTATTATTCGGCGCATGAGCTGGAGTCCTAGGCACAGCTCTAAGCCTCCTTATTCGAGCCGAGCTGGGCCAGCCAGGCAACCTTCTAGGTAACGACCACATCTACAACGTTATCGTCACAGCCCATGCATTTGTAATAATCTTCTTCATAGTAATACCCATCATAATCGGAGGCTTTGGCAACTGACTAGTTCCCCTAATAATCGGTGCCCCCGATATGGCGTTTCCCCGCATAAACAACATAAGCTTCTGACTCTTACCTCCCTCTCTCCTACTCCTGCTCGCATCTGCTATAGTGGAGGCCGGAGCAGGAACAGGTTGAACAGTCTACCCTCCCTTAGCAGGGAACTACTCCCACCCTGGAGCCTCCGTAGACCTAACCATCTTCTCCTTACACCTAGCAGGTGTCTCCTCTATCTTAGGGGCCATCAATTTCATCACAACAATTATCAATATAAAACCCCCTGCCATAACCCAATACCAAACGCCCCTCTTCGTCTGATCCGTCCTAATCACAGCAGTCCTACTTCTCCTATCTCTCCCAGTCCTAGCTGCTGGCATCACTATACTACTAACAGACCGCAACCTCAACACCACCTTCTTCGACCCCGCCGGAGGAGGAGACCCCATTCTATACCAACACCTATTCTGATTTTTCGGTCACCCTGAAGTTTATATTCTTATCCTACCAGGCTTCGGAATAATCTCCCATATTGTAACTTACTACTCCGGAAAAAAAGAACCATTTGGATACATAGGTATGGTCTGAGCTATGATATCAATTGGCTTCCTAGGGTTTATCGTGTGAGCACACCATATATTTACAGTAGGAATAGACGTAGACACACGAGCATATTTCACCTCCGCTACCATAATCATCGCTATCCCCACCGGCGTCAAAGTATTTAGCTGACTCGCCACACTCCACGGAAGCAATATGAAATGATCTGCTGCAGTGCTCTGAGCCCTAGGATTCATCTTTCTTTTCACCGTAGGTGGCCTGACTGGCATTGTATTAGCAAACTCATCACTAGACATCGTACTACACGACACGTACTACGTTGTAGCTCACTTCCACTATGTCCTATCAATAGGAGCTGTATTTGCCATCATAGGAGGCTTCATTCACTGATTTCCCCTATTCTCAGGCTACACCCTAGACCAAACCTACGCCAAAATCCATTTCACTATCATATTCATCGGCGTAAATCTAACTTTCTTCCCACAACACTTTCTCGGCCTATCCGGAATGCCCCGACGTTACTCGGACTACCCCGATGCATACACCACATGAAACATCCTATCATCTGTAGGCTCATTCATTTCTCTAACAGCAGTAATATTAATAATTTTCATGATTTGAGAAGCCTTCGCTTCGAAGCGAAAAGTCCTAATAGTAGAAGAACCCTCCATAAACCTGGAGTGACTATATGGATGCCCCCCACCCTACCACACATTCGAAGAACCCGTATACATAAAATCTAGACAAAAAAGGAAGGAATCGAACCCCCCAAAGCTGGTTTCAAGCCAACCCCATGGCCTCCATGACTTTTTCAAAAAGGTATTAGAAAAACCATTTCATAACTTTGTCAAAGTTAAATTATAGGCTAAATCCTATATATCTTAATGGCACATGCAGCGCAAGTAGGTCTACAAGACGCTACTTCCCCTATCATAGAAGAGCTTATCACCTTTCATGATCACGCCCTCATAATCATTTTCCTTATCTGCTTCCTAGTCCTGTATGCCCTTTTCCTAACACTCACAACAAAACTAACTAATACTAACATCTCAGACGCTCAGGAAATAGAAACCGTCTGAACTATCCTGCCCGCCATCATCCTAGTCCTCATCGCCCTCCCATCCCTACGCATCCTTTACATAACAGACGAGGTCAACGATCCCTCCCTTACCATCAAATCAATTGGCCACCAATGGTACTGAACCTACGAGTACACCGACTACGGCGGACTAATCTTCAACTCCTACATACTTCCCCCATTATTCCTAGAACCAGGCGACCTGCGACTCCTTGACGTTGACAATCGAGTAGTACTCCCGATTGAAGCCCCCATTCGTATAATAATTACATCACAAGACGTCTTGCACTCATGAGCTGTCCCCACATTAGGCTTAAAAACAGATGCAATTCCCGGACGTCTAAACCAAACCACTTTCACCGCTACACGACCGGGGGTATACTACGGTCAATGCTCTGAAATCTGTGGAGCAAACCACAGTTTCATGCCCATCGTCCTAGAATTAATTCCCCTAAAAATCTTTGAAATAGGGCCCGTATTTACCCTATAGCACCCCCTCTACCCCCTCTAGAGCCCACTGTAAAGCTAACTTAGCATTAACCTTTTAAGTTAAAGATTAAGAGAACCAACACCTCTTTACAGTGAAATGCCCCAACTAAATACTACCGTATGGCCCACCATAATTACCCCCATACTCCTTACACTATTCCTCATCACCCAACTAAAAATATTAAACACAAACTACCACCTACCTCCCTCACCAAAGCCCATAAAAATAAAAAATTATAACAAACCCTGAGAACCAAAATGAACGAAAATCTGTTCGCTTCATTCATTGCCCCCACAATCCTAGGCCTACCCGCCGCAGTACTGATCATTCTATTTCCCCCTCTATTGATCCCCACCTCCAAATATCTCATCAACAACCGACTAATCACCACCCAACAATGACTAATCAAACTAACCTCAAAACAAATGATAACCATACACAACACTAAAGGACGAACCTGATCTCTTATACTAGTATCCTTAATCATTTTTATTGCCACAACTAACCTCCTCGGACTCCTGCCTCACTCATTTACACCAACCACCCAACTATCTATAAACCTAGCCATGGCCATCCCCTTATGAGCGGGCGCAGTGATTATAGGCTTTCGCTCTAAGATTAAAAATGCCCTAGCCCACTTCTTACCACAAGGCACACCTACACCCCTTATCCCCATACTAGTTATTATCGAAACCATCAGCCTACTCATTCAACCAATAGCCCTGGCCGTACGCCTAACCGCTAACATTACTGCAGGCCACCTACTCATGCACCTAATTGGAAGCACCACCCTAGCAATATCAACCATTAACCTTCCCTCTACACTTATCATCTTCACAATTCTAATTCTACTGACTATCCTAGAAATCGCTGTCGCCTTAATCCAAGCCTACGTTTTCACACTTCTAGTAAGCCTCTACCTGCACGACAACACATAATGACCCACCAATCACATGCCTATCATATAGTAAAACCCAGCCCATGACCCCTAACAGGGGCCCTCTCAGCCCTCCTAATGACCTCCGGCCTAGCCATGTGATTTCACTTCCACTCCATAACGCTCCTCATACTAGGCCTACTAACCAACACACTAACCATATACCAATGATGGCGCGATGTAACACGAGAAAGCACATACCAAGGCCACCACACACCACCTGTCCAAAAAGGCCTTCGATACGGGATAATCCTATTTATTACCTCAGAAGTTTTTTTCTTCGCAGGATTTTTCTGAGCCTTTTACCACTCCAGCCTAGCCCCTACCCCCCAATTAGGAGGGCACTGGCCCCCAACAGGCATCACCCCGCTAAATCCCCTAGAAGTCCCACTCCTAAACACATCCGTATTACTCGCATCAGGAGTATCAATCACCTGAGCTCACCATAGTCTAATAGAAAACAACCGAAACCAAATAATTCAAGCACTGCTCATTACAATTTTACTGGGCCTCTATTTTACCCTCCTACAAGCCTCAGAGTACTTCGAGTCTCCCTTCACCATTTCCGACGGCATCTACGGCTCAACATTTTTTGTAGCCACAGGCTTCCACGGACTTCACGTCATTATTGGCTCAACTTTCCTCACTATCTGCTTCATCCGCCAACTAATATTTCACTTTACATCCAAACATCACTTTGGCTTCGAAGCCGCCGCCTGATACTGGCATTTTGTAGATGTGGTTTGACTATTTCTGTATGTCTCCATCTATTGATGAGGGTCTTACTCTTTTAGTATAAATAGTACCGTTAACTTCCAATTAACTAGTTTTGACAACATTCAAAAAAGAGTAATAAACTTCGCCTTAATTTTAATAATCAACACCCTCCTAGCCTTACTACTAATAATTATTACATTTTGACTACCACAACTCAACGGCTACATAGAAAAATCCACCCCTTACGAGTGCGGCTTCGACCCTATATCCCCCGCCCGCGTCCCTTTCTCCATAAAATTCTTCTTAGTAGCTATTACCTTCTTATTATTTGATCTAGAAATTGCCCTCCTTTTACCCCTACCATGAGCCCTACAAACAACTAACCTGCCACTAATAGTTATGTCATCCCTCTTATTAATCATCATCCTAGCCCTAAGTCTGGCCTATGAGTGACTACAAAAAGGATTAGACTGAACCGAATTGGTATATAGTTTAAACAAAACGAATGATTTCGACTCATTAAATTATGATAATCATATTTACCAAATGCCCCTCATTTACATAAATATTATACTAGCATTTACCATCTCACTTCTAGGAATACTAGTATATCGCTCACACCTCATGTCCTCCCTACTATGCCTAGAAGGAATAATACTATCGCTGTTCATTATAGCTACTCTCATAACCCTCAACACCCACTCCCTCTTAGCCAATATTGTGCCTATTGCCATACTAGTCTTTGCCGCCTGCGAAGCAGCGGTGGGCCTAGCCCTACTAGTCTCAATCTCCAACACATATGGCCTAGACTACGTACATAACCTAAACCTACTCCAATGCTAAAACTAATCGTCCCAACAATTATATTACTACCACTGACATGACTTTCCAAAAAACACATAATTTGAATCAACACAACCACCCACAGCCTAATTATTAGCATCATCCCTCTACTATTTTTTAACCAAATCAACAACAACCTATTTAGCTGTTCCCCAACCTTTTCCTCCGACCCCCTAACAACCCCCCTCCTAATACTAACTACCTGACTCCTACCCCTCACAATCATGGCAAGCCAACGCCACTTATCCAGTGAACCACTATCACGAAAAAAACTCTACCTCTCTATACTAATCTCCCTACAAATCTCCTTAATTATAACATTCACAGCCACAGAACTAATCATATTTTATATCTTCTTCGAAACCACACTTATCCCCACCTTGGCTATCATCACCCGATGAGGCAACCAGCCAGAACGCCTGAACGCAGGCACATACTTCCTATTCTACACCCTAGTAGGCTCCCTTCCCCTACTCATCGCACTAATTTACACTCACAACACCCTAGGCTCACTAAACATTCTACTACTCACCCTCACTGCCCAAGAACTATCAAACTCCTGAGCCAACAACTTAATATGACTAGCTTACACAATAGCTTTTATAGTAAAGATACCTCTTTACGGACTCCACTTATGACTCCCTAAAGCCCATGTCGAAGCCCCCATCGCTGGGTCAATAGTACTTGCCGCAGTACTCTTGAAACTAGGCGGCTATGGTATAATACGCCTCACACTCATTCTCAACCCCCTGACAAAACACATAGCCTACCCCTTCCTTGTACTATCCCTATGAGGCATAATTATAACAAGCTCCATCTGCCTACGACAAACAGACCTAAAATCGCTCATTGCATACTCTTCAATCAGCCACATAGCCCTCGTAGTAACAGCCATTCTCATCCAAACCCCCTGAAGCTTCACCGGCGCAGTCATTCTCATAATCGCCCACGGACTTACATCCTCATTACTATTCTGCCTAGCAAACTCAAACTACGAACGCACTCACAGTCGCATCATAATCCTCTCTCAAGGACTTCAAACTCTACTCCCACTAATAGCTTTTTGATGACTTCTAGCAAGCCTCGCTAACCTCGCCTTACCCCCCACTATTAACCTACTGGGAGAACTCTCTGTGCTAGTAACCACGTTCTCCTGATCAAATATCACTCTCCTACTTACAGGACTCAACATACTAGTCACAGCCCTATACTCCCTCTACATATTTACCACAACACAATGGGGCTCACTCACCCACCACATTAACAACATAAAACCCTCATTCACACGAGAAAACACCCTCATGTTCATACACCTATCCCCCATTCTCCTCCTATCCCTCAACCCCGACATCATTACCGGGTTTTCCTCTTGTAAATATAGTTTAACCAAAACATCAGATTGTGAATCTGACAACAGAGGCTTACGACCCCTTATTTACCGAGAAAGCTCACAAGAACTGCTAACTCATGCCCCCATGTCTAACAACATGGCTTTCTCAACTTTTAAAGGATAACAGCTATCCATTGGTCTTAGGCCCCAAGAATTTTGGTGCAACTCCAAATAAAAGTAATAACCATGCACACTACTATAACCACCCTAACCCTAACTTCCCTAATTCCCCCCATCCTTACCACCCTCGTTAACCCTAACAAAAAAAACTCATACCCCCATTATGTAAAATCCATTGTCGCATCCACCTTTATTATCAGTCTCTTCCCCACAACAATATTCATGTGCCTAGACCAAGAAGTTATTATCTCGAACTGACACTGAGCCACAACCCAAACAACCCAGCTCTCCCTAAGCTTCAAACTAGACTACTTCTCCATAATATTCATCCCTGTAGCATTGTTCGTTACATGGTCCATCATAGAATTCTCACTGTGATATATAAACTCAGACCCAAACATTAATCAGTTCTTCAAATATCTACTCATCTTCCTAATTACCATACTAATCTTAGTTACCGCTAACAACCTATTCCAACTGTTCATCGGCTGAGAGGGCGTAGGAATTATATCCTTCTTGCTCATCAGTTGATGATACGCCCGAGCAGATGCCAACACAGCAGCCATTCAAGCAATCCTATACAACCGTATCGGCGATATCGGTTTCATCCTCGCCTTAGCATGATTTATCCTACACTCCAACTCATGAGACCCACAACAAATAGCCCTTCTAAACGCTAATCCAAGCCTCACCCCACTACTAGGCCTCCTCCTAGCAGCAGCAGGCAAATCAGCCCAATTAGGTCTCCACCCCTGACTCCCCTCAGCCATAGAAGGCCCCACCCCAGTCTCAGCCCTACTCCACTCAAGCACTATAGTTGTAGCAGGAATCTTCTTACTCATCCGCTTCCACCCCCTAGCAGAAAATAGCCCACTAATCCAAACTCTAACACTATGCTTAGGCGCTATCACCACTCTGTTCGCAGCAGTCTGCGCCCTTACACAAAATGACATCAAAAAAATCGTAGCCTTCTCCACTTCAAGTCAACTAGGACTCATAATAGTTACAATCGGCATCAACCAACCACACCTAGCATTCCTGCACATCTGTACCCACGCCTTCTTCAAAGCCATACTATTTATGTGCTCCGGGTCCATCATCCACAACCTTAACAATGAACAAGATATTCGAAAAATAGGAGGACTACTCAAAACCATACCTCTCACTTCAACCTCCCTCACCATTGGCAGCCTAGCATTAGCAGGAATACCTTTCCTCACAGGTTTCTACTCCAAAGACCACATCATCGAAACCGCAAACATATCATACACAAACGCCTGAGCCCTATCTATTACTCTCATCGCTACCTCCCTGACAAGCGCCTATAGCACTCGAATAATTCTTCTCACCCTAACAGGTCAACCTCGCTTCCCCACCCTTACTAACATTAACGAAAATAACCCCACCCTACTAAACCCCATTAAACGCCTGGCAGCCGGAAGCTATTCGCAGGATTTCTCATTACTAACAACATTTCCCCCGCATCCCCCTTCCAAACAACAATCCCCCTCTACCTAAAACTCACAGCCCTCGCTGTCACTTTCCTAGGACTTCTAACAGCCCTAGACCTCAACTACCTAACAACAAACTTAAAATAAAATCCCCACTATGCACATTTTATTTCTCCAACATACTCGGATTCTACCCTAGCATCACACACCGCACAATCCCCTATCTAGGCCTTCTTACGAGCCAAAACCTGCCCCTACTCCTCCTAGACCTAACCTGACTAGAAAAGCTATTACCTAAAACAATTTCACAGCACCAAATCTCCACCTCCATCATCACCTAACCCAAAAAGGCATAATTAAACTTTACTTCCTCTCTTTCTTCTTCCCACTCATCCTAACCCTACTCCTAATCACATAACCTATTCCCCCGAGCAATTTCAATTACAATATATACACCAACAAACAATGTTCAACCAGTAACTACTACTAATCAACGCCCATAATCATACAAAGCCCCCGCACCAATAGGATCCTCCCGAATCAACCCTGACCCCTCTCCTTCATAAATTATTCAGCTTCCTACACTATTAAAGTTTACCACAACCACCACCCCATCATACTCTTTCACCCACAGCACCAATCCTACCTCCATCGCTAACCCCACTAAAACACTCACCAAGACCTCAACCCCTGACCCCCATGCCTCAGGATACTCCTCAATAGCCATCGCTGTAGTATATCCAAAGACAACCATCATTCCCCCTAAATAAATTAAAAAAACTATTAAACCCATATAACCTCCCCCAAAATTCAGAATAATAACACACCCGACCACACCGCTAACAATCAATACTAAACCCCCATAAATAGGAGAAGGCTTAGAAGAAAACCCCACAAACCCCATTACTAAACCCACACTCAACAGAAACAAAGCATACATCATTATTCTCGCACGGACTACAACCACGACCAATGATATGAAAAACCATCGTTGTATTTCAACTACAAGAACACCAATGACCCCAATACGCAAAATTAACCCCCTAATAAAATTAATTAACCACTCACTCATCGACCTCCCCACCCCATCCAACATCTCCGCATGATGAAACTTCGGCTCACTCCTTGGCGCCTGCCTGATCCTCCAAATCACCACAGGACTATTCCTAGCCATGCACTACTCACCAGACGCCTCAACCGCCTTTTCATCAATCGCCCACATCACTCGAGACGTAAATTATGGCTGAATCATCCGCTACCTTCACGCCAATGGCGCCTCAATATTCTTTATCTGCCTCTTCCTACACATCGGGCGAGGCCTATATTACGGATCATTTCTCTACTCAGAAACCTGAAACATCGGCATTATCCTCCTGCTTGCAACTATAGCAACAGCCTTCATAGGCTATGTCCTCCCGTGAGGCCAAATATCATTCTGAGGGGCCACAGTAATTACAAACTTACTATCCGCCATCCCATACATTGGGACAGACCTAGTTCAATGAATCTGAGGAGGCTACTCAGTAGACAGTCCCACCCTCACACGATTCTTTACCTTTCACTTCATCTTGCCCTTCATTATTGCAGCCCTAGCAGCACTCCACCTCCTATTCTTGCACGAAACGGGATCAAACAACCCCCTAGGAATCACCTCCCATTCCGATAAAATCACCTTCCACCCTTACTACACAATCAAAGACGCCCTCGGCTTACTTCTCTTCCTTCTCTCCTTAATGACA

TTAACACTATTCTCACCAGACCTCCTAGGCGACCCAGACAATTATACCCTAGCCAACCCCTTAAACACCCCTCCCCACATCAAGCCCGAATGATATTTCCTATTCGCCTACACAATTCTCCGATCCGTCCCTAACAAACTAGGAGGCGTCCTTGCCCTATTACTATCCATCCTCATCCTAGCAATAATCCCCATCCTCCATATATCCAAACAACAAAGCATAATATTTCGCCCACTAAGCCAATCACTTTATTGACTCCTAGCCGCAGACCTCCTCATTCTAACCTGAATCGGAGGACAACCAGTAAGCTACCCTTTTACCATCATTGGACAAGTAGCATCCGTACTATACTTCACAACAATCCTAATCCTAATACCAACTATCTCCCTAATTGAAAACAAAATACTCAAATGGGCCTGTCCTTGTAGTATAAACTAATACACCAGTCTTGTAAACCGGAGATGAAAACCTTTTTCCAAGGACAAATCAGAGAAAAAGTCTTTAACTCCACCATTAGCACCCAAAGCTAAGATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACCGCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACTTGACCACCTGTAGTACATAAAAACCCAATCCACATCAAAACCCCCTCCCCATGCTTACAAGCAAGTACAGCAATCAACCCCCAACTATCACACATCAACTGCAACTCCAAAGCCACCCCTCACCCACTAGGATACCAACAAACCTACCCACCCTTAACAGTACATAGCACATAAAGCCATTTACCGTACATAGCACATTACAGTCAAATCCCTTCTCGTCCCCATGGATGACCCCCCTCAGATAGGGGTCCCTTGACCACCATCCTCCGTGAAATCAATATCCCGCACAAGAGTGCTACTCTCCTCGCTCCGGGCCCATAACACTTGGGGGTAGCTAAAGTGAACTGTATCCGACATCTGGTTCCTACTTCAGGGCCATAAAGCCTAAATAGCCCACACGTTCCCCTTAAATAAGACATCACGATG

Глоссарий

NCBI, National Center for Biotechnological Information. NCBI предоставляет информацию о базах данных ДНК (GenBank), белковых доменов, РНК, базах данных статей научной литературы (PubMed) и таксономической информации (TaxBrowser), обеспечивает поиск данных о конкретном биологическом виде (Taxonomy). Также содержит различные стандартные программы биоинформатики (BLAST).

GenBank — открытая база данных NCBI, содержащая многие аннотированные последовательности ДНК, РНК и белков. Исследователи, если описывают новую последовательность, часто выгружают её именно в GenBank.

BLAST - Basic Local Alignment Search Tool (буквально, средство поиска основного локального выравнивания) - семейство компьютерных программ, служащих для поиска гомологов белков или нуклеиновых кислот, для которых известна первичная структура (последовательность) или её фрагмент. Семейство программ, реализованных в NCBI BLAST. Представленная еще в 1990 г, программа стала своего рода гуглом биологии.

Query sequence (search sequence, input sequence) - анализируемая Вами последовательность.

Subject sequences – database sequences. Последовательности, депонированные в базе и используемые для сравнения с интересующей последовательностью.

Local alignment – identification of regions of similarity (“hits”) within long sequences that are often widely divergent overall; a global alignment contains all letters from both the query and target sequences. «Локальное выравнивание» - алгоритм, основанный на поиске коротких совпадающих участков (“hits”, букв. «попадания») в сравниваемых последовательностях; альтернативный алгоритм global alignment сравнивает последовательности как целое). NCBI BLAST использует local alignment, потому что он быстрее.

Hit – a short high scoring similarity region homologous sequences are likely to contain. Короткие фрагменты, совпадающие между сравниваемыми последовательностями; то, что ищет local alignment для того, чтобы «правильно» ориентировать последовательности друг относительно друга; размеры фрагментов и допустимая степень различий между последовательностями регулируются настройками программы.

(biological) Homology - similarity attributed to descent from a common ancestor. Гомология, сходство между биологическими объектами по нуклеотидным последовательностям или другим признакам, обусловленное происхождением от общего предка.

Sequence match – буквально, совпадение. В контексте: best match, closest match – последовательность, наиболее сходная с исследуемой (query).

Sequence identity - the extent to which two (nucleotide or amino acid) sequences have the same residues at the same positions in an alignment, often expressed as a percentage. Сходство выравненных последовательностей белков или нуклеиновых кислот, выраженное в процентной доле совпадающих амнокислот или нуклеотидов.

E-value - the Expect value (E) is a parameter that describes the number of hits one can "expect" to see by chance when searching a database of a particular size. Статистика, характеризующая вероятность того, что выявленное при локальном выравнивании сходство между query и subject последовательностями случайно, с учетом объема базы, с которой сравнивается query. Чем меньше Е, тем надежнее результат выравнивания. Если последовательности идентичны, E=0.

Query cover (or coverage) – what percentage of the search sequence overlaps with the aligned segments «Охват, перекрытие» - на сколько процентов ваша исследуемая последовательность перекрывается по длине с той, с которой вы ее сравниваете.

Max(imum) score (=bit-score) and Total score - a score is a numerical value that describes the overall quality of an alignment. The higher the score, the better the alignment. Max score is calculated from the part of the subject sequence that aligns best to the query. Total score is calculated from all hits. Индексы качества выравнивания, чем выше значения индексов, тем больше похожи друг на друга сиквенсы. На практике, если Total score > Max score, значит несколько разных участков subject гомологичны одному и тому же участку query. В graphic summary blast цветом показано распределение Max score, красным – лучше всего совпадающие последовательности или их участки.

Sequence Accession number - the most general identifier used in the NCBI sequence databases. This is the identifier that should be used when citing a database record in a publication. The specific version of a record is also tracked by another identifier that is mainly for internal NCBI use called the GI number. Уникальный идентификатор последовательности, предназначенный для публичного использования. На этот идентификатор следует ссылаться в публикациях. Параллельный “GI” идентификатор, начинающийся на GI предназначен для внутреннего (NCBI) использования. Для нуклеотидных последовательностей, как правило, структура кода - 2+6 - две буквы и шесть цифр, например JX669269; когда цифры кончатся NCBI перейдет на формат 2+8.

FASTA – An early sequence similarity (local alignment) search tool. The term FASTA is also used to identify a text format for sequences that is widely used. Each sequence in the file is identified by a single line title preceded by the greater than sign (">"). «Фаста», на практике, простейший, общеупотребимый формат сохранения последовательностей в текстовом файле; индивидуальные последовательности идентифицируются по заглавным строчкам со значком > в начале, и чем хочешь дальше.

DNA barcoding (Баркодиирование ДНК, ДНК-штрихкодирование, генетический баркодинг) — метод молекулярной идентификации, который позволяет по коротким последовательностям ДНК определять принадлежность организма к определённому таксону. В отличие от методов молекулярной филогенетики, ДНК-баркодирование используется для определения места данного организма в уже существующей классификации, а не для построения филогенетических деревьев или их дополнения. Наиболее часто используемым «баркодинговым» признаком для животных является участок митохондриального гена цитохромоксидазы I — MT-COI — из примерно 600 пар нуклеотидов. Для баркодинговых локусов разработаны «универсальные праймеры», т.е. праймеры применимые для широкого круга объектов, например «метазойные» — для группы Metazoa — «Фолмеровские» праймеры LCO1490: 5'-ggtcaacaaatcataaagatattgg-3' и HC02198: 5'-taaacttcagggtgaccaaaaaatca-3' (Folmer et al. 1994), которые "налипнут" на митохондриальную ДНК любого животного.

Page updated

Google Sites

Report abuse