В лекции Андрей Пржибельский, старший научный сотрудник Центра Алгоритмической Биотехнологии и Биоинформатики, ИТБМ, СПбГУ, расскажет про один из разделов — алгоритмическую биоинформатику, или что программисты и математики делают в биоинформатике, и почему это может быть интересно.
Вы рассмотрите реальные примеры алгоритмических задач, которые возникают в молекулярной биологии, в том числе задачу сборки генома. Узнаете, как биоинформатики справляются с такими проблемами и всегда ли им хватает стандартного набора базовых алгоритмов, и почему вычислительных задач со временем не становится меньше.
С развитием информационных технологий и увеличением количества различных баз данных всё больше и больше исследований проводится, не отходя от ноутбука. Знаменитый популяризатор науки, Александр Марков, в своей книге “Рождение сложности”, справедливо отметил, что “поток новых открытий не иссякает. Наши представления об устройстве и развитии живой материи по-прежнему несовершенны и неполны. Теоретики не успевают осмыслить новые факты просто потому, что те слишком быстро накапливаются...
Экспериментаторы мчатся вперед, не оглядываясь, а теоретики ковыляют в хвосте, спотыкаясь о груды добытых фактов и проклиная свою нелегкую долю.” В наши дни каждый может скачать из открытых баз гигабайты отсеквенированных геномов и транскриптомов всевозмжных организмов, от простейших вирусов до человека.
Объем данных неуклонно растёт, а все более совершенная техника позволяет их добывать за невероятно короткие сроки. Однако, одно дело – получить массив данных, другое – обработать его, разобраться с его структурой, выявить закономерности и сделать выводы. В апреле 2003-го года официально был завершен проект “Геном человека”, но работа над полученными данными ведется и по сей день. Поэтому современная наука особенно остро нуждается в людях, способных анализировать, изучать и систематизировать растущие завалы данных. Очевидно, что без помощи вычислительной техники, без знания информатики, а также без умения использовать существующие подходы для нетривиальных задач осуществить это невозможно. Не стоит забывать, что, анализируя большие данные (Big Data), можно находить ответы не только на фундаментальные вопросы, но и решать сугубо прикладные задачи. Почитайте короткую заметку Тома Филдена (Tom Feilden), научного журналиста информационного агентства BBC, где он рассказывает о роли математики в современной биологии и о проблемах при работе с большими данными.
“Сегодня, если вы хотите сделать успешную карьеру в медицине, вам стоит уделять больше времени изучению математики и информатики, нежели биологии”. Такое меткое замечание сделал руководитель клинических испытаний Оксфордского университета – сэр Рори Коллинс (Rory Collins), во время дискуссии о достоинствах и недостатках статинов (группа фармацевтических препаратов, снижающих уровень холестерина и триацилглицеридов в крови – прим. переводчика).
Справедливость слов сэра Коллинса подтверждает путь проделанный доктором Андре Сотторива (Andrea Sottoriva). Доктор Сотторива – астрофизик и специалист в области компьютерных наук, большая часть его научной карьеры была посвящена изучению нейтрино – неуловимых фундаментальных частиц, формирующихся в ходе термоядерных реакций в недрах звезд. Но, несмотря на весь свой сугубо физический и математический бэкграунд, на данный момент Андре работает в Институте исследований рака (Institute of Cancer Research) в Саттоне.
Но почему же именно рак? Ответит состоит из двух слов: “большие данные”. Доктор Сатторива использует свой опыт в области математических моделей для обработки и анализа огромного количества данных, накопленных медициной благодаря цифровой революции. “Восхищает то, что мы можем применять методы и вычислительные алгоритмы, разработанные для физики, в биологии” - говорит доктор Сотторива.
Конечно, применение математического аппарата для решения биологических задач не является чем-то принципиально новым. Однако, только сейчас “революция больших данных” начала преобразовывать медицину и возвестила о наступлении новой эры в биологии – эры биоинформатики.
“Эра больших данных предоставляет грандиозные возможности для установления причин возникновения и механизмов развития целого ряда заболеваний” - отмечает сэр Рори, - “Данные и методы для их обработки сегодня необычайно доступны, и благодаря этому мы имеем возможность разобраться, что же происходит при той или иной болезни, и как мы можем её избежать в будущем”.
Однако и в этой бочке меда не обошлось без своей ложки дегтя. Обилие данных имеет и свои недостатки. Daniel Sarewitz, профессор государственного университета Аризоны предупреждает о возможной опасности, - чрезмерно увлеченные исследователи рискуют быть унесенными потоками малозначимой и ненужной информации.
“Если эксперимент на мышах сродни поиску своих выпавших ключей на освещенной улице, то использование больших данных больше напоминает попытки искать эти ключи по всему миру, и не потому что так надо, а потому что мы это можем” - говорит профессор Sarewitz. С ним соглашается и эпидемиолог профессор Liam Smeeth: “Если исследователь не пытается ограничить себя определенными рамками, то он может быстро заблудиться в лабиринте информации”. Профессор Smeeth приводит и такую аналогию с возможными ошибками: “Представьте, что кто-то стреляет из лука в большую белую стену, потом подходит к ней и, обводя стрелу маркером, заявляет, что попал точно в яблочко”.
Но как избежать подобных ошибок и все-таки стрелять в уже намеченную цель? Доктор Сотторива предлагает действовать как шахматисты. Используя математические модели мы можем понять, по каким правилам играет рак, и, исходя из этого, разрабатывать свою стратегию.
“Гроссмейстеры стараются предугадать ход противника. Если мы сумеем распутать клубок процессов, происходящих при этой болезни, и научимся предугадывать действия опухоли на несколько шагов вперед, то мы сможем разрабатывать по-настоящему эффективные методы лечения”.