Читаем Интернет-журнал "Домашняя лаборатория", 2008 №5 полностью

Интернет-журнал "Домашняя лаборатория", 2008 №5

Биолог в биоинформатике обычно имеет дело с базами данных и инструментами их анализа. Теперь разберемся, какие базы данных бывают в зависимости от того, что в них помещают. Первый тип — архивные базы данных, это большая свалка, куда любой может поместить все, что захочет. К таким базам относятся

• GeneBank & EMBL — здесь хранятся первичные последовательности

• PDB — пространственные структуры белков, и многое другое.

В качестве курьеза могу привести пример: в архивной базе данных указано,

что в геноме археи (архебактерии) есть ген, кодирующий белок главного комплекса гистосовместимости, что является полной чепухой.

Второй тип — курируемые базы данных, за достоверность которых отвечает хозяева базы данных. Туда информацию никто не присылает, ее из архивных баз данных отбирают эксперты, проверяя достоверность информации — что записано в этих последовательностях, какие есть экспериментальные основания для того, чтобы считать, что эти последовательности выполняют ту или иную функцию.

К базам данных такого типа относятся:

• Swiss-Prot — наиболее качественная база данных, содержащая аминокислотные последовательности белков

• KEGG — информация о метаболизме (такая, которая представлена на карте метаболических путей, которую те, кто ходит на лекции, видели на лекции № 2)

• FlyBase — информация о Drosophila

• COG — информация об ортологичных генах.

Поддержание базы требует работы кураторов или аннотаторов. Тем не менее, даже в курируемых базах данных могут встречаться курьезные надписи, например такая забавная надпись:

CAUTION: AN ORF CALLED DSDC WAS ORIGINALLY (REF. 3) ASSIGNED TO THE WRONG DNA STRAND AND THOUGHT TO BE A D-SERINE DEAMINASE ACTIVATOR, IT WAS THEN RESEQUENCED BY REF. 2 AND STILL THOUGHT TO BE "DSDC", BUT THIS TIME TO FUNCTION AS A D-SERINE PERMEASE. IT IS REF.1 THAT SHOWED THAT DSDC IS ANOTHER GENE AND THAT THIS SEQUENCE SHOULD BE CALLED DSDX. IT SHOULD ALSO BE NOTED THAT THE C-TERMINAL PART OF DSDX (FROM 338 ONWARD) WAS ALSO SEQUENCED (REF.6 AND REF. 7) AND WAS THOUGHT TO BE A SEPARATE ORF (YES, DON'T WORRY, WE ALSO HAD PROBLEMS UNDERSTANDING WHAT HAPPENED!).

По крайне мере здесь кураторы базы данных честно признаются, что не знают, как это случилось.

Третий тип — производные базы данных. Такие базы получаются в результате обработки данных из архивных и курируемых баз данных. Сюда входит:

• SCOP — База данных структурной классификации белков (описывается структура белков)

• PFAM — База данных по семействам белков

• GO (Gene Ontology) — Классификация генов (попытка создания набора терминов, упорядочивания терминологии, чтобы один ген не назывался по разно му, и чтобы разным генам не давали одинаковые названия)

• ProDom — белковые домены

• AsMamDB — альтернативный сплайсинг у млекопитающих

И интегрированные базы данных, в которых вся информация (курируемая, не курируемая) свалена в кучу, и введя имя гена, можно найти всю связанную с ним информацию — в каких организмах встречается, в каком месте генома локализован, какие функции выполняет и т. д.

• NCBI Entrez — доступ к информации о нуклеотидных и аминокислотных последовательностях и структурах

• Есосус — все о Е. coli — гены, белки, метаболизм и пр.

Теперь перейдем к рассмотрению инструментов биоинформатике. Инструменты определяются задачами, которые мы хотим решать.

Основу биоинформатики составляют сравнения. Если у нас есть, например, аминокислотная последовательность, о которой у нас есть экспериментальные данные, и известны ее функции, и другая, похожая на нее последовательность, мы можем предположить, что эти последовательности выполняют сходные функции. Это задача поиска сходства последовательностей

Другая задача связана с анализом генома. Недавно было объявлено, что полностью просеквенирован геном человека, но так же просеквенировали геномы и других организмов: три генома растений, мыши, крысы, кошки, собаки, курицы, рыбы, лягушки завершается, шимпанзе завершается, две дрозофилы сделаны, малярийный комар, червяки, дрожжи и т. д. — всего около 30 видов эукариотических геномов. Также просеквенированы сотни бактериальных геномов. Один бактериальный геном можно просеквенировать в хорошо оборудованной лаборатории за неделю. При этом получают длинную нуклеотидную последовательность нуклеотидов. Там есть гены — белок-кодирующие участки, и участки, кодирующие тРНК и рРНК. Возникает задача найти эти гены. Другая задача — поиск сигналов в ДНК, то есть тех участков ДНК, которые отвечают за регуляцию — сайты связывания регуляторных белков, элементы вторичной структуры мРНК, которая транскрибируется с этого гена и др.

Есть задача предсказания вторичной структуры РНК. А также есть большой класс задач анализа белков. Для решения этих задач надо создавать методы анализа, то есть алгоритмов (протоколов) и программ для анализа. При создании метода надо иметь критерий того, что метод адекватен, соответствует реальности.

Перейти на страницу: