Вторичная структура может быть представлена в виде правильной скобочной структуры, как на рисунке ниже. Левая часть — открывающая скобка, правая часть — закрывающая скобка. Вторичная структура тоже может быть представлена в виде дерева, но важно, что количество возможных структур порядка 1,8L (это доказывается в теореме, которую я не буду здесь представлять). Это тоже очень много, поэтому задача поиска клики тоже не эффективна.
Тем не менее, есть алгоритм динамического программирования, который позволяет нам найти за кубичное (а не квадратичное, как раньше) время найти структуру, имеющую наибольшее количество спаренных оснований. Основная идея его (как и любого алгоритма динамического программирования) заключается в том, что если мы знаем все решения на какой-то части, то мы можем сказать, какое будет решение на чуть большем фрагменте.
Можно минимизировать не число спаренных оснований, а минимизировать энергию (эта задача сложнее, но ее с помощью разных ухищрений тоже можно оставить кубичной). Минимизация все равно не позволяет достигнуть большой точности предсказания. Проблемы предсказания вторичной структуры РНК.
Только около 65–70 % тРНК сворачиваются в правильную структуру.
Для предсказания вторичной структуры используются энергетические параметры, а они определены не очень точно. Более того, в клетке бывают разные условия, и, соответственно, реализуются разные параметры.
Находится единственная структура с минимальной энергией, в то время как обычно существует несколько структур с энергией, близкой к оптимальной.
Поэтому есть предложения искать субоптимальные структуры и искать эволюционно консервативные структуры (структуры тРНК и рРНК определены именно так). То есть забыть про энергию, и если мы знаем, что эти наборы РНК выполняют одну и ту же функцию, то мы можем построить такую структуру, которая была бы общей для всех этих последовательностей.
Теперь я расскажу, как это все применяется.
Исследование консервативности альтернативного сплайсинга, или Почему мышь не стала человеком?
Структура генов прокариот очень проста: есть начало, есть конец, получается мРНК, которая имеет начало и конец, идет транскрипция, трансляция и белок.
У эукариот структура гена сложнее. Из длинной мРНК удаляются (вырезаются) интроны (insertion sequences, вставочные последовательности), а оставшиеся экзоны сшиваются в единую нить. Из пре-мРНК получается зрелая мРНК, процесс называется сплайсингом. Потом происходит трансляция зрелой мРНК, в результате образуется белок. Мы будем интересоваться экзонами и интронами.
Если бы мы умели правильно предсказывать интроны и экзоны, мы бы могли разметить ген на белок-кодирующие и белок-некодирующие участки.
Альтернативный сплайсинг
Оказывается, ситуация еще сложнее. РНК, прочитанная с одного и того же гена, может сплайсироваться по-разному, что приводит к образованию мРНК с разными наборами экзонов: какой-то экзон в один вариант мРНК попадает, а в другой — нет, и в итоге получатся две разных мРНК и, соответственно, два разных белка. Это называется альтернативным сплайсингом. Таким образом, на уровне созревания мРНК могут образовываться разные РНК-продукты, которые приводят к образованию разных белков.
Сплайсинг происходит в ядре, трансляция — в цитоплазме. Для изучения того, что же оказалось в цитоплазме (то есть того, что подвергается трансляции), секвенируют короткие, 500–600 до 1000 нуклеотидов куски цитоплазматической РНК. Такие сиквенсы называются EST (expresstion sequence tag — "ярлыки экспрессируемых последовательностей"). EST — это короткие, прочитанные однократно (то есть весьма неточно), фрагменты цитоплазматической (сплайсированной, содержащей только экзоны) РНК. Если у нас есть геном, то мы можем эти EST картировать на геном и, тем самым, найти, где находятся интроны и экзоны.
Если при картирование EST полностью, без перерывов, соответствует геномной последовательности — это ген без интронов. Если EST ложится на геном с перерывами, то мы наблюдаем результат сплайсинга. Если же разные EST демонстрируют несколько вариантов расположения в одном и том же участке генома (то есть выявляют разные сочетания экзонов), то мы наблюдаем альтернативный сплайсинг. Экзон, который может включаться в белок, а может и не включаться, называется кассетным экзоном. мРНК с разными наборами экзонов данного гена (то есть в которые некий кассетный экзон или включается или не включается), называются изоформами.
Частота альтернативного сплайсинга