О детерминированном моделировании РНК-петли
Это отчет о проделанном исследовании. Автор: Сергей Яковлев |
Введение
правитьВ научно-популярном очерке [1] была поставлена биоинформационная задача: найти трехмерную структуру РНК по первичной структуре. И сделать это нужно in silico – то есть, используя компьютерное моделирование эксперимента. В качестве тестового примера взят вироидный рибозим NC_003540 с классической структурой типа “головки молотка” (Hamerhead ribozyme).
Наиболее близким по целям и способу моделирования является подход описанный в работе [2]. Но качество программного обеспечения нас не устраивало, поэтому был проведен полноценный реинжиниринг ПО Rosetta в части сворачивания РНК, в результате чего было создано независимое ПО RNAFoldingAI на языке С# [3].
Вначале мы пытались поставить задачу в терминах обучения с подкреплением с элементами генетических алгоритмов [4]. Но в ходе исследования было установлено, что применение методов, в которых используется стохастический поиск глобального минимума для сложной энергетической поверхности, непригодно. Поэтому применение вероятностных поисков начиная от простейших Монте Карло, и заканчивая любыми методами ИИ, не будет успешным, так как вероятность нахождения глобального минимума равноценна полному перебору. А известно, что полный перебор выполнить для этой задачи невозможно [5].
Поэтому в дальнейшем, мы базировались на логически-детерминированном подходе, с целью „сборки РНК по частям“. Наибольшую сложность представляет формирование петли РНК. Она в основном определяет последующею укладку остального фрагмента РНК, в котором пары нуклеотидов „стянуты“ Уотсон-Криковскими или Хугстиновскими водородными связями.
Таким образом, задачей нашего моделирования стало разработать подход и соответствующие методы, которые позволят построить автоматически петлю РНК одного из фрагмента вироидного рибозима NC_003540, на основании первичной структуры. Этот фрагмент имеет следующию первичную структуру cugaagugg. При этом 1 и 9 нуклеотид из этой последовательности образует Уотсон-Криковскую водородную связь, образование которой в моделировании является основным критерием успешности моделирования. Кроме того, мы сравнивали получаемую в моделировании третичную структуру, со структурой хранящейся в базе PDB [6].
Уточнения энергетической функции
правитьВ работе [2] не описываются весовые коэффициенты энергетической функции, но по умолчанию они установлены в 1, за некоторыми исключениями. [7] .
В данном исследовании используется следующая функция оценки энергии:
SCORE = (VDW * 3.0 + RG) + (RNA_BS + RNA_BP_W + RNA_BP_H + RNA_BP_S) + (RNA_NONB * 1.5 + RNA_O2ST + RNA_PHOS) + (RNA_AXIS*0.2 + RNA_STAG * 0.5 )
Исправление оценки VDW. В работе [2] для оценки VDW используются только по 9 атомов из нуклеотидов. Данных о расположении водородных атомов в структуре 1FFK нету. Этого оказалось не достаточно, чтобы различать запрещенные состояния от разрешенных, поэтому были сделаны следующие уточнения:
- учитывается для всех доступных атомов (20-23 шт.) нуклеотидов из 1FFK.pdb наибольшие расстояния между парами нуклеотидов, которые находятся на расстоянии <12 Å
- учитывается для всех атомов (C, N, H, O) образование ковалентных связей, которых между нуклеотидами в структуре РНК быть не должно [8]
Уточнение вариаций углов при поворотах РНК. В работе [2] нуклеотиды A и G (= R) считаются аналогичными, а C и U (=Y) также. В данном исследовании, как правило, используется вращение одного нуклеотида, и соответственно имеется 1171 вариаций углов для нуклеотидов типа Y, и 1526 для нуклеотидов типа R. Это число достаточно большое, что является причиной замедления выполнения методов. Было решено уменьшить число этих вариаций, и с этой целью типы нуклеотидов не подменялись. Это дало для G - 829 вариаций углов, для C - 680, A - 697, U - 491.
Методы приближения к глобальному минимуму на сложной энергетической поверхности
правитьБудем исходить из предположения, что глобальный минимум лежит в рамках специально отобранных локальных решений, с последующим наложением на них специальных ограничений. |
Чтобы осуществить полный перебор вариантов поворотов (возможны порядка 1000 различных поворотов) для цепочки РНК из трех нуклеотидов требуется около 2 недель 6-процессорной машины. Поэтому были разработаны два достаточно простых метода, для предварительной оценки энергетического минимума.
Метод „Быстрое охлаждение“
править- Для каждого нуклеотида проверяем какой из поворотов дает наибольшее понижение энергии
- Выбираем тот нуклеотид и тот поворот, который максимально понизил энергию
- Фиксируем цепочку РНК, осуществляя поворот полученный в п.2.
- Повторяем процесс с п.1. пока понижение энергии не остановится
Метод „Попарная корреляция“
правитьВ отличие от метода „Быстрого охлаждения“, данный метод пытается учесть корреляции положений. Но так как уже для трех положений это требует значительных вычислительных затрат, данный метод перебирает только положения для 2 нуклеотидов.
- Начинаем попарный перебор нуклеотидов
- Во время перебора находим наилучшие повороты двух нуклеотидов и их фиксируем
- Проверяем следующию пару нуклеотидов, переходя к п.1
Существует проблема выбора нуклеотидов (критических точек) для каждого последующего шага, применяя метод попарной корреляции сворачивая таким образом цепь РНК. А от этого, каждого такого шага, существенно зависит успешность следующего шага. Встает задача выбора пути на дереве, где каждый узел задается двумя позициями нуклеотидов, к которым применяется метод попарной корреляции. Переходы между узлами определяют следующию итерацию применения метода попарной корреляции к двум другим позициям, в то время как предыдущие уже зафиксированы, в соответствии с ранее пройденными узлами.
Комбинация применения методов
правитьИсследования показали, что самый первый поворот РНК имеет определяющие значение на ход сворачивания. Так если при повороте РНК изгибается пополам в результате нахождения корреляции двух нуклеотидов, то она попадает в такие пространственные условия, что дальнейшие повороты не могут исправить рядом имеющиеся положения нуклеотидов, и весь дальнейший ход сворачивания нарушается.
Поэтому как минимум, вначале нужно определить не попарную корреляцию нуклеотидов в центре цепи РНК, а хотя бы коррелированое состояние 3-х нуклеотидов. Для этого применяется метод быстрого охлаждения, но с поворотами 3-х нуклеотидов (справа и слева от целевого), а не одного. Затем фиксируется полученные положения 3-х нуклеотидов в центре петли РНК, а остальная цепь снова "разворачивается".
Затем применяется метод попарной корреляции. Наиболее стабильный результат получается если применять метод к критическим точкам постепенно удаляясь от центра то в одну, то в другую сторону.
Результаты
правитьПрименяя описанную выше комбинацию методов "Быстрое охлаждение" и "Попарная корреляция" была получена достаточно точная третичная структура РНК-петли. Это стало возможным благодаря двум факторам:
- Методом "Быстрое охлаждение" было определено начальная позиция центра РНК-петли (4-5-6 позиции)
- Метод "Попарная корреляция" был применен к так называемому стволу дерева критических точек, т.е. следующая последовательность позиций нуклеотидов РНК-петли - 4-5, 5-6, 3-4, 6-7, 2-3, 7-8, 1-2, 8-9, 1-9 .
Контрольную водородную связь между 1 и 9 нуклеотидом получить не удалось, но атомы ее образующие установлены в достаточно близкие позиции. Водородная связь образуется если расстояние между донором и акцептором < 3 A, а водородный угол DHA < 20°. Нуклеотиды 1-C и 9-G образуют 3 водородные связи. Полученная в моделировании структура между 1 и 9 нуклеотидами удовлетворяет расстояниям между донором и акцептором (2.4-3.0 А < 3 A), но не удовлетворяет по углам (58°-76° < 20°). Но для получения грубой структуры это не принципиально, так как впоследствии был разработан метод „РНК-тюнинг“, который способен уточнить грубую структуру до идеальной.
Выводы и дальнейшие исследования
правитьПолучение петли-РНК позволяет далее применить метод „РНК-тюнинг“, в результате чего можно получить отдельную РНК-спираль. В отличие от стохастических методов, которые сейчас преобладают в биоинформатике, данный метод целенаправленно конструирует конечное состояние (нативное) РНК. С одной стороны, нужно понимать, что это не моделирование траектории сворачивания, но это первый шаг к этому. С другой стороны, мы получаем конечное состояние РНК, что уже само по себе, без знания траектории, позволяет исследовать ряд других областей.
Математически наши методы аналогичны задачи нелинейного программирования с ограничениями. При этом энергетическая функция является функцией минимум которой нужно найти, а водородные связи являются ограничениями. Но мы свободны не решать эту задачу математическими методами, достаточно организовать выше описанный алгоритмический поиск.
В дальнейшем, следует сосредоточится на исследовании более сложных РНК, которые имеют структуру, содержащею более одной РНК-петли. Например, рибозим целиком, а затем транспортные РНК. Что в свою очередь позволит исследовать эволюцию прокариот и происходящие при этом мутации (см. «Геном прокариот» (проект)).
Примечания
править- ↑ Геномика бросает вызов искусственному интеллекту
- ↑ 2,0 2,1 2,2 2,3 Автоматизированное предсказание de novo третичной структуры РНК
- ↑ Программная разработка RNAFoldingAI
- ↑ Программная разработка RNAFoldingAI/Архив#Версия RNAFoldingAI 0.1
- ↑ см. Парадокс Левинталя
- ↑ 2RO2
- ↑ (для RNA_AXIS от 0 до 0.2, а RNA_STAG от 0 до 1 )
- ↑ Естественно, за исключением фосфора (P), посредством которого соединяются между собой нуклеотиды