Анализ статьи~Целенаправленный поиск в задаче сворачивания третичной структуры РНК: различия между версиями

Содержимое удалено Содержимое добавлено
Строка 32:
 
; Показано, что метод [[w:Q-обучение|„Q-обучение“]] в отличии от метода „X-тюнинг“, не пригоден для использования в играх с противником
Такие игры как «крестики-нолики» также решают с помощью метода Q-обучения, в котором агент изучает энергетическую поверхность и пытается обучиться стратегии игры. Но для применения этого и многих других методов ИИ, использующих стохастический поиск, необходима стадия обучения. Во время этой стадии агент пытается изучить поверхность поиска, построить её модель в том или ином виде и распространить свои знания на неизвестную еще область – осуществляя затем прогноз. Но энергетическая поверхность в игре сильно изменяется с каждым новым ходом и является практически неповторяемой. Поэтому даже в игре «крестики-нолики» невозможно сделать обобщение и построить модель поверхности. Точнее, обобщённая модель будет почти эквивалентна полному дереву возможных состояний, которое и строится методом Мини-Макс. Таким образом, в задачах, где энергетическая поверхность меняется в зависимости от действий игроков (агентов), затраты на построение модели будут эквивалентны полному перебору или еще больше.
 
В отличие от этого, метод X-тюнинг не пытается строить полноценную модель энергетической поверхности. Он основывается на каждом шаге только на состояниях, которые дают наибольшие шансы для следующего шага, и далее просчитывает лишь локальную область, затем снова выбирая наилучшее состояние - делает следующий этап локального перебора. Таким образом, серия локальных переборов, основываясь на наилучшее состояние, позволяет приблизиться к глобальному экстремуму и позволяет говорить о целенаправленном переборе.
 
== Анализ ==