Q - обучение
Q - обучение было впервые предложено в 19 в работе Вербоса (Werbos). Обычно расшифровывается, как Q - quality, learning - обучение, т.е. качественное обучение.
Основная суть Q-обучения в следующем:
Имеется таблица состояние - действие (возможно очень большой размерности).
В ячейках таблицы лежат накопленные значения Q-функции (можно рассматривать, как сумму полученных подкреплений при совершении i-го действия в j-ой ситуации).
Соотвественно, попадая в определенную ситуации, смотрится какое действие приносило до этого большее подкрепление (из этого состояния, т.е. смотрится на max столбец).
Можно выбирать, как с помощью жадного правила, так и другими способами.
Есть масса вариаций q-обучения, одно из самых интересных - Dyna-Q.
Примеры применения Q - обучение
|