Q - обучение
Q - обучение было впервые предложено в 19 в работе Вербоса (Werbos). Обычно расшифровывается, как Q - quality, learning - обучение, т.е. качественное обучение.
Основная суть Q-обучения в следующем:
Имеется таблица состояние - действие (возможно очень большой размерности).
В ячейках таблицы лежат накопленные значения Q-функции (можно рассматривать, как сумму полученных подкреплений при совершении i-го действия в j-ой ситуации).
Соотвественно, попадая в определенную ситуации, смотрится какое действие приносило до этого большее подкрепление (из этого состояния, т.е. смотрится на max столбец).
Можно выбирать, как с помощью жадного правила, так и другими способами.
Есть масса вариаций q-обучения, одно из самых интересных - Dyna-Q.
Примеры применения Q - обучение
КОНТРОЛЬНЫЕ ВОПРОСЫ К ЛЕКЦИИ:
1. Каким образом рассчитывается подкрепление?
2. Что включает в себя Q-матрица?
3. Может ли Q – матрица быть трехмерной? Четырехмерной?
4. Необходимо ли детальное знание об окружающей среде при использовании Q – обучения?
5. Каким образом определить, что исследовательский режим при обучении с подкреплением можно останавливать?
6. В обучении с подкреплением считается, что влияние агента на окружающую среду минимально. Приведите примеры, где данное допущение не работает.
7. Можно ли использовать обучение с подкреплением в системах не с марковскими процессами?
8. Какие ограничения существуют для применения обучения с подкреплением?
9. Приведите схему применения сети Кохонена в Q-обучении.
10. Как использовать Хеммингово расстояние в Q – обучении?
|