Q - обучение: основные подходы и схемы. Обзор литературы по Q-обучению

ФОРУМ

Q - обучение

Q - обучение было впервые предложено в 19 в работе Вербоса (Werbos). Обычно расшифровывается, как Q - quality, learning - обучение, т.е. качественное обучение.

Основная суть Q-обучения в следующем:
Имеется таблица состояние - действие (возможно очень большой размерности). В ячейках таблицы лежат накопленные значения Q-функции (можно рассматривать, как сумму полученных подкреплений при совершении i-го действия в j-ой ситуации). Соотвественно, попадая в определенную ситуации, смотрится какое действие приносило до этого большее подкрепление (из этого состояния, т.е. смотрится на max столбец). Можно выбирать, как с помощью жадного правила, так и другими способами.
Есть масса вариаций q-обучения, одно из самых интересных - Dyna-Q.

Примеры применения Q - обучение

Примеры на Матлабе и Экселе

Переводы статей

Читаемые курсы лекций

Нейросети Искусственный интеллект Методы оптимизации ПИС Сетевая экономика БД МПИ

АСД
ПО ЭИС
НТИС
ФЛП
МатЛогика
Ч.М.Э.
МиИМППР
Интернет-технологии
Web-технологии
Machine Learning

Курсовые работы и проекты
Каталоги научных журналов

Связь (по всем вопросам) с администратором сайта E-mail: sneveld@rambler.ru
При использовании материалов сайта просьба указывать ссылку http://www.shumkoff.ru и первоисточники (если указаны)
Обмен ссылками
Карта сайта