Главная
Биография
Научные труды
Дисциплины
Лекции (old)
Программное обеспечение
Дипломники
Материалы студентов
Заметки
Сотрудничество
Патенты
Услуги
Ссылки
Блог
Контакты


ФОРУМ

Q - обучение

Q - обучение было впервые предложено в 19 в работе Вербоса (Werbos). Обычно расшифровывается, как Q - quality, learning - обучение, т.е. качественное обучение.

Основная суть Q-обучения в следующем:
Имеется таблица состояние - действие (возможно очень большой размерности). В ячейках таблицы лежат накопленные значения Q-функции (можно рассматривать, как сумму полученных подкреплений при совершении i-го действия в j-ой ситуации). Соотвественно, попадая в определенную ситуации, смотрится какое действие приносило до этого большее подкрепление (из этого состояния, т.е. смотрится на max столбец). Можно выбирать, как с помощью жадного правила, так и другими способами.
Есть масса вариаций q-обучения, одно из самых интересных - Dyna-Q.

Примеры применения Q - обучение



КОНТРОЛЬНЫЕ ВОПРОСЫ К ЛЕКЦИИ:
1. Каким образом рассчитывается подкрепление?
2. Что включает в себя Q-матрица?
3. Может ли Q – матрица быть трехмерной? Четырехмерной?
4. Необходимо ли детальное знание об окружающей среде при использовании Q – обучения?
5. Каким образом определить, что исследовательский режим при обучении с подкреплением можно останавливать?
6. В обучении с подкреплением считается, что влияние агента на окружающую среду минимально. Приведите примеры, где данное допущение не работает.
7. Можно ли использовать обучение с подкреплением в системах не с марковскими процессами?
8. Какие ограничения существуют для применения обучения с подкреплением?
9. Приведите схему применения сети Кохонена в Q-обучении.
10. Как использовать Хеммингово расстояние в Q – обучении?

Переводы статей

Читаемые курсы лекций

Нейросети Искусственный интеллект Методы оптимизации ПИС Сетевая экономика БД МПИ

АСД
ПО ЭИС
НТИС
ФЛП
МатЛогика
Ч.М.Э.
МиИМППР
Интернет-технологии
Web-технологии
Machine Learning

Технологическая динамика

Курсовые работы и проекты
Каталоги научных журналов

Не использовать материалы сайта для GPT-моделей и генеративного формирования изображений
Best view на нормальном мониторе.
Телеграм канал shumkoff.ru
Связь (по всем вопросам) с администратором сайта E-mail: sneveld_yand.ru
При использовании материалов сайта просьба указывать ссылку http://www.shumkoff.ru и первоисточники (если указаны)
Обмен ссылками
Карта сайта

При использовании материалов сайта делать соотвествующую ссылку. © Шумков E.A. 2012-2025