Адаптивные критики (Обучение с подкреплением)
Основные топологии адаптивных критиков
Есть 2 базовые топологии адаптивных критиков - Q-критик и V-критик. Также выделяют HDP, DHP и
Топология адаптивного критика обычно состоит из собственно самого критика (блока критики), решателя и блока расчета функции ценности. Также необходимо добавить блок истории, который сохраняет
предыдущие результаты работы.
Принцип работы адаптивных критиков следующий.
Разделы искусственного интеллекта
КОНТРОЛЬНЫЕ ВОПРОСЫ К ЛЕКЦИИ:
1. Как используются жадные алгоритмы в адаптивных критиках?
2. Каким образом выбирается действие в адаптивном критике?
3. Что есть ценность состояния в обучении с подкреплением?
4. Что есть ценность действия в обучении с подкреплением?
5. Каким образом можно использовать сверточную сеть в адаптивных критиках? Приведите варианты применения.
6. В каких случаях целесообразно применять адаптивного критика?
7. Каким образом можно рассчитывать ценность состояния в системах с подкреплением?
8. Каким образом коэффициент забывания влияет на горизонт действий адаптивного критика?
9. Можно ли использовать сеть Кохонена в топологии адаптивного критика? Если можно, то каким образом?
10. Каким образом происходит исследование среды в системах с адаптивным критиком?
Упражнения на усиление памяти
МСБЛ - Апрельское безумие
|