Ключко В.И., Шумков Е.А., Карнизьян Р.О. 'Нечеткий контроллер с правилами самомодификации' // Политематический сетевой электронный научный журнал КубГАУ. №9, 2013

ФОРУМ

Научная статья Ключко В.И., Шумков Е.А., Карнизьян Р.О. 'Нечеткий контроллер с правилами самомодификации'

Политематический сетевой электронный научный журнал КубГАУ. №9, 2013

Ключевые слова: ГИБРИДНАЯ НЕЙРОНЕЧЕТКАЯ СЕТЬ, НЕЙРОННАЯ СЕТЬ, ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ, ПОЛИТИКА САМООБУЧЕНИЯ, ANFIS, АДАПТИВНЫЙ КРИТИК

В настоящее время стали популярны реализации систем управления объектами на базе топологий с подкреплением [2], в частности все большее развитие получают адаптивные критики [8,9], а также системы с различными реализациями Q - обучения [11]. При этом существует большое количество топологий на все случаи жизни, как адаптивных критиков, так и систем на базе Q - обучения, в частности приведем следующий список: DHP, GDHP, ADHPD, ADGDHP, GIFACL, FACL, Q - Хемминг, Dyna - Q, Q - Kohonen network, CMLP, HQ и т.д.[6, 8,9,10,11,12]. Каждая из топологий имеет свою область применения и нет ни одной универсальной [2,6]. Также у каждой топологии имеется свои достоинства и недостатки. Одной из попыток создать универсальную топологию для создания систем управления на основе обучения с подкреплением, является разработка нейросетевой топологии "Внутренний учитель" [2,3,6]. Рассмотрим дальнейшее развитие данной топологии.

Для топологии "Внутренний учитель" используются две основные компоненты - Решатель и Учитель. Подобную функциональную схему можно найти еще в работе 1971 года [1]. Предложенная в [3] топология "Внутренний учитель" состоит из нескольких структурных компонент (см. Рисунок 1). Управляющая компонента системы - "Решатель". Она получает вектор состояния объекта и среды и формирует на выходе управляющий вектор. Вектор состояния среды формируется сенсорной компонентой. Вектор управляющего воздействия отрабатывает моторная компонента. Наиболее важная часть системы - "Учитель", компонента обучения. Компонента обучения оценивает состояние среды на предмет изменения характера воздействия на объект, и если это имеет место быть, то Учитель вмешивается в управление, перенастраивая правила управления или же вообще изменяя их. При этом Учитель в режиме первоначального обучения формирует специального вида управляющие воздействия, позволяющие быстро и полно изучить среду. Таким способом система управления (далее СУ) на базе данной топологии меняет стратегию управления. На вход Учитель получает данные обратной связи от внешней среды и историю управления объекта управления.

Полный текст статьи на сайте журнала КубГАУ

Библиографическая ссылка на статью:

<< Предыдущая статья || Следующая статья >>

Переводы статей

Читаемые курсы лекций

Нейросети Искусственный интеллект Методы оптимизации ПИС Сетевая экономика БД МПИ

АСД
ПО ЭИС
НТИС
ФЛП
МатЛогика
Ч.М.Э.
МиИМППР
Интернет-технологии
Web-технологии
Machine Learning

Технологическая динамика

Курсовые работы и проекты
Каталоги научных журналов

Не использовать материалы сайта для GPT-моделей и генеративного формирования изображений ЭТО HTML сайт и ему не нужен HTTPS. Best view на нормальном мониторе.

Связь (по всем вопросам) с администратором сайта E-mail: sneveld_yand.ru
При использовании материалов сайта просьба указывать ссылку http://www.shumkoff.ru и первоисточники (если указаны)
Обмен ссылками
Карта сайта