Аннотация:Данная работа рассматривает проблему автономного управления колесным роботом при помощи машинного обучения.
В работе изучены и описаны теоретические основы обучения с подкреплением в целом и конкретных алгоритмов обучения, а именно, Q-обучение (Q-learning) и SARSA (State Action Reward State Action).
В качестве среды для реализации и тестирования использовались: Gazebo (физический движок, и графика), ROS (Robot Operating System) – мета-операционная система для роботов, а также пакет расширения для описанных выше инструментов - gym-gazebo, который представляет собой расширение для упрощения использования обучения с подкреплением.
Была поставлена задача: обучить робота проходить лабиринт, не врезаясь в стены, при помощи обучения с подкреплением.
Состоянием в алгоритмах обучения считались дискретизированные данные с вращающегося лазерного дальномера (лидара).
Изучались различные варианты действий и функций наград, варьировались параметры обучения.