в данной реализации используются возможности python и библиотеки numpy для реализации алгоритма q-обучения. для реализации алгоритма глубокого q-обучения используется tensorflow. требования к версиям можно найти в проекте. среда построена без использования OpenAi Gym. она содержит три объекта - агента, цель и анти-цель. агент может совершать четыре действия. эффективность алгоритмов сравнивается по количеству набранных агентом очков в течение эпизода.
- клонируйте репозиторий (git clone https://github.com/ajdivotf/ql-dql)
- перейдите в исходную папку
- откройте коммандную строку
- установите библиотеки
- запустите один из файлов - q-learning или deep-q-learning
- подождите, пока завершится обучение
- готово!
- сначала агент не обучен. он совершает неверный выбор и очень долго "думает", прежде чем это сделать.
- затем агент учиться делать верный выбор, но это более медленно, чем следовало бы.
- и наконец полностью обученный агент, набирающий свой максимальный результат, выглядит так: