CTOR Learning Platform

CTOR Learning Platform — исследовательская и инженерная система для обучения игровых AI-агентов через self-play и deep reinforcement learning. В основе лежит игра CTOR (Circular TORus): стратегическая игра на тороидальной доске 10x10, где края поля замкнуты, а тактические паттерны отличаются от обычной квадратной сетки.

Обучение моделей

Проект включает self-play циклы, experience replay, чекпоинты, auto-resume, базовых соперников, несколько семейств нейросетевых архитектур и развитие стратегий от ранних моделей до v9.2/v10. В систему добавлены phase-aware входы, reward shaping, штрафы за будущую уязвимость, бонусы за связность позиций и архитектуры вроде ResNet-подходов и TViT-Dual.

Турниры и оценка качества

Отдельный tournament system сравнивает модели между собой, с историческими чекпоинтами и алгоритмическими ботами: Minimax, SmartMinimax, Defensive, Random. Есть ELO-рейтинг, планирование матчей, worker-очереди, replay/результаты, frontend-дашборды для рейтингов, телеметрии и статуса инфраструктуры.

Инфраструктура

Платформа соединяет Python game engine, PyTorch training, FastAPI, Redis, MongoDB, SQLite double-write migration, NPZ-хранение партий, Docker-профили, мониторинг и Next.js-интерфейсы. По сути это компактная лаборатория агентного AI: правила среды, обучение, жизненный цикл моделей, наблюдаемость, распределенное выполнение и UX для проверки качества агентов.

CTOR Learning Platform

Обучение моделей

Турниры и оценка качества

Инфраструктура

Галерея