Международный конкурс по искусственному интеллекту (ИИ) закончился для российских ученых триумфом — они получили первое место. Команда под руководством управляющего директора по исследованию данных Лаборатории по искусственному интеллекту Сбербанка и руководителя группы «Обучение с подкреплением» Института искусственного интеллекта AIRI Дмитрия Бабаева заняла первое место в международном соревновании NetHack Challenge. Россияне показали лучший результат в обучении ИИ по прохождению одной из самых сложных игр в мире. Для этого использовали нейросети.
В команде также числились старшие исследователи Института искусственного интеллекта Дмитрий Соркин и Иван Назаров, а также старший исследователь Лаборатории по ИИ банка Никита Овсов. Всего в конкурсе, организованном Facebook AI и DeepMind, приняло участие около 500 человек из 42 двух команд со всего мира. Соревнование прошло в рамках одной из ведущих конференций по машинному обучению NeurIPS 2021.
Задача, поставленная NetHack Challenge — разработка ИИ, который сможет успешно пройти полную игру NetHack или набрать как можно более высокий балл. Эту игру считают одной из самых сложных в мире и используют для оценки прогресса в обучении ИИ, поскольку современные ИИ пока достаточно плохо справляются с ней, в отличие от го, шахмат, Dota 2 или Starcraft, которые модели машинного обучения освоили уже давно. Сложность заключается в том, что такая игра имеет несколько вариантов исходных событий, а также в ней отсутствует заранее известная стратегия. В результате ее сценарий максимально приближен к условиям реального мира.
Российским учёным удалось построить иерархию навыков, которыми должен обладать ИИ для игры в NetHack. В их основе — применение как классических подходов к машинному обучению, так и современных методов на основе обучения с подкреплением.
«Победа нашей команды на таком престижном международном соревновании в очередной раз подчёркивает высокий уровень российских специалистов в области искусственного интеллекта и машинного обучения. Решения, предложенные участниками конкурса, имеют гораздо более широкое применение, чем компьютерная игра. Прогресс в решении подобных задач приведёт к новым открытиям в области робототехники, например, для совершенствования работы беспилотных автомобилей и роботов-курьеров, а также в таких областях, как автоматизация тестирования пользовательских интерфейсов», — отметил Александр Ведяхин, первый заместитель председателя правления Сбербанка.
Обучение с подкреплением — метод обучения ИИ, на основе обратной связи от взаимодействия со средой, например, игрой или реальным миром. Он использовался для победы ИИ в игре го (AlphaGo) и многих известных играх, например, StarCraft (AlphaStar), Dota 2 (OpenAI Five). Он начинает активно применяться для задач управления роботами, торговли на бирже, управления логистикой и в множестве других областей.
Today is the day! Will deep reinforcement learning or symbolic bots win the @NeurIPSConf 2021 NetHack Challenge? We can't wait to tell you about what we found out and provide empirical evidence for future NetHack-themed AI debates between elven-@GaryMarcus and wizard-@ylecun! pic.twitter.com/9ZBqSRjbTU
— The NetHack Learning Environment (@NetHack_LE) December 9, 2021
Конференция и семинар по системам обработки нейронной информации (сокращенно NeurIPS, ранее NIPS) — это конференция по машинному обучению и вычислительной нейробиологии, которая проводится с 1987 года. Старейшая и наиболее авторитетная конференция для специалистов по машинному обучению в мире.
Научно-исследовательский институт искусственного интеллекта AIRI — автономная некоммерческая организация, занимающаяся фундаментальными и прикладными исследованиями в области ИИ. Основная цель института — создание универсальных систем ИИ для решения задач реального мира. На сегодняшний день более 90 научных сотрудников AIRI задействовано в исследовательских проектах института для работы совместно с глобальным сообществом разработчиков, академическими и индустриальными партнерами.