Почти как человек. Новый чат-бот умеет шутить и подстраиваться под эмоции

Компания Open AI, разработчик чат-бота ChatGPT, представила новейшую модель генеративного искусственного интеллекта. Она быстрее старой, обладает более широким набором функций, может переводить с одного языка на другой в реальном времени, «улавливать» эмоции говорящего и отвечать с разной интонацией. А ещё — шутить и «смеяться».

   
   

Aif.ru спросил у экспертов, можно ли в данном случае говорить о прорыве, есть ли что-то настораживающе в этой разработке и каких навыков и умений стоит ожидать от нейросетей в последующие годы. 

Переводит на лету

Новую модель искусственного интеллекта назвали GPT-4o. Символ «о» означает «omni» и переводится как «всесторонний».

Чат-бот способен анализировать звук, изображение и текст в режиме реального времени и делает это лучше, чем его предыдущие версии. Он реагирует на голос в среднем за 320 миллисекунд, что сравнимо с реакцией человека в разговоре.

Как отмечают разработчики, GPT-4o направлен на большее взаимодействие с человеком в роли его помощника. Например, бота можно будет прервать во время ответа. Он будет улавливать эмоции в голосе человека и подстраиваться под них, меняя интонации.

В компании обращают внимание, что предыдущая модель GPT-4 теряет множество информации в ходе общения с пользователем и не умеет воспроизводить смех, пение или выражать эмоции. «В случае с GPT-4o мы обучили единую новую модель сквозному анализу текста, изображения и аудио; это означает, что все входные и выходные данные обрабатываются одной и той же нейронной сетью», — говорят разработчики.

Ключевым нововведением называют способность GPT-4o понимать фотографии напрямую с камеры в реальном времени (до этого чат-бот мог видеть лишь загруженные изображения). Это делает взаимодействие с нейросетью более естественным. Например, GPT-4o по фотографии ресторанного меню на иностранном языке сможет переводить названия блюд, рассказывать о них, давать по ним рекомендации.

   
   

Предполагается, что чат-бот сможет общаться с пользователем и по видео — например, показывать ему в прямом эфире какую-то спортивную игру и объяснять её правила.

GPT-4o владеет более чем 50 языками, в том числе русским, казахским, грузинским, китайским, арабским, турецким, сербским. Причём понимать и переводить речь он способен на лету — прямо как профессионал-переводчик.

Не революция, но хорошее обновление

«Безусловно, эта модель на сегодня абсолютный мировой лидер. По всем параметрам она превосходит свои предыдущие версии, решения конкурентов и публичные открытые модели, — прокомментировал разработку для aif.ru заместитель директора Института искусственного интеллекта Университета Иннополис Иван Никанов. — В чём главное новшество? Большая работа проделана в части оптимизации и ускорения работы. Нейросеть теперь умеет понимать видео и голос с минимальной задержкой, почти в режиме реального времени, и это одно из главных конкурентных преимуществ. Например, задержка звука нейросети Google Gemini — больше трех секунд. А у GPT-4o — 300 миллисекунд».

«Итоги презентации обновлений GPT следует воспринимать не как революцию, но как хорошее обновление продукта. Это очень качественная модель от лидеров отрасли, — говорит генеральный директор Института искусственного интеллекта AIRI, профессор Сколтеха Иван Оселедец. — По результатам работы с текстом (модели соревнуются друг с другом на ChatGPT Arena) она превосходит все существующие решения, но отставание уже сократилось — Falcon, Gemini и другие дышат в спину. Увеличилась скорость работы, а также появились новые функции — например, синтез речи. Все они есть и в решениях других стартапов, но на данный момент объединить их в одном продукте лучше всего получается у компании Open AI».

Дальше — взаимодействие нейросетей

Есть ли что-то в новой модели, что настораживает специалистов, в том числе в плане безопасности? Никанов обращает внимание, что в датасет (набор данных) для тренировки GPT-4o попадал спам и сомнительные запросы пользователей из интернета.

«Компания OpenAI заявляет об очень тщательной работе с данными и об их фильтрации, однако практика показывает, что ошибки неизбежны даже у лидеров рынка. Энтузиасты нашли в новом мультиязычном токенизаторе на китайском языке рекламу казино и другие отсылки из „мусорного“ сегмента интернета», — говорит эксперт.

Чего стоит ожидать от нейросетей в последующие годы? Какие навыки и умения разовьют у них специалисты?

«Стоит ожидать ускорения быстродействия и улучшения работы с мультимодальными данными с сохранением контекста. Проще говоря, нейросеть сможет в режиме реального времени оперировать видео, звуком, текстом и „понимать“ связность объектов в информационных потоках различной природы», — считает Никанов.

«Думаю, продолжатся общие тренды разработки ИИ-моделей. Все сейчас нацелены на генерацию видео, а также переход к „агентным системам“: вместо одной нейросети будет работать много нейросетей, взаимодействующих друг с другом, — делится своим мнением Оселедец. — Что касается мультимодальности, то есть умения модели воспринимать не только текст, но и другие форматы одновременно, то представленные результаты говорят об активной работе в данном направлении, но прорывов тут пока нет».