«Google зеленый лук штука!» – настоящее и будущее технологий машинного перевода Google

   
   

Шесть лет назад Сергей Брин, один из основателей Google, попробовал из любопытства перевести сообщение одного корейского пользователя и большого поклонника компании через лицензированный переводческий сервис. В результате он получил что-то вроде «Нарезанная сырая рыба обувь он хочет. Google зеленый лук штука!». Этот момент можно считать датой начала разработки одной из самых совершенных на сегодняшний день технологий машинного перевода, названной впоследствии очень просто — «Переводчик Google». Официально сервис был представлен в 2007 году.

Особенность «Переводчика Google» заключается в самом подходе к переводу: в отличие от других систем, «Переводчик» не занимается анализом правил грамматики и словарей. Напротив, система ищет языковые соответствия между переводимым текстом и огромным массивом из миллиарда слов, состоящим из примеров перевода, выполненного человеком. В ней также применяются самообучающиеся статистические алгоритмы для построения моделей перевода. Такой метод позволяет повысить качество и степень достоверности итогового текста, по максимуму исключить «не сочетаемые сочетания», которым грешат другие системы перевода. Сейчас «Переводчик Google» работает с 57 языками, начиная с распространенного английского, немецкого или итальянского, и заканчивая филиппинским, урду и латынью.

За последние годы система перевода развилась до такой степени, что ее начали интегрировать в другие продукты Google. В первую очередь искать на разных сайтах, вне зависимости от языка запроса, научилась поисковая система. Затем браузер Google Chrome начал переводить сайты, автоматически определяя язык оригинала и направление перевода. Все вместе - это позволило пользователям искать информацию, не задумываясь над тем, где она находится и на каком языке написана. Самый простой пример — это поиск гостиниц в чужой стране. Многие ли из нас знают, например, японский? Можно, конечно, использовать для подобных целей посреднические сайты, но любой путешественник знает — гораздо выгоднее искать напрямую. Или, что делать, если вы собираетесь заняться дегустацией вин в Италии? Если вбить в тот же Google запрос «винные туры по Тоскане», то при стандартном поиске на первых позициях будут сайты российских туроператоров, предлагающих однотипные и в большинстве своем малоинтересные туры в Тоскану. Как же найти тайное местечко, подальше от толп туристов? Очевидно, что через итальянские сайты, где советы дают сами местные жители. Для этого нужно попросить Google искать страницы на итальянском, используя русский запрос: фраза «Винные туры по Тоскане» автоматически переведется как «tour del vino in Toscana», затем Google выдаст сайты на итальянском, которые браузер переводит на русский.

Подобные манипуляции можно проводить с любым типом информации, которая по разным причинам доступна только на языке оригинала. По данным Mardar Research, около 99 процентов текстов в Интернете никогда не переводится на другие языки. Очевидный пример — ежедневные газеты. Чтобы каждое утро радовать себя чтением, например, свежего номера газеты «De Standaart», достаточно просто сохранить настройки перевода ее сайта в Google Chrome.

Другая точка приложения способностей «Переводчика Google» — это Google Talk. Если пригласить в чат одного из ботов-переводчиков, то можно не переживать, поймет ли собеседник ваш ломанный немецкий, а вы — его локальный диалект. Пускай и с ошибками, но конструктивный и понятный обеим сторонам разговор состоится. Аналогично «Переводчик Google» может пригодиться и в электронной почте Gmail, когда все тот же немец пришлет вам пространное письмо объемом в несколько страниц.

   
   

Наконец, одно из самых интересных, если не сказать удивительных способностей «Переводчика Google» — это автоматическая генерация субтитров в роликах YouTube. Каждую минуту на YouTube закачивается более 35 часов видео, снятого в разных уголках мира. Если видео сопровождается комментариями, то их можно вывести на экран в виде субтитров на языке оригинала или сразу по-русски. Для примера можно взять запись недавнего шоу Ларри Кинга, в котором принимал участие Владимир Путин. 

Нажав на кнопку СС (скрытые субтитры) в правом нижнем углу плеера, можно выбрать опцию Transcribe Audio — это автоматическая генерация субтитров (обратите внимание, насколько хорошо работает распознавание голоса Ларри Кинга, с голосом переводчика Путина не все так гладко — виноват акцент и манера речи). Затем в том же меню можно выбрать Translate Caption — перевод субтитров. Здесь ситуация повторяется — Ларри Кинг переводится отлично, а переводчик Путина, простите за тавтологию, переводится хуже (результат относительно плохо сгенерированных субтитров).

В последнюю очередь «Переводчик Google» проник на мобильную платформу Android. Возможно, когда-нибудь он научится переводить речь во время телефонного разговора в режиме реального времени, но пока система отвечает только за две вещи: голосовой перевод отдельных фраз и перевод сфотографированного телефоном текста.

Перевод фраз выглядит просто: нажимаем на значок микрофона в приложении «Переводчик Google» и произносим слово или фразу. Например, «How are you?». На экране мы увидим не только произнесенную фразу, но и предлагаемые варианты похожих фраз и их перевод на выбранный язык. Нажав на значок динамика рядом, можно услышать как эта фраза звучит, например, по-японски. Очень удобный способ поздороваться и донести до таксиста адрес своей гостиницы.

Самый банальный пример использования перевода сфотографированного телефоном текста — это меню в ресторане. «Переводчик Google» умеет распознавать английский, французский, итальянский, немецкий и испанский языки. Google обещает расширить этот список, включив туда нелатинские языки, в частности китайский, хинди, арабский и русский, но пока приходится довольствоваться основными европейскими.

Руководит направлением машинного перевода Чуи Тревелла, менеджер по развитию бизнеса в Google. Его задача — делать технические вещи доступными и понятными как для технически подкованных людей, так и для людей не разбирающихся в высоких технологиях. Пару недель назад Тревелла посещал Москву со своей лекцией и согласился выделить пару минут, чтобы ответить на несколько вопросов о себе и «Переводчике Google». Честно говоря, весь этот материал был написан исключительно под впечатлением от Чуи.

Расскажите немного о себе. В чем заключается ваша текущая роль в компании Google?

Ч.Т.: Сейчас я работаю в Google менеджером по развитию бизнеса. Раньше я занимал должность специалиста по работе с разработчиками.

Главное отличие системы машинного перевода Google от других систем заключается в применении самообучающихся алгоритмов для построении модели перевода, а не в анализе правил грамматики и простом использовании словарей. Расскажите подробнее об этом принципе работы. В чем его преимущества и в чем недостатки по сравнению с «классическим» подходом.

Ч.Т.: «Переводчик Google» осуществляет машинный перевод, используя самые современные технологии. Большинство систем машинного перевода, представленных сегодня на рынке, основаны на понимании правил того или иного языка, что требует большой дополнительной работы лингвистов и IT специалистов по работе со словарями и грамматическими справочниками. Наша система использует другой подход: мы создаем базу из миллионов слов — текстов в оригинале на определенном языке и примеров переводов таких текстов, сделанных людьми. Затем мы применяем самообучающийся статистический анализ для создания моделей перевода.

Откуда берутся «огромные массивы из миллиарда слов», которые используются Google для перевода и что они из себя представляют?

Ч.Т.: Мы используем множество источников: от блогов до официальных документаций. Документы правительственных организаций, таких как Европейский Союз и ООН, являются одними из лучших источников словарной базы для нашего сервиса. Причем их основное преимущество состоит в том, что они имеют качественный перевод и доступны на многих языках. Так, например, Европейский Союз переводит свои документы на 23 языка. Для небольших государств (например, Литвы), язык которых не очень популярен в сети, большую часть необходимой информации мы получаем именно из официальных бумаг. Книги являются еще одним важным ресурсом для развития сервиса

Некоторое время назад российские пользователи Переводчика Google обнаружили несколько забавных ошибок в работе переводчика. Например, если написать «Путин ехал на желтой «Калине», то перевод на английский будет такой: «Putin went on yellow Mazda». Другой пример обнаружили у нас в редакции: фраза «Как заменить жесткий диск в ноуте» переводится как «How to replace the hard drive in Toshiba». Что это? Ошибки в работе системы или влияние крупных брендов?

Ч.Т.: Так как Переводчик Google применяет самообучающиеся алгоритмы для перевода, подобные казусы иногда случаются. Например, если название бренда часто встречается при описании конкретного продукта, система может решить, что эти слова взаимозаменяемы.

Система перевода Google сейчас встроена, кажется, во все массовые сервисы, начиная от поиска и заканчивая GTalk. И в каждом из этих случаев используется все тот же массив из миллиарда слов и те же алгоритмы?

Ч.Т.: Да, во всех сервисах компании используется одна и та же система перевода.

Как работает распознавание голоса в роликах YouTube? Google использует базу наговоренных слов разными голосами в разных интонациях? Распознавание происходит даже лучше, чем перевод на русский.

Ч.Т.: Также как и голосовой поиск Google на мобильных телефонах, система распознавания голоса на YouTube улучшается по мере накопления статистики.

Знаете ли вы о проекте Translating Telephone от Microsoft? Он был представлен в этом году на мероприятии TechFest. Система умеет в реальном времени переводить разговор двух собеседников, озвучивая переведенные фразы. Это такой бот-переводчик, который есть в Gtalk, но только для голосовых разговоров. Существует ли у вас прототип подобной системы и если да, то когда же мы, наконец, его увидим?

Ч.Т.: Мы постоянно работаем над тем, чтобы развивать и усовершенствовать систему перевода и использующие ее сервисы. Думаю, что скоро мы сможем предложить нашим пользователям сервисы, которые несколько лет назад казались бы фантастикой, но мы предпочитаем говорить о том, что уже сделано, так что пока я не буду раскрывать все тайны.

Смотрите также: