Евгений Козловский - российский писатель, драматург, режиссер театра и телевидения. Один из самых известных компьютерных журналистов и блогеров.
Прочитав, что Google запустил недавно голосовой поиск на русском языке, я только пожал плечами, поскольку с большим скепсисом отношусь к разным проявлениям «Искусственного Интеллекта», полагая их в большинстве маркетинговыми ходами для получения дополнительных бюджетов. Если проще: для развода лохов на бабки. Совсем недавно, например, я проверял, как Google Picasa и Adobe Elements «узнают» лица людей, - оказалось, от силы 50:50. Это, конечно, радует чисто концептуально, но делает такое распознавание практически бессмысленным, ибо на него нельзя положиться.
Единственная, пожалуй, область, в которой «Искусственный Интеллект» (извините, рука не поворачивается писать это сочетание слов без кавычек) проявил себя достаточно мощно и надежно, - это OCR, Оптическое Распознавание Символов, но там, согласитесь, и задача из не самых сложных. Число символов и их начертаний хоть велико, но вполне объятно, а для их даже человеческого распознания все-таки нужно, чтобы они были достаточно похожи на идеальный вариант. Что же касается голоса… Помнится, лет пятнадцать назад где-то на территории Университета располагалась небольшая программерская фирмочка, выпускавшая, в числе прочего, так называемую «Голосовую мышь». Ты поначалу приручал ее под свои команды (свой голос, своя интонация), после чего она эти зазубренные команды воспроизводила. В большинстве случаев верно. Особенно, если ты не ошибался в интонации. Иной раз приходилось перебирать десяток вариантов. Другой разговор, что самому их все запомнить было невозможно…
Короче, распознание голосовых команд и шире - текстов вообще, казалось мне одной из самых сложных, едва ли разрешимых в принципе, задач. Ну еще бы: сколько голосов, сколько манер говорить, сколько интонаций (- Рабинович! Вы не идиот? Извиняюсь…), сколько эмоциональных состояний… Поди продерись сквозь всё это.
Но вот я обновил на своем HTC Desire прошивку (с Android 2.1 на Android 2.2) и в меню приложений появилась иконка с микрофончиком «Голосовой поиск», а в штатном поиске такой же, но крохотный, микрофончик добавился. Не ожидая ничего хорошего, попробовал. Сработало! Одно слово! Потом - другое. Потом - несколько их сочетаний. Потом - сложные сочетания. Потом даже разные заграничные, но употребительные у нас слова вроде XBox 360 или Mini Cooper. Не переключая язык распознавания с русского на английский (там их целый список из 18 позиций, включая японский и два китайских диалекта!). Стал гонять туда-сюда специально не заботясь об улучшенной дикции. То есть по нормальному. Подавляющее большинство обычных, не издевательских, не намеренно заверченных запросов распозналось адекватно. Более того: на картах Гугла через тот же микрофончик легко распознавались самые разные адреса, с номерами домов. Во всяком случае московские. И всё это не на каком-нибудь там суперкомпьютере. И не уходя в размышления на полчаса. За секунды и на вполне карманном устройстве! Понять этого ума у меня так и не хватило! Чу-де-са!
Но это еще полдела. Механизм речевого распознавания, появившийся в системе, тут же стал использоваться и «боковыми» программами, не одним гугловским поиском. Я обнаружил на Маркете фантастический бесплатный переводчик TransZilla. Там, на его закладке, стоит адрес www.buzlylabs.com, но по нему я TransZilla так и не обнаружил, только в андроидовском Маркете.
Переводчик понимает более пятидесяти (!) языков, причем в каждую сторону, то есть направлений перевода попросту не сосчитать. На фоне отечественного платного шестиязычного ПРОМТа это выглядит, согласитесь, фантастически! Ну, то есть, я готов допустить, что ПРОМТ переводит качественнее, но, когда речь идет о карманном коммуникаторе, вряд ли кто займется на нем профессиональным художественным переводом, а для жизни TransZill’ы довольно с головой.
У нее в верхнем окне для «источника» работает автоматическое распознавание языка (!) и… правильно! - голосовой ввод. И, коль уж это переводчик, а не поисковый интерфейс, я наговаривал туда целые тексты. Нет, не страницы из Толстого, конечно, но по две-три и даже четыре поэтические строчки. Знаете, типа «Однажды в студеную зимнюю пору…». Тут, конечно, с точностью распознавания было чуть хуже, чем при голосовом поиске, но исключительно за счет длины фраз. Первый десяток слов обычно печатался идеально! Дальше шел мгновенный перевод. И дальше… И дальше - его произнесение вслух! Представляете?!
Я позволю себе рассказать историю, приключившуюся со мной несколько лет назад в Гонконге, куда я ездил в рамках одного из пресс-туров. Спустился вечер. Я опаздывал на специальный ужин. Такси не поймать. Трамвай довез бы меня то места достаточно быстро, но я никак не могу отыскать, где он проходит. Знал, что где-то рядом, но где именно найти не мог! Стал приставать к прохожим. «Where a tram? Tram-way?». Полное непонимание в глазах. К следующему… Еще к одному… Они меня не-по-ни-ма-ли… А время убегало трагически. Тогда я вынул из кармана коммуникатор и написал слово Tramway, поднес к глазам следующего прохожего, сопроводив на мой вкус совершенно английским его произнесением. «Ah, tramway!», - радостно повторил прохожий, будто я только что не говорил это же слово и, как мне казалось, точно с тем же произношением раз пять! Ну и показал мне направление. На ужин я, правда, впритык, но успел!
И что бы я сделал сейчас? Сказал бы по-русски в свой Desire слово «трамвай», нажал бы на кнопочку перевода, а, остановив прохожего, нажал бы на «произнести». Думаю, всё решилось бы в один миг.
Но «трамвай» - это еще довольно просто. Надеюсь, что с TransZilla и голосовым распознаванием и произнесением можно будет с легкостью решать за границей и куда более сложные, более кучерявые вопросы. Почти за любой границей.
Так что? Неужели он в конце концов все же появится? Этот самый… Искусственный Интеллект? Без кавычек? Своеобразный, конечно, машинный. Решающий, конечно, задачи вполне отдельные и, скорее всего, личностью, подлинным пониманием человека не обладающий.
Но все же…