Голосовые устройства с искусственным интеллектом – не просто автоматические проигрыватели с программой. Они могут стать основным способом взаимодействия с различными машинами.
31 августа 2012 года четыре инженера компании Amazon подали заявку на масштабный патент, получивший впоследствии название «Alexa». Речь идет о системе искусственного интеллекта, разработанной для взаимодействия с одной из самых больших и самых запутанных баз данных: человеческой речью.
Инженерам потребовалось всего 11 слов и диаграмма, чтобы описать, как она будет работать: пользователь-мужчина в тихой комнате говорит: «Пожалуйста, проиграй песню «Let It Be» от группы Beatles». Маленькое настольное устройство отвечает: «Без проблем, Джон», и начинает проигрывать требуемую композицию.
Искусственный интеллект (ИИ) управляемый голосом начал скромно, но затем превратился в большой проект компании Amazon, а в последнее время стал еще и стратегическим полем битвы, в которой участвует много соперников.
Google, Apple, Samsung, и Microsoft – все они нанимают тысячи исследователей и маркетологов, пытаясь создать неотразимые версии простых в использовании девайсов, с которыми мы сможем разговаривать. «До нынешнего момента, мы все подстраивались под технику, которая требовала от нас печатать, нажимать или водить пальцем по экрану. Теперь новые пользовательские интерфейсы подстраиваются под нас», – отмечает Ахмед Боузид (Ahmed Bouzid), главный исполнительный директор Witlingo, компании, которая изготавливает различные голосовые приложения для банков, университетов, юридических контор и других.
Корпорация Amazon превратила простую голосовую платформу для проигрывания музыки в нечто большее – в систему ИИ, на основе которой можно что-то создавать, и которая постоянно обновляет свою базу данных. Именно на основе Alexa были созданы умные колонки Echo и Dot – вездесущие помощники по дому, которые могут отключать свет, рассказывать шутки или читать вам газеты. Они также собирают множество данных о своих пользователях, которые затем используются для совершенствования Alexa.
С момента дебюта на рынке в 2014 году были проданы десятки миллионов машин на платформе Alexa. Считается, что на американском рынке голосовых устройств с ИИ Amazon продает около 70% всех устройств, хотя конкуренты продолжают поджимать ее со всех сторон: компания Google Home также продала миллионы единиц продукции, а Apple и Microsoft уже готовятся к запуску своих собственных версий.
Конечным вознаграждением должна стать возможность контролировать или, по меньшей мере, влиять на три важных рынка: автоматизацию домов, домашние развлечения и шопинг. Сложно понять, сколько человек хотят разговаривать со своими холодильниками, однако современная жизнь постоянно меняется. Так же, как смартфоны изменили все, начиная с этикета свиданий до скорости пешеходов, голосовые устройства с ИИ начинают коренным образом менять многие аспекты домашней жизни. Зачем подниматься, чтобы закрыть входную дверь или завести машину в морозный день, когда Alexa или ее сородичи могут быстро решить эти проблемы?
На данный момент Amazon не получает часть дохода компаний, создающих умные обогреватели, лампочки или другие устройства на платформе Alexa. Однако в дальнейшем легко представить заключение договоров на разделение дохода. Сегодня Amazon делает деньги на самих машинах по ценам от 50 долларов за Dot до 230 долларов за колонки Echo с видео экранами. Корпорация также пожинает вторичную прибыль, если пользователи начинают покупать что-то еще из длинного списка продуктов онлайн магазина корпорации, при этом компания не раскрывает показатели трафика.
Чтобы Echo стали такими же распространенными, как смартфоны, им понадобится выполнять еще очень много дополнительных функций. Поэтому Amazon поощряет независимых разработчиков создавать новые устройства на основе этой платформы, так же как это давно делает Apple с разработчиками своих приложений. На данный момент уже создано более 15 тысяч подобных «скиллов» или приложений, причем инструменты для их создания настолько легкие и понятные, что теперь даже без особых навыков программирования можно написать простую программу в течение часа. Среди самых популярных приложений такие сервисы как Uber и Lyft.
Среди самых амбициозных разработчиков – компании, создающие аппараты или продающие услуги, совместимые с Alexa. Например, фирма Capital One предлагает банкам систему для оплаты счетов на основе Alexa; компания Ecobee в Торонто – одна из числа производителей умных обогревателей с системой Alexa, которые позволяют людям поднимать и понижать комнатную температуру с помощью нескольких слов. «Наши клиенты – занятые люди», – объясняет Стюарт Ломбард (Stuart Lombard), главный исполнительный директор Ecobee – компании, которая в течение десяти лет развивает линейку продукции на системе Alexa, и теперь их продажа приносит примерно 40% от всех доходов. «Им приходится бороться с пробками, чтобы добраться до дома, затем кормить детей, менять им памперсы, и кто знает, что еще. Мы даем им способ что-то делать без рук, пока они заняты другими делами».
Когда речь сталкивается с ИИ
Многих пользователей привлекает голосовой ИИ тем, что «обещает» прогибаться под нас, реагировать на то, как мы разговариваем и думаем, не требуя печати на клавиатуре или нажатия на экран. Однако именно это вызывает сложности в техническом плане.
В большинстве своем люди очень беспорядочно разговаривают: мы сами себя перебиваем. Мы скачем с одной мысли на другую. Мы используем слова, кивки и звуки совершенно странным образом, и предполагаем, что наша речь имеет смысл, когда нашим слушателям так совсем не кажется.
Тысячи сотрудников Amazon, включая исследователей из филиалов в Сиэттле, Саннивейле, Калифорнии и Кэмбридже, штат Массачусетс, работают над этой проблемой. Но даже при этом Amazon недавно предложила 1100 новых вакансий в различных отделах компании, включая 215 рабочих мест для специалистов по машинному обучению. Во время встречи в офисе компании в Кэмбридже, я спросил главного специалиста Alexa, Рохита Прасада (Rohit Prasad), зачем им так много людей, и когда они полностью укомплектуют свою исследовательскую команду.
«Меня все смешит в твоем вопросе», – ответил Прасад.
Через несколько секунд, отсмеявшись, он объяснил, что уже 20 лет работает над технологией распознавания речи, и по большей части скорость достижения результатов была очень медленной. Однако за прошедшие пять лет открылись гигантские возможности. Создать поистине эффективный голосовой ИИ – это сложная и все еще невыполненная задача. Однако если в прошлом ученые по распознаванию речи пытались с первой попытки определить точный смысл иногда хаотичных фраз, то новый подход к обучению машин достиг прогресса с помощью другого пути: голосовые устройства изначально работают на основе несовершенных совпадений, за которыми следует череда уточняющих догадок. Ключом является обработка большого количества данных пользователя и обучение на основе предыдущих ошибок. Чем больше времени Alexa проводит со своим «хозяином», тем больше данных она от него собирает и тем умнее становится. С прогрессом появляются возможности и необходимость в дополнительной рабочей силе.
«Приведу пример», – сказал Прасад. – «Если ты спросишь у Alexа: «Какой был последний альбом Adele?», ответ должен быть «19». Если ты потом скажешь: «Проиграй его», Alexa будет этого достаточно для его воспроизведения. Однако, что если между этим встрянет еще какая-то дополнительная информация? Что если ты сначала спросишь Alexa, в каком году этот альбом вышел, и сколько было продано копий? А потом завершишь этот диалог загадочным «Проиграй его» – тогда ранние версии Alexa впадут в ступор. Теперь же данная технология способна по крайней мере, иногда отслеживать эту мысленную цепочку и понять, что «его» все еще означает «19».
Это улучшение стало возможным благодаря технике машинного обучения, переосмысливающего тысячи предыдущих диалогов, в которых Alexa спотыкалась. Система понимает, какую песню на самом деле хотел услышать пользователь, и где в ранних частях диалога была впервые указана эта композиция. «В самом начале вам нужно построить ряд предположений, как люди будут чего-то просить», – говорит Джеймс Гласс (James Glass), глава группы по разработке голосовых систем в MIT. «Затем вы собираете данные и отлаживаете свои модели».
Подобный подход к машинному обучению весьма продуктивен, объясняет Гласс, но чтобы он заработал, требуется гораздо больше данных, чем могут овладеть исследователи университета. Учитывая рост использования Alexa, у Amazon теперь есть доступ к обширному количеству примеров голосового взаимодействия между компьютером и человеком, что позволяет ей отладить свою технологию. У Google уже давно есть такая возможность благодаря запросам на основе текста. Внешние данные тоже помогают: например, обширная база данных текстов песен, загруженная в Alexa в 2016 году, гарантирует, что пользователей, запрашивающих песню со словами «drove my Chevy to the levee», перенаправят к песне Дона МакЛина «American Pie».
Один из последних проектов группы «Прасада» хорошо подчеркивает гибкость этого подхода. Он включает расшифровку моментов, когда пользователи отменяют свои первоначальные запросы. Сигнальные фразы могут сильно варьироваться. Некоторые люди говорят: «Нет, нет, нет»; другие предпочитают: «Отмени это», а третьи вообще произносят что-то типа: «Погоди, на самом деле, вот что я хочу». Alexa не нужно декодировать каждое выражение. Большое количество образцов и частичное наблюдение за машинным обучением позволяют определить ряд вероятных указателей на отрицание в речи, и затем собрать новый целостный запрос после смены курса.
Вдобавок к тому, что Alexa стала лучше слушать, эксперты Amazon по ИИ используют бесчисленное количество данных, чтобы научить ее лучше говорить; они отлаживают частоту машинного синтетического женского голоса, чтобы повысить устойчивое использование речи. Традиционные попытки синтеза речи основываются на слиянии многих обрывков записанного человеческого голоса. Хотя эта техника может произвести довольно естественное звучание, она не может выдавать шепот, иронию или другие модуляции голоса, которые присущи людям. Чтобы улучшить познания Alexа во всем, начиная со вспыльчивого диалога до спокойного речитатива, специалисты по алгоритмам машинного обучения Amazon могут использовать другой подход, тренируя ее на взволнованных, обеспокоенных или мудрых и проникновенных голосах профессиональных рассказчиков. Компании очень повезло, что ей принадлежит издательство аудиокниг Audible.
Так много слов
Среди самых ревностных пользователей голосового ИИ люди, которые не могут нормально печатать на телефоне или планшете. Гавин Керр (Gavin Kerr), главный исполнительный директор компании Inglis в Филадельфии, предоставляющей товары и услуги для людей с инвалидностями, установил устройства Amazon Echo и Dot в домах восьми человек. В последствии, когда будет завершено тестирование устройств, он надеется сделать это еще в 300 с лишним домах. «Это невероятное подспорье для жителей», – сообщил Керр. – «Им так гораздо комфортней. Это позволяет им быть независимыми».
Керр работает с сотнями людей, страдающих от рассеянного склероза, прикованных к кровати и имеющих другие заболевания. Для тех, кто не может встать с кровати или инвалидной коляски, обогреватель может стать источником постоянных мучений. «Их тела с трудом регулируют температуру», – объясняет Керр. – «Поэтому в комнате при 32 градусов Цельсия может быть сначала жарко, а через час уже холодно». С учетом ограниченной подвижности у таких людей нет легких способов достичь комфорта, особенно если отсутствует круглосуточная опека.
Если слегка подправить программу Alexa, она сможет послужить даже тем, у кого ограничена способность говорить. Керр рассказал про одного мужчину старше 30 лет, который захотел уйти из лечебницы для хронически больных и опять вернуться в обычное общество. «Он сказал нам: «Я никогда не смогу использовать команды Alexa», – вспоминает Керр. – «Поэтому мы спросили его: «Что вы можете говорить?» Затем мы переработали программу, чтобы Alexa работала на его условиях. Теперь он говорить «Мама», когда хочет включить свет на кухне, и «Джон», когда хочет включить свет в туалете».
Хотя Inglis предоставляет своим пользователям четыре часа подготовки, они все равно сначала двигаются на ощупь. Когда вы вытаскиваете колонку Echo из коробки, вам предоставляется набор особо распространенных функций, например, проигрывание музыки, установка будильника, или обновление списка покупок. Организованные пользователи могут вызывать контрольную панель Alexa на смартфоне или компьютере, чтобы отладить настройки или получить руководство по тому, какие фишки позволяют приложению работать наилучшим образом.
В своем популярном блоге менеджер по продукции Microsoft, Даррен Остин (Darren Austin), написал, что широкий успех Alexa кроется в ее способности облегчать стрессы занятой жизни. «Простая просьба, – пишет Остин. – позволяет Alexa облегчить ваши негативные эмоции неуверенности и страха что-то забыть». Пользователи привыкают все свои ежеминутные проблемы и желания изливать Alexa, сказал он: это компаньон, который всегда готов выслушать и помочь.
Каждую неделю, а иногда и чаще, генеральный менеджер Alexa, Роб Пулкани (Rob Pulciani) сканирует общие данные по самым распространенным выражениям пользователей Alexa и Dot. Обычно первыми пунктами списка стоят запросы о музыке, новостях, погоде, пробках и играх. Однако за прошедшую весну появился новый лидер – самой ходовой фразой стала: «Alexa, помоги мне расслабиться».
Когда пользователи произносят такую просьбу, система перенаправляет их на коллекцию успокаивающих звуков: щебетание птиц, шелест волн на берегу, перестук колес ночного поезда. Подобные спокойные звуковые петли могут играть часами по желанию пользователя. Пулкани счел эти приложения лишь небольшой странностью, когда они впервые появились на платформе Alexa в 2015 году, однако они быстро выросли в популярности. Уставшие от стресса взрослые люди используют эти звуки, чтобы заснуть. Родители используют их в качестве колыбельной для плачущих младенцев. За несколько недель после этого открытия, Пулкани и его коллеги отладили внутреннюю архитектуру Alexa, чтобы новые покупатели колонок Echo могли быстро обнаружить успокаивающие звуки, если будут запрашивать новые опции.
Поддержка диалога
По данным анализа, у платформ ИИ от Google, Apple, Microsoft, и Amazon разные сильные стороны. Google Assistant – лучший для широкого круга поисковых команд. Siri у компании Apple и Cortana у Microsoft обладают другими талантами. Alexa особенно хорошо справляется с командами по шопингу.
Окончательным триумфом для голосовых систем ИИ будет реалистичный, долгий диалог с пользователями. Подобное достижение потребует огромного скачка в способности машин распознавать намерения говорящих, даже когда нет явно выраженной просьбы. Люди могут понять, что друг, который говорит: «Я уже месяц не бывал в спортзале», вероятно, хочет поговорить о стрессе или самооценке. Для программ ИИ это сложно.
Год назад в целях укрепления связей со следующим поколением ИИ и исследователями обработки речи, компания Amazon пригласила студентов–инженеров в дюжину университетов по всему миру для создания голосовых ботов, которые могут поддержать 20–минутный диалог. Кампус, который сможет достичь наибольшего прогресса к ноябрю 2017 года, получит приз в 500 000 долларов. Я провел опрос полдюжины таких ботов как-то в выходные, переходя каждый раз от простых вопросов к сложным открытым заявлениям, которые могли повлечь за собой всевозможные ответы. Мы неплохо начали, когда один бот спросил меня: «Ты смотрел что-нибудь из последних фильмов?» «Да», – ответил я, – «Мы смотрели Скрытые фигуры». Вместо того, чтобы продублировать газетные отзывы об этом фильме про ранние года NASA, бот сказал: «Я думаю, что фильм Скрытые фигуры очень плохо показал все их математические вычисления». Я с этим не очень согласен, но для программы ИИ это было вполне логичное заявление. Потом наш диалог застопорился, однако у нас был краткий, прекрасный момент общения.
Машины, которые действительно понимают язык человека, будут невероятно полезны. Однако мы знаем, как их делать.
К сожалению, ни один другой бот даже близко не смог этого достичь. Самый запутавшийся сказал: «Тебе нравится звонить по телефону–автомату?», когда я думал, что мы говорим на тему интернет-сайтов. Я немного грубо заявил об ограничениях этого бота, а он спросил: «Ты умеешь коллективные сделки?»
Когда я через несколько дней спросил, что Прасад думает о чат–ботах, он сказал, что нисколько не переживает из-за их неудач. «Это весьма важная область», – сказал он. – «Именно здесь Alexa может считаться очень умной. Однако разговор гораздо сложнее игры в Го или шахматы. В этих играх, несмотря на огромное количество возможных ходов, ты, по крайней мере, знаешь, к чему стремишься. А в диалоге ты даже не знаешь, чего пытается достичь другой человек». Когда Alexa научится это выяснять, тогда мы действительно начнем говорить.
Источник: Technology Review
Автор: George Anders