Mobiset.ru - всё о сотовых телефонах

Читайте полную версию материала: http://mobiset.ru/articles/text/?id=3178


Поговорите с телефономБиблиотека: Технологии, стандарты

Поговорите с телефоном

На заре широкого распространения мобильных телефонов голосовой набор номера и голосовое управление казались нам чем-то фантастическим. Сегодня к ним все уже привыкли, однако в наши дни мобильные голосовые технологии умеют очень многое.

Например, существуют разработки, которые позволяют идентифицировать человека по голосу. Есть системы, позволяющие диктовать телефону тексты, которые он переводит в символьные сообщения; телефоны умеют решать и обратную задачу – читать тексты вслух.

Сегодня мы поговорим о голосовых технологиях и о применении их в мобильных телефонах и в мобильной связи.

Речевые технологии и мобильная связь

Впервые технологиями распознавания речи стали оснащать мобильники, выпущенные во второй половине 1990-х годов. Например, Samsung SCH-2000, один из первых в мире телефонов, оснащённый голосовыми технологиями. Этот телефон был предназначен для CDMA-сетей. Позже подобные функции встраивали в телефоны высокого и, отчасти, среднего ценового диапазона. Теперь у производителей есть возможность оснащать такими функциями практически все аппараты, которые лишь немногим лучше самых дешёвых моделей начального уровня.


Samsung SCH-2000


В итоге получилось так, что пользоваться голосовыми возможностями (по меньшей мере – голосовым набором и управлением) могут многие владельцы телефонов, однако эти возможности не стали популярными – видимо, всё дело в консерватизме, который свойственен многим. Но сегодня голосовые технологии, потенциально доступные владельцам сотовых – это не только голосовой набор и управление. Эти новые возможности могут вызвать интерес у многих. Предлагаю поговорить об этих технологиях подробнее.

Применение речевых технологий

Голосовой набор и беспроводные гарнитуры

Начнём с наиболее старого и распространённого варианта применения речевых технологий, а именно – с голосового управления телефонов и голосового набора. Как правило, реализация этих функций выглядит так. В случае с голосовым набором, абонентам, номера которых вы хотите набирать, предварительно нужно сопоставить голосовые метки (то есть – обучить систему вашему произношению имени абонента). После обучения системы для набора номера достаточно нажать на телефоне особую кнопку (или выбрать пункт меню) и назвать записанное имя. Точно так же обычно работают системы голосового управления.

Особенно удобен голосовой набор при использовании беспроводных Bluetooth-гарнитур. Как правило, голосовые метки нужно записывать на самом телефоне, а вот называть их можно уже не только в телефонный микрофон, но и в микрофон гарнитуры, даже не прикасаясь к самому телефону. Телефон нужно доставать лишь тогда, когда нужны какие-то его функции, отличные от совершения и приёма звонков. Как правило, беспроводные гарнитуры достаточно удобны – большинство из них перестаёшь замечать уже после десяти-пятнадцати минут ношения. Стоимость этих устройств (в среднем, порядка $30-50) нельзя назвать слишком высокой, а Bluetooth-адаптером оснащают сегодня даже недорогие модели телефонов (порядка $100-150). Гарнитура с поддержкой голосовых функций удобна там, где человеку постоянно нужна мобильная связь, и, в то же время, он занят чем-то ещё. Например, это может быть водитель, офисный работник, курьер и так далее.

Ещё одно интересное направление, в котором развиваются голосовые технологии – это преобразование человеческой речи в текст и синтез речи.

Распознавание и синтез речи

Современным телефонам по силам более серьёзные операции, чем голосовой набор. Например, одна из перспективных функций – это преобразование человеческой речи в текст. Телефон, поддерживающий распознавание речи, был представлен компанией Samsung ещё в 2005 году, но до сих пор нельзя сказать, что распознавание голоса стало привычной функцией. Это был аппарат Samsung P207, который мог написать SMS с голоса владельца телефона, а технология, которая применяется в нём, называется VoiceMode. Это – разработка компании VoiceSignal Technologies. Система воспринимает речь пользователя и умеет переводить её в тексты. Такой способ набора сообщений кажется весьма перспективным, и, хотя о поддержке системой русского языка пока не сообщалось, думается, если VoiceMode окажется популярной, её русификация не заставит себя ждать.


Samsung SGH-P207


У VoiceSignal Technologies есть и другие, не менее интересные разработки, некоторые из которых находят довольно широкое применение в современных аппаратах.

Например, это пакет VSuite, который включает в себя функции голосового набора и голосового управления аппаратом, причём, система не нуждается в предварительном обучении. То есть, например, вы можете надиктовать ей произвольный номер и она наберёт его.

Ещё одна разработка компании – технология VSearch. Она позволяет производить поиск в мобильном Интернете, используя голосовые команды. Причём, в VSearch реализована технология, по которой голос пользователя обрабатывается не на мобильном телефоне, а на VSearch-сервере. В итоге качество обработки голоса (а главное – перевода его в текст) повышается. Такой подход неприменим для обычной работы с телефоном (каждый раз подключаться к Интернету для того, чтобы набрать номер, кажется слишком накладным), а вот передать серверу голос для обработки в процессе поиска (то есть тогда, когда пользователь по умолчанию подключён к Интернету) – это уже кажется нормальным.

По подобной схеме могут работать различные сервисы сотовых сетей с голосовым управлением. Сегодня наиболее распространены сервисы (например, различные справочные системы по услугам сотовых операторов), для взаимодействия с которыми используются нажатия различных клавиш телефона. В недалёком будущем вполне возможно внедрение полностью голосовых сервисов, где система будет воспринимать речь пользователей и голосом же отвечать им.

Ещё одна разработка компании, которая, впрочем, характерна и для других разработчиков голосового ПО – это технология VSpeak, которая предназначена для преобразования текста в речь. Например, с помощью VSpeak телефон может прочитать вслух SMS-сообщение, WEB-страничку и так далее.

ПО от VoiceSignal Technologies достаточно сильно распространено. Этим ПО оснащены многие модели телефонов от Motorola (например, Motorola KRZR K1M), Samsung (например, Samsung SGH-D807), некоторые аппараты от Nokia (например, Nokia 6682), RIM Blackberry 8800, Palm Treo 700 и другие аппараты.


Motorola KRZR K1M



Samsung SGH-D807



Nokia 6682



Palm Treo 700


Но и использование речевых технологий для синтеза и распознавания речи – это ещё далеко не всё.

Технологии безопасности

Речь каждого из нас имеет массу особенностей, в результате найди двух человек, обладающих одинаковым голосом, довольно сложно. Поэтому речь, в частности, ключевое слово, произнесённое человеком, можно использовать как пароль – на этой идее основаны голосовые системы защиты информации.

Так же может быть организована биометрическая система голосовой идентификации пользователей. В такой системе голос человека будет служить чем-то вроде отпечатка пальца для идентификации его личности. В некоторых моделях мобильных телефонов можно встретить сканеры отпечатков пальцев. Несложно предположить, что с развитием голосовой идентификации телефоны обзаведутся голосовыми «замками», которые может открыть лишь пользователь.

Как работают речевые технологии?

В основе речевых технологий могут лежать самые разные алгоритмы. Например, наиболее распространена так называемые скрытые модели Маркова (hidden Markov Model, HMM). HMM – это статистическая модель, которая может работать с так называемыми процессами Маркова – эти процессы (человеческая речь в том числе) имеют параметры, которые можно наблюдать, и скрытые параметры, которые можно определить на основе наблюдаемых параметров. После этого полученные параметры анализируются, обрабатываются, в итоге из человеческой речи получается текст.

В последнее время наряду с HMM серьёзное распространение получили нейросетевые алгоритмы. Нейронные сети ещё называют системами искусственного интеллекта. Они отлично показывают себя при распознавании образов и других подобных задачах.

Простейшая нейронная сеть состоит из нескольких входов, на которые подаются входные данные, слоя нейронов, которые обрабатывают данные, и одного или нескольких выходов, на которые поступают результаты обработки сетью входных значений. Один из этапов работы нейронной сети – обучение – заключается в том, что на вход сети подаётся какой-то сигнал, после чего выходное значение сравнивается с тем, что должно быть на выходе на самом деле, и в зависимости от отклонения реального выходного значения от требуемого, производится настройка сети. Настроенная сеть способна распознавать даже такие сигналы, которые не полностью соответствуют эталонным, то есть тем, которые использовались при обучении. Это открывает огромные возможности по использованию нейросетей при распознавании реальных сигналов – ведь человек может говорить с разной интонацией, громкостью, на речь могут накладываться помехи и так далее, но правильно настроенная сеть способна правильно распознать голос даже среди помех.

Ещё один популярный метод – так называемый метод динамичного искажения (Dynamic Time Warping). Этот метод позволяет приводить к сравнимому виду образцы речи, имеющие различные характеристики.

Практика показывает, что наилучшие результаты имеют комбинированные системы, в которых сочетаются сильные стороны различных методов распознавания речи.

Выводы

Сегодня практически каждый мало-мальски серьёзный сотовый телефон оснащают голосовыми функциями. Можно предположить, что в недалёком будущем популярность голосовых возможностей среди пользователей возрастёт. Всё же, разговаривать с телефоном – это очень удобно, главное, чтобы аппаратик точно понимал, что же вы от него хотите. А успехи в разработке мобильных голосовых приложений позволяют говорить о том, что до полного взаимопонимания телефона и человека осталось ждать уже совсем недолго.


© Заика Александр, Mobiset.ru
Дата публикации статьи - 20 апреля 2009 г.

         

Наша группа ВКонтакте - присоединяйся!

Оперативная и эксклюзивная информация - в 140 знаках! Подписывайтесь на наш канал:




comments powered by Disqus



Читайте полную версию материала: http://mobiset.ru/articles/text/?id=3178





Rambler's Top100 Рейтинг@Mail.ru