Журнал «Компьютерра» №36 от 04 октября 2005 года

Текст добавлен: 10 сентября 2016, 01:27

Текст книги "Журнал «Компьютерра» №36 от 04 октября 2005 года"

Автор книги: Компьютерра Журнал

Жанр:

Прочая компьютерная литература

сообщить о нарушении

Текущая страница: 3 (всего у книги 11 страниц) [доступный отрывок для чтения: 5 страниц]

Назад к карточке книги

И теперь наш мирный атом…

Не успели пользователи привыкнуть к гигабайтам оперативной памяти в стандартных конфигурациях ноутбуков, как фирма atomChip

[Закрыть] заявила, что уже в январе следующего года на выставке Consumer Electronics Show представит ноутбук с тремя терабайтами (!) памяти, основанной на некой инновационной магнитооптической технологии.

Как говорят в AtomChip, речь идет о быстрой энергонезависимой памяти, заменяющей и оперативку (1 Тбайт), и жесткий диск (2 Тбайт). Ну а управляться все это хозяйство будет не менее впечатляющим процессором собственного сочинения с тактовой частотой 6,8 ГГц и 256 Мбайт кэш-памяти. На сайте компании уже можно обнаружить изображения якобы работающих модулей памяти в формате SoDIMM и 'твердотельных винчестеров' с ATA-коннектором, заявленная пропускная способность – до 8 Гбайт/с.

Изучив указанные на сайте ссылки и патенты, можно выяснить, что компания основана нашим бывшим соотечественником Шимоном Гендлином (Shimon Gendlin), который в начале девяностых эмигрировал в Израиль, а затем перебрался в Нью-Йорк. В России он занимался разработкой пьезомагнитных ячеек памяти для военной промышленности (их главное достоинство – устойчивость к электромагнитным помехам).

Революционная технология базируется на некоем запатентованном эффекте, носящем имя его первооткрывателя – 'эффект Гендлина'. При этом суть технологии на сайте AtomChip и в американской патентной заявке почему-то описывается по-разному.

Согласно первому источнику, разработан композитный материал, обладающий одновременно и ферромагнитными, и квантовооптическими свойствами, который может использоваться как среда для хранения дискретной информации с очень высокой плотностью. Запись делается специальным (на основе преобразования Фурье) образом промодулированным лазерным лучом в присутствии внешнего магнитного поля. Данные хранятся в виде голограммы – суммы угловых поляризационных коэффициентов, где каждый коэффициент представляет собой 64-разрядное слово. На площади в один квадратный нанометр удалось уместить 64 слова по 64 бита в каждом, или 512 байт. Чтение выполняется аналогичным образом, только лазерный луч модулируется уже самой ячейкой памяти (и магнитное поле не требуется). И далее достаточно произвести обратное преобразование Фурье, чтобы разобрать только что считанные данные на отдельные байты.

Во втором источнике – патенте США – описан некий ферромагнитный материал, заключенный в микропустоты пористого кремния. При локальном изменении электромагнитного поля в соответствующем участке изменяется намагниченность ферромагнетика, сопровождающаяся микродеформациями кремния и излучением им квантов света. Несмотря на то что патент был выдан еще в 1998 году, на него почти никто не ссылается, научные работы Гендлина тоже почему-то обойдены вниманием коллег.

После ознакомления со всей этой информацией желание выбросить на помойку свой ноутбук с жалким полугигабайтом оперативной памяти как-то улетучивается. Похоже, мы имеем дело с заявлениями очередного 'турецко-подданного', продающего наивным инвесторам технологию завтрашнего дня уже сегодня. Помимо тумана в описании технологии настораживают еще несколько фактов. Во-первых, на сайте[Он, кстати говоря, поражает скупостью оформления и низким качеством иллюстраций. Удивительно, но e-mail Гендлина располагается не на собственном домене, а на сайте коммерческого телевизионного кабельного оператора] приведен скриншот окна свойств профессиональной версии Windows XP, на котором можно 'убедиться', что в ноутбуке действительно установлен терабайт оперативной памяти. Однако если вспомнить, что объем оперативной памяти для 32-разрядной ОС ограничен четырьмя гигабайтами, то одного этого уже достаточно, чтобы червячок сомнений зашевелился (упоминается, правда, что использована доработанная версия Windows). И еще один факт вызывает подозрения: чтобы создать даже рабочий прототип подобного устройства, попутно регистрируются десятки, если не сотни патентов на различные найденные технологические решения (а у Гендлина за душой меньше десятка патентов в разных странах). Да и тишина в стане крупных производителей, которые даже не заикаются о подобных технологиях, навевает нехорошие мысли – было бы что-то стоящее, давно бы, наверное, перекупили.

Так что, оставаясь даже на самых оптимистичных позициях, можно лишь предположить, что на самом деле запатентована некая интересная идея, под которую столь скандальным способом собираются деньги. Но это в лучшем случае. Подождем CES-2006.

Удивительные успехи

Конспирологи хорошо знают (а остальные догадываются), что помимо технологий общераспространенных, продаваемых миру, существуют технологии тайные. Те, которые дают настоящую силу и вечную молодость компаниям. О которых известно лишь узкому кругу посвященных. У компании Sun Microsystems – это технология катапультирования свернутых в кулек футболок. Я серьезно. И Джеймс Гослинг, вице-президент Sun Microsystems, тоже серьезно – можно почитать его блог.

Мне повезло убедиться в этом лично. Вот напротив, через стол, сидит Джеймс Гослинг. Великий Гослинг, создатель языка Java. Он устал после трансатлантического перелета. На его биологических часах – глубокая калифорнийская ночь. Он интересно, но без энтузиазма отвечает на скучные вопросы о стратегии разработки программного обеспечения. Но когда спрашиваешь о катапультах для футболок – в нем словно лампочка зажигается. Усталости как не бывало: «Это ужасно серьезно. Создавая реальные инженерные конструкции, пусть и для таких смешных целей, мы учимся лучше проектировать программное обеспечение».

Не только программным обеспечением и футболочными катапультами сильна Sun Microsystems, но и Unix-серверами. Причем, по версии IDC, она сильнее остальных конкурентов во втором квартале 2005 года: у Sun 33% рынка, у HP 29%, у IBM 28%. Но не по версии Gartner, которая намеряла за тот же квартал у IBM 31% рынка, у HP 30%, у Sun 29,5%. Опираясь на надежные данные, Sun опубликовала пресс-релиз: «Корпорация Sun Microsystems снова стала мировым лидером продаж Unix-серверов – как по доходам, так и по количеству проданных систем», а IBM – «IBM стала лидером по доходам от продаж Unix-серверов, продемонстрировав рост почти на семь пунктов по сравнению с аналогичным периодом прошлого года». Вот так два рыночных аналитика не только подарили двум компаниям чувство лидерства, но и проиллюстрировали старинную поговорку насчет статистики. Жаль только, что в мире не существует еще одной столь же авторитетной исследовательской компании, чтобы подтвердить лидерство HP.

Помимо Unix-серверов, упомянутая троица активно продает серверы так называемой стандартной архитектуры. Еще пару лет назад ее обозначали просто IA (то есть Intel Architecture), но потом, с ростом популярности AMD Opteron, были вынуждены подыскать нейтральное название. В сентябре архитектуре AMD сдался еще один крупный производитель серверов – Fujitsu Siemens Computers. Год назад технический директор компании Йозеф Регер на вопрос, почему они не производят серверов на AMD, отвечал: «Мы начнем это делать тогда, когда увидим в этой платформе преимущества, недостижимые на платформе Intel». Интересно, что именно они увидели? Теперь из крупных производителей серверов политики «Intel-only» придерживается только Dell. Надолго ли?

На противоположном серверам смысловом полюсе, в диком мире гаджетов, появился новый всесильный пигмей. Apple представила iPod nano, который вдвое тоньше iPod mini. Нам трудно почувствовать, какое это великое событие. Дело в том, что в подавляющем большинстве случаев у американца с наушниками провода от них тянутся именно к плейеру iPod. С прошлого года рыночная доля iPod в мире возросла с 31% до 65%. Где кроме США есть еще Европа, Япония и Юго-Восточная Азия с Китаем. Сегодня iPod приносит Apple больше денег, чем любой другой продукт, в том числе Macintosh. О причинах всемирной любви к плейеру, который, по большому счету, ничем не лучше остальных, уже можно писать диссертацию. Дело точно не в цене (iPod не дешевле даже плейеров известных марок, не говоря уж о noname). И не в технических характеристиках (почитайте тесты – у всех все одинаково). Может, причина в музыкальном магазине Apple iTunes, через который сегодня в США продается 82% легальной музыки? Или в моде, которую кроме Apple не удалось создать больше никому? Кстати, если в России копировальные аппараты называют ксероксами, то MP3-плейеры в Америке зовутся айподами.

А IP-телефоны, вероятно, скоро будут звать скайпами. На излете своего самостоятельного существования Skype выпустила новую версию интернет-телефона – еще легче, проще, разборчивее… Скоро, однако, компания перейдет под крыло eBay, не побоявшейся расстаться с 2,6 млрд. долларов.

С успехом Skype ничего не могла поделать даже Microsoft с ее монополией на настольную операционную систему и, в общем-то, неплохой программой NetMeeting. Не говоря уж о Yahoo!, America Online и даже Google. Которая, кажется, или побеждает, или не играет. В том числе в кадровой политике. В марте Google трудоустроила Марка Луковски, одного из создателей операционной системы Windows NT. В июне – Луиса Монье, создателя поисковой системы AltaVista, в июле – Кай-Фу Ли из Microsoft China. В сентябре, чтобы не сбавлять темп, – создателя протокола TCP/IP и отца Интернета Винтона Серфа. Не обладающая подобными рекрутинговыми талантами Microsoft подала на Google в суд, не желая мириться с потерей драгоценного Кай-Фу Ли. Ведь он, как обычно бывает в таких случаях, подписывал обязательство не уходить к конкурентам. Теперь две компании спорят – Microsoft считает, что Google ей конкурент, Google утверждает, что нет.

Впрочем, все эти дебаты имеют довольно слабое отношение к технологиям. Равно как и прогнозы Рэя Курцвейла – создателя первого синтезатора речи и первого планшетного сканера с технологией CCD. Сегодня, однако, Курцвейл более известен как технософ и футуролог – в недавно изданной им книжке «Сингулярность близка: когда человек превзойдет биологию» он утверждает, что искусственный интеллект близок как никогда. И, слившись с интеллектом естественным, сделает-таки из человека сверхчеловека. Уже к 2030 году, по Курцвейлу, компьютер стоимостью в доллар будет столь же совершенен, как и человеческий мозг. А к 2045-му произойдет полная победа сингулярности. Что ж, зафиксируем эти предсказания. К какому году нам обещали переход на летающие автомобили?

СЕЛО ЩЕПЕТНЕВКА: Поведение собаки

В следующем воплощении я стану полярником тридцатых годов. Может быть, даже папанинцем. Или седовцем: подобно им, я больше всего на свете люблю получать письма. Работая на льдине, на дрейфующем пароходе или в кабинете с окном, зашторенным золотистой парчой, труднее всего переносить не холод, не тяжкий труд, а заброшенность, и потому ждешь связи с Большой Землей куда сильнее, чем гонг к обеду. Весть от тех, кому ты небезразличен, столь же необходима зимующим, сколь и витамины, баня или концерт по заявкам.

В отличие от полярников я, конечно, в любой момент волен покинуть затвор – пойти в гости, напиться, наесться и наболтаться всласть, но после гостевания я долго прихожу в себя, мучительно восстанавливаю состояние погруженности, состояние, когда из-под клавиатуры рождаются живые люди или чудовища, непослушные, малопредсказуемые, зато интересные. Потому томлюсь взаперти. Тем желаннее получить хорошее, умное и доброе письмо: общение на бумаге дается мне гораздо легче устного. Есть время подумать, а главное – помолчать.

В мой почтовый ящик, как и в любой другой, чего только не бросают. Фильтры стараются корреспонденцию рассортировать, бросить чепуху в особую корзинку, но с живым секретарем сравниться пока не могут.

На днях я собрался с духом и просмотрел несколько сот писем из папки «spam». Уведомления о крупных лотерейных призах, просьбы разместить в стране миллиарды Мобуты Сесе Секо, Саддама Хусейна и Германа Геринга, предложения купить дачку на Лосином острове или в Майами… Но не было на сей раз, как, впрочем, и на протяжении десятилетия пользования электронной почтой, писем вольнодумных, бунтарских и подстрекательских.

Странно. Очень странно.

Русский человек, стоит ему очутиться вдали от спасительного надзора власти, нет-нет да и начнет обличать, возмущать и звать на баррикады. Князь Курбский, князь Долгорукий, Герцен, Бурцев, Ульянов, Бронштейн и иже с ними, упиваясь действительной или мнимой безнаказанностью, строчили памфлеты на отцов-благодетелей, избывая таким способом мучительную боль за бесцельно прожитые годы. Затем верные люди несли злокачественные письма в Россию, порой расплачиваясь головой, в лучшем случае – пронзенной посохом стопой. Десятки курьеров пересекали границы с печатной продукцией, упакованной в фальшивые бюсты, чемоданы с двойным дном, выдолбленные табуретные ножки… В Отечестве же ушлые гимназисты, студенты, курсистки и сочувствующая интеллигенция гуртом расклеивали гнусную клевету на заборах, продавали сознательным рабочим по двугривенному за номерочек (средство пополнить партийную кассу) или разбрасывали с галерки Большого Театра во время представления «Жизни за царя».

Жандармы сбивались с ног, пытаясь пресечь и вразумить, но больно хлопотное выходило дело. С появлением радио хлопоты возросли многажды, а толку-то, глуши не глуши – все едино. «Есть обычай на Руси ночью слушать Би-Би-Си». Британская радиокорпорация приплетена для рифмы, слушали всё. Но не все: требовались определенные усилия – настроить приемник на нужную частоту, настроить сознание на очернительский лад, потом ворочаться, думать, негодовать…

Сегодня в почтовый ящик послания летят мегабайтами, но никакого подрыва устоев в них не содержится. Оно и глупо, наверное, подрывать, когда кругом довольство и процветание, да человеческая натура злонравна, ищет затей во вред себе и окружающим. Но почему-то современные карбонарии пренебрегают спамом как инструментом пропаганды.

Вспоминается диалог из рассказа «Серебряный»:

– Обратите внимание на странное поведение собаки в ночь преступления, Ватсон.

– Собаки? Но она никак себя не вела!

– Это-то и странно, – сказал Холмс.

Подражая Великому Сыщику, я купил пачку «Беломора» – ну нет у меня трубки! – и закурил, надеясь на дедуктивный метод плюс систему Станиславского

Дело оказалось на три папиросы.

Версия первая: политическая оппозиция не додумалась до спам-пропаганды. Или брезгает ею. Не верю! Уж если я додумался… А брезгливых в политике не бывает по определению. Денег нет? Какие там деньги, снял в какой-нибудь Патагонии или Сьерра-Леоне квартирку, посадил идейного спаммейкера, выделил толику долларов и все. Да она, оппозиция, на водку тратит больше! Следовательно, не в оппозиции дело.

Версия вторая: прокламации рассылают всем, кроме меня и моих хороших знакомых. Опять не верю! Откуда карбонариям знать, что я больше всех люблю господина Пэжэ? А хоть и знают, все равно должны пытаться распропагандировать. Или хоть позлить.

Версия третья: и додумались, и деньги есть, и специалисты-спамеры высокого полета задействованы, и рассылают мегабайтами по всей зоне ru, но охранительные органы, заботясь о чистоте нравов и покое обывателей, научились отделять зерна от плевел, и научились так хорошо, что никакая интернационалка просочиться в мой ящик не может. Сомнительно? Но Великий Сыщик учит: отбросьте невозможное, и тогда оставшееся, сколь бы маловероятным оно не казалось, и будет ответом.

ТЕМА НОМЕРА: О пользе разговоров

Честно говоря, я нахожусь в некотором затруднении, потому что тема, которая несколько месяцев назад виделась мне самой простой из всей серии про интерфейсы, неожиданно оказалась самой сложной. И, в общем-то, получилась совсем о другом.

Дело в том, что третью тему мы планировали посвятить диалоговым (conversational) или даже мультимодальным (поскольку использование новых подходов вовсе не исключает полезность старых) интерфейсам. Переход от GUI к свободному общению с компьютером представляется вполне естественным: во-первых, большинству из нас проще высказать свою мысль вслух, чем записать ее. Во-вторых, современные компьютерные интерфейсы (GUI и командная строка) задают пользователю жесткие ограничения, которых можно было бы избежать, научив компьютер понимать нас «с полуслова».

Так, к примеру, можно было бы, валяясь на диване, приказать компьютеру запустить MP3-проигрыватель с нужной песней. Или попросить найти в сетевой библиотеке интересные книжки – «выбери, мол, на мой вкус» (на основании анализа загруженных ранее книг). Или, чуть продрав глаза, уточнить у Outlook список встреч на сегодня.

Мы, конечно, понимали, что многие из этих задач решить непросто, но в последние лет пять о диалоговых интерфейсах писали так уверенно, что, казалось, будто они появятся не сегодня-завтра. Смущало лишь то, что никаких принципиальных прорывов в базовых технологиях, которые необходимы для построения такого рода интерфейсов (синтез и распознавание речи, понимание компьютером естественного языка, умение поддерживать диалог) за те пять лет не произошло. Но если все действительно так, зачем тратить силы и время на разработку интерфейсов, которые невозможно воплотить во всей полноте? Разумно ли обсуждать интерьер, если еще и фундамент не достроен?

Как выяснилось, многие из разработчиков не склонны отвлекаться на такие мелочи, как отсутствие или отставание ключевых технологий. Может, они и правы. В конце концов, в таком деле, как проектирование интерфейсов, есть масса тонких моментов, никоим образом не привязанных к конкретной реализации. В общем, проектировщикам диалоговых интерфейсов есть чем заняться. Но нас больше интересует, в каком состоянии находятся сегодня технологии, без которых построить диалоговый интерфейс не удастся.

Или – когда компьютер, наконец, научится слушать, говорить и понимать.

Ничего никому не скажу?

Первым нагнулся к уху головы сам дон Антоньо; он спросил ее тихо,

но так, однако же, что все его услышали:

– Заклинаю тебя, голова, волшебною силою, в тебе заключенною:

скажи мне, какие у меня сейчас мысли?

И голова, не разжимая губ, ясно и отчетливо,

так, что все ее расслышали, ответила ему:

– Мыслей я не читаю.

При этих словах все обмерли, особливо когда удостоверились,

что во всей комнате, а равно и возле самого столика с волшебною головою,

нет живой души, которая могла бы за нее ответить.

Мигель де Сервантес Сааведра, «Хитроумный идальго Дон Кихот Ламанчский»

Прежде чем описывать состояние технологий, важных для построения диалоговых интерфейсов, отметим, что все интересующие нас направления разработок – «невезучие». На каждое из них в свое время возлагались большие надежды, которым не суждено было сбыться. У каждого есть своя собственная сверхзадача, которая до сих пор не решена (и неизвестно, будет ли решена в обозримом будущем). Тем не менее исследования в этих областях нельзя считать тупиковыми или бессмысленными. Они не только дали множество полезных побочных результатов. Ключевые технологии тоже вполне работоспособны и востребованы – просто не так широко, как предполагалось вначале.

Впрочем, синтез речи в нашей защите не нуждается. Это, пожалуй, самая состоявшаяся и распространенная из речевых технологий. Возможно, потому, что у нее самая долгая история.

Первые «говорящие машины» пытались делать еще в XII-XIII веках, однако в Европе тех времен подобная деятельность рассматривалась как еретическая, все опытные образцы безжалостно уничтожались, и ни одно достоверное описание подобной машины до наших дней не дожило. Тем не менее молва широко разнесла слухи об успешных экспериментах Альберта Великого и Роджера Бэкона, спровоцировав шутников всех мастей на создание фальшивых «говорящих голов». Чудесные устройства представляли собой хитроумные механизмы, «отвечающие» на вопросы слушателей (на самом деле, отвечал на вопросы человек, который был либо спрятан в самом устройстве, либо находился в соседней комнате, вещая с помощью сложной системы труб). С одной из таких конструкций и встретился герой знаменитого романа Сервантеса.

В конце XVIII века конструкторы научились делать настоящие «говорящие машины», механически имитируя человеческий голосовой аппарат. Правда, считать издаваемые ими звуки «речью» можно с натяжкой. Так, представленные в 1770 году Санкт-Петербургской Академии резонаторы Кратценштайна могли произнести лишь пять гласных звуков. В арсенале построенной спустя двадцать лет машины фон Кемпелена было уже двадцать согласных, что теоретически позволяло оператору «произносить» целые фразы. Но вот понимал ли их кто-то, кроме изобретателя, – вопрос. По чертежам это не определишь, но достаточно сказать, что даже электронный синтезатор Voder, показанный на Нью-Йоркской торговой выставке 1939 года, «говорил» крайне невнятно (звуковые примеры можно послушать в сети: www.cs.indiana.edu/rhythmsp/aSa/parta.html

[Закрыть].

Если оператор Voder’а должен был управлять устройством в реальном времени (что совсем не просто – на обучение операторов уходило несколько месяцев), то сегодняшние электронные системы синтеза речи в операторе не нуждаются, поскольку заняты чтением заранее подготовленных текстов. Их так и называют – системы TTS (text-to-speech).

В силу вышесказанного любая современная электронная система синтеза речи состоит из двух основных блоков. Первый отвечает за преобразование орфографического представления в фонетическое – ведь, как правило, слова пишутся не так, как слышатся, и больше того: зачастую прочтение того или иного слова регулируется не правилами языка, а сформировалось исторически (почти как в анекдоте про «вильку» и «тарельку», которые пишутся без мягкого знака и понять это невозможно, нужно запомнить). Кроме того, система осуществляет синтаксический (а иногда и семантический) анализ предложения для того, чтобы верно расставить интонационные акценты (просодическое оформление). В результате на выходе мы имеем подробнейшую инструкцию, как нужно читать предложение.

Описанное преобразование зависит в большей степени от языка и во всех системах реализуется примерно по одним и тем же принципам. А вот когда дело доходит непосредственно до синтеза речи, возможностей для маневра у разработчиков гораздо больше.

Как правило, современные системы синтеза не пытаются в духе ранних экспериментов воспроизвести работу голосового тракта человека. Выяснилось, что проще (и результат получается лучше) «собирать» речевые сообщения из предварительно записанных диктором фрагментов. Для некоторых применений нужен совсем небольшой (в несколько десятков слов) словарь, поэтому в качестве «кирпичиков» в таких системах используются отдельные слова и даже фразы (даже создание фонетического представления орфографического текста для таких систем необязательно – список фраз, которые они могут прочесть, невелик и зачастую достаточно однозначного сопоставления орфографического написания сохраненному в библиотеке сэмплу). Такие синтезаторы называются целостными. Системы, способные читать произвольные тексты, обычно являются компилятивными синтезаторами, то есть составляют из отдельных фрагментов нужные слова и собирают их в предложения.

Библиотека звуковых фрагментов составляется с помощью приглашенных дикторов, которые зачитывают специальным образом составленные тексты (главная задача при составлении таких текстов – охватить все возможные фонемы, которые встречаются в языке). Потом записи разбиваются на элементарные составляющие (иногда вручную, иногда автоматически – в этом случае необходим модуль распознавания речи), и каждому из фрагментов ставится в соответствие фонема.

Сложность реализации компилятивных синтезаторов заключается в том, что фонема – как любая абстракция – недостаточно полно описывает звуки, которые мы можем услышать в естественной речи. Одна и та же фонема может звучать немного по-разному, в зависимости от того, какие звуки ее предваряют и какие следуют за ней (коартикуляционный эффект), кроме того, необходимо учитывать интонационную составляющую (просодические эффекты).

Поэтому, строго говоря, записанные диктором сообщения обычно разбиваются не на фонемы, а на составляющие более низкого уровня (дифоны, аллофоны и т. д.), а помимо сопоставления отдельно взятого фрагмента фонеме в библиотеку записывается информация о сопутствующих коартикуляционных и просодических эффектах. Разработчиков интересует не только вхождение звука в ту или иную фонему, но и его громкость, длительность и высота, из-за чего количество помещенных в библиотеку «кирпичиков» намного превышает количество фонем (их в любом языке не больше нескольких десятков, а вхождений в хорошей библиотеке может быть несколько тысяч). Иногда, чтобы упростить разбиение и не раздувать библиотеку, реализацию просодических эффектов возлагают на DSP, но синтезированная таким способом речь звучит ненатурально, тогда как хорошие системы синтеза речи говорят «почти как люди».

В ранних системах синтеза нужные сэмплы выбирались с помощью предварительно описанных правил, но уже в 70-х гг. прошлого века повсеместно стали применяться более эффективные методы, позволяющие быстро отыскать нужный фрагмент. Но просто сложить вместе найденные сэмплы – мало. На месте склейки будут слышны явные артефакты, «бульканье». Поэтому перед тем, как выдать слушателю результат, система синтеза сглаживает переходы между различными фрагментами.

Если все сделано правильно, на выходе мы услышим слегка монотонную, но вполне внятную и интонационно размеченную речь. К сожалению, полностью избавиться от эффектов склейки удается не всегда, а машинные интонации – хотя формально придраться вроде бы и не к чему – отличаются от человеческих (наверное, слишком уж они правильные). Делают ли системы синтеза ошибки? Конечно, особенно на незнакомых словах (см. табл. 1). Но у людей довольно гибкая система восприятия, и в большинстве случаев мы способны сразу же догадаться, какое слово машина прочитала неправильно, так что подобные ошибки нельзя считать критичными.

Сверхзадачей систем синтеза речи является, конечно, речь, не отличимая на слух от человеческой. Возможно ли это в рамках используемых сегодня моделей? Справедливости ради, признаем, что единого мнения на этот счет нет, к тому же с каждым годом появляется все больше сомнений, что эта задача имеет какое-то практическое значение. Потребители хотят знать, когда они говорят с компьютером, а когда – с человеком. И легкий «нечеловеческий» акцент как безошибочный маркер их, по большому счету, вполне устраивает.

– Тихо – сказал Форд. – Послушай, это может быть важно.

– Ва… важно?

– Это вогонский капитан делает объявление с корабельного узла.

– Ты хочешь сказать, что так вогоны разговаривают?

– Слушай же!

– Но я не понимаю по-вогонски!

– Тебе и не надо. Просто засунь рыбку в ухо.

Дуглас Адамс, «Путеводитель вольного путешественника по галактике»

Ничего не слышу?

Он скажет: «До свидания!»

А слышится: «До здания!»

Он спросит: «Где галоши?»

А слышно: «Это лошадь?»

С. Михалков, «Сашина каша»

Казалось бы, если мы можем научить компьютер говорить, то с распознаванием речи никаких трудностей возникнуть не должно. В конце концов, все, что нам нужно, – произвести операции по синтезу речи в обратном порядке. Записать человеческую речь, автоматически разобрать ее на «кирпичики», свериться с базой сэмплов, подставить нужные фонемы, а потом собрать из фонем слова, расставив знаки препинания на основе анализа просодических эффектов. Делов-то.

Как бы не так! То есть в теории-то все верно, а вот на практике…

Когда дело доходит до обратного преобразования, выясняется, что человеческая речь – понятие, в общем-то, весьма растяжимое и наш мозг, оказывается, постоянно выполняет сложнейшую работу по распознаванию образов. Разработчикам систем распознавания речи пришлось столкнуться с тем, что люди в массе своей говорят неразборчиво, очень неразборчиво и не всегда в приемлемых шумовых условиях. Кроме того:

Язык (а разговорный язык – тем более) не является застывшим образованием. В большинстве языков имеется несколько диалектов, и даже в рамках одного диалекта существует несколько равноправных вариантов произношения одного и того же слова.

У каждого из нас есть свои речевые особенности, которые могут затруднить распознавание речи (отсюда, кстати, следует вывод, что не все системы распознавания речи одинаково полезны – конкретно для вас, например, больше может подойти система А, использующая языковую модель A’, а вашему соседу будет проще работать с системой Б, использующей языковую модель Б’).

В естественной речи, ммм, содержатся, эээ, звуки-паразиты, которые, как бы, совершенно, так сказать, необязательно, эээ, распознавать, но хорошо бы отфильтровывать. И чем раньше они будут отброшены – тем лучше.

В реальной жизни редко встречаются идеальные условия для записи звука: как правило, запись речи сопровождается шумами разной природы, которые мешают выделить голосовой сигнал для дальнейшей обработки.

Добавьте сюда вездесущие эффекты коартикуляции (а их правильная обработка в задаче распознавания речи куда критичнее, чем в задаче синтеза; если там мы рискуем лишь тем, что слово будет звучать ненатурально, то здесь в результате неправильной обработки коартикуляции система просто не найдет нужное слово в словаре), и вы получите неполный, но довольно впечатляющий перечень трудностей, стоящих перед разработчиками ASR-систем.

Существующие технологии не позволяют решить эти проблемы в комплексе. Поэтому в зависимости от поставленной задачи техники распознавания речи меняются. Общего у них тоже много (например, почти все современные системы распознавания речи используют для поиска нужных фонем скрытые модели Маркова), но система голосового набора, встроенная в мобильный телефон, отличается от системы распознавания текста общего назначения как мышь от слона.

Долгое время системы распознавания требовали, чтобы пользователь выговаривал каждое слово отдельно, однако в самом конце прошлого века появились пакеты, умеющие обрабатывать так называемую слитную речь. Правда, термин «слитная» не стоит воспринимать буквально. Если вы понесетесь вперед на скорости 300 слов в минуту, ничего хорошего из этого не выйдет. Да, делать «паузы в словах» теперь уже не обязательно, но системе распознавания по-прежнему требуется время на обработку услышанного, и гораздо эффективнее выдавать ей законченные предложения (если они короткие) или более-менее самостоятельные фрагменты предложений. Во многих современных пакетах распознавания есть синтаксические и семантические модули, и подобная разбивка облегчит распознавание, одновременно улучшив качество. Иными словами, «слитная речь» в данном случае является синонимом диктовки. Диктуете вы уже не идиоту, но и не самой спорой машинистке в мире.

Назад к карточке книги "Журнал «Компьютерра» №36 от 04 октября 2005 года"