355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Компьютерра Журнал » Журнал "Компьютерра" №729 » Текст книги (страница 5)
Журнал "Компьютерра" №729
  • Текст добавлен: 9 октября 2016, 14:22

Текст книги "Журнал "Компьютерра" №729"


Автор книги: Компьютерра Журнал



сообщить о нарушении

Текущая страница: 5 (всего у книги 12 страниц)

Или как парижская статуя Свободы или Кремль и Большой театр на курорте в Анталии. И это при том, что я знаю, что к каждой из них прикасалась рука автора.

Как же я отнесусь к восемьсот двадцать девятой вариации нового скульптурного шедевра, вообще никак не отличимой от предыдущих восьмисот двадцати восьми?

Да даже и к первой, если буду знать, что есть еще восемьсот двадцать девять?

И если раньше, в Средние века, мы имели феномен произведения без автора (большинство знаменитых церквей и соборов), то сейчас мы попадаем на болотистое пространство авторов без произведений.

Итак, по мере прихода в искусство цифровых технологий напрочь исчезают два главных свойства произведений искусства: уникальность и подлинность.

Пока это вроде бы не коснулось архитектуры, – но и тут кто знает: не появится ли инструмент, преобразующий элементарные бетонные объемы в нечто архитектурнозамысловатое как снаружи, так и внутри? Почему бы и нет?

И даже литература, сугубо знаковый, кодовый вид искусства, – потихоньку лишается фрагментов подлинных рукописей, к которым прикасалась рука автора.

Что будут выкладывать на витрины грядущих литературных музеев? Системные блоки? Мышки? Мониторы?

Короче: пришла цифра, и кончилось искусство! А оно того стоило?

ГОЛУБЯТНЯ: Сугубим по софту

Автор: Сергей Голубицкий

Мы тоже будем сегодня сугубить, но не по вате, а чисто по софту. Я понимаю, что без железяк как-то уже даже непривычно, но передышка не помешает. Тем более что через неделю опять все закрутим по кругу, ибо припасена у нас на роль Петечки одна титаническая гаджетина (да что там гаджетина – в ней же целая философия!).

Программа, о которой собираюсь поведать читателям, возникла на моем горизонте, как водится, из безысходности. В очередной раз загнал себя в угол запредельно специфическими задачами, которые, впрочем, по здравом рассуждении, никакой особой специфичностью не обладают (обчитался, понимаешь, "Огородами" Антонелло и подсознательно адаптировал его мучительно нудную стилистику!). Короче, судите сами.

Была такая гениальная певица Мария Чиботари, одна из величайших сопрано в истории, которая покоряла Европу своим уникальным голосом в тридцатые-сороковые годы ХХ века. Поскольку жила Мария в Германии, снималась в антисоветских фильмах и ходила в любимицах одновременно у дуче и фюрера, в новое время ее имя плотно окутали молчанием, в том числе и на родине – в Молдавии и Румынии. Лишь недавно мой амикус, хорошо знакомый читателям по "Голубятням", посвященным киношному софту (в первую очередь – программам нелинейного монтажа), замечательный режиссер Влад Друк, снял документальный фильм "Ария", приподнявший завесу идеологического забвения над Марией Чиботари.

Так вот, собрался я по оказии показать "Арию" друзьям, почитающим бельканто, да осекся: всеядная "бибикашка", проиграв DVD-диск десять минут, закочевряжилась, задергала картинку, поперхнулась парой дорожек, а затем и вовсе сабгемахтилась. Вот уж конфуз так конфуз! Что делать?

Задним умом припомнил, что встречал как-то во времена оны программу, якобы умеющую восстанавливать с порченого носителя всю здоровую информацию, и отправился на поиски. Программу ту, разумеется, не нашел, зато обнаружил другое чудо, чья функциональность затмевает даже самое отважное воображение.

Знакомьтесь – Durable Copy, интеллектуальное дитя Александра Кутина, – программа, предназначенная для копирования файлов, содержащих нечитаемые сектора. Я сознательно не буду детально описывать работу Durable Copy в надежде на то, что, не поленившись, вы самостоятельно протестируете программу на каком-нибудь битом диске, который гарантированно отыщется в хозяйстве любого уважающего себя IT-маньяка. Дело в том, что наблюдение за бультерьерской хваткой Durable Copy уже само по себе вызывает недетский респект и восхищение: программа в прямом смысле слова впивается в порченный носитель и не отстает от него до тех пор, пока не выпотрошит сохранившуюся информацию до последней крошки.

Выглядит бультерьерство Durable Copy следующим образом: когда программа встречает при первом проходе нечитаемый сектор, она его пропускает. После считывания всего массива информации Durable Copy возвращается к больным секторам и грызет их до тех пор, пока вам не надоест ждать и вы не нажмете кнопку "Не читать". То есть количество попыток пропорционально нашему терпению. Подобный алгоритм лишь внешне кажется дурацким, поскольку избыточно циклическое считывание проблемных дорожек лазерного диска как раз и дает плоды: сектора, которые не поддавались с первого десятка попыток, глядишь, и уступят напору да раскроют информацию.

Даже если с какими-то местами на диске не удается справиться, результат работы Durable Copy безупречен в практическом отношении: после копирования на винчестер фильм можно успешно скинуть на чистую болванку либо просмотреть на компьютере – в обоих случаях вместо нечитаемого файла мы получаем гладкий аудиовизуальный поток, в котором отсутствуют лишь несколько секунд изображения.

Подобный результат и сам по себе замечателен, однако Durable Copy на этом не останавливается. Программа обладает еще одной уникальной способностью – умеет сливать воедино несколько поврежденных массивов данных, при условии, конечно, что в этих массивах утрачена разная информация. Аккурат мой случай с «Арией»!

Когда Влад подарил мне DVD-диск прошлым летом, я, конечно, просмотрел фильм в первый же вечер и обнаружил физический изъян на самых последних дорожках. На следующий день я заглянул к другу, возбух на брак и исполнил добровольную конфискацию другого диска из авторской коробки. Каюсь, досматривать последние минуты фильма на новом DVD я тогда не стал, однако и первый порченный диск – то ли интуитивно, то ли предусмотрительно – не выбросил, а зачем-то сохранил. Как оказалось – себе во спасение!

Читатель уже догадался, что друзьям я поставил второй – предположительно рабочий – DVD-диск с фильмом, который тоже дал сбой, однако не в конце фильма, а на одиннадцатой минуте. Поскольку диски сбоили в разных местах, можно было предположить, что проблема не в исходном образе (iso), а в физическом браке партии носителей, на которых делался прожиг фильма. Для подобной ситуации в Durable Copy предусмотрена специальная опция – Replace Bad Sectors (Заменить нечитаемые сектора), которая сначала копирует первый диск, а затем накладывает поверх него копию второго. Разумеется, процедуру эту Durable Copy проделывает с должной мерой интеллектуальности: программа не тупо гоняет второй диск от начала до конца, а работает лишь с теми секторами, которые оказались битыми на первом диске. В результате из двух порченных копий "Арии" я получил одну – полностью рабочую и без малейшего пробела в аудиовизуальном потоке.

Заключительный аккорд панегирика в адрес программы Александра Кутина относится к сетевому потенциалу Durable Copy. Лично у меня потребности проверять эту фичу на эффективность как-то не возникало, однако после положительного опыта с восстановлением данных DVD-диска нет оснований не доверять авторскому описанию, кое и привожу, поскольку не сомневаюсь, что данная функциональность окажется востребованной многими читателями: "У вас есть ноутбук и настольный компьютер. Вы организовали между ними беспроводную сеть. Но соединение в сети периодически прерывается, и копирование файлов сильно затруднено. Durable Copy автоматически восстанавливает копирование после сбоев независимо от того, копируете вы данные на локальный или удаленный компьютер. Другая ситуация: вы подсоединяетесь из дома через Интернет и VPN-сеть к своему рабочему компьютеру. Но пакеты порой теряются, соединение с Интернетом прерывается: работать в таких условиях сложно. Если вы пользуетесь программой Durable Copy, вам не придется начинать копирование файла с начала, даже если VPN-сеть теряется через каждые несколько секунд, поскольку Durable Copy работает в VPN-сетях так же стабильно, как и в беспроводных сетях".

Если зажмуриться на маркетинговый флёр и искусственность смоделированной ситуации (что это за домашние такие сети, в которых связь периодически прерывается? Разве что WiFi, а по соседству с вашим домом расположена воинская часть с мощными подслушками и глушителями), в сухом остатке мы все равно получаем перспективный клиент для копирования файлов в экстремальных ситуациях, когда по той или иной причине традиционные методы не дают результатов.

Во второй части – анонсы из жизни великой ЗЫЗы. Удивительная приставка Sony не перестает восхищать поклонников все новыми и новыми возможностями, которые стали открываться после появления альтернативной прошивки, созданной "Лениным PSP-сцены" – Темным Алексом (Dark_AleХ). Последняя версия прошивки называется Customware 3.90 M33-2 и представляет собой свободную инкарнацию последнего "родного" релиза от Sony. Шикарное нововведение Темного Алекса – обновление прошивок онлайн по WiFi-каналу, для чего в интерфейсе предусмотрена специальная опция. Эта опция качественно упростила процедуру, и теперь новичкам больше не приходится заморачиваться рискованным процессом инсталляции через карту MemoryStick.

Несмотря на то что сегодня риск "брикнуть ЗЫЗу" больше не является смертоносным (после открытия группой Noobz технологии оживления запоротой приставки с помощью программирования аккумуляторной батарейки), согласитесь, все же неприятно и – главное – геморройно уткнуться носом в мертвую приставку, которую предстоит оживлять пусть и верным, но опять же нетривиальным способом. При обновлении свободной прошивки Темного Алекса через Интернет от пользователя требуется лишь выбрать соответствующую опцию из меню (Настройки – Сетевое обновление), подождать, пока новая версия прошивки загрузится по WiFi, нажать кнопку подтверждения и через пару минут получить самую свежую приставочную ОС.

Именно – самую свежую, поскольку новые прошивки Customware появляются на свет чуть ли не в день выхода официального релиза. Рискну предположить, что Sony прекрасно знает о том, что алгоритмы защиты ее новых ОС давно сломаны, однако сознательно ничего в них не меняет, поскольку бурное развитие альтернативной прошивки от Темного Алекса обеспечивает феноменальную популярность PSP, которая по универсальной функциональности, открывшейся после перехода на Customware, затыкает за пояс всех конкурентов вместе взятых.

Обстоятельство более чем важное в ситуации, когда приставки Sony прогибаются под тяжелейшими ударами вражеского Nintendo.

Хотелось бы рассказать читателям о двух новых опциях, появившихся в ЗЫЗе: поддержке потокового радио и потокового видео. Первая реализована в самой прошивке (и официальной, и альтернативной) с помощью веб-плеера, умеющего работать с сервисом Shoutcast (Сеть – Интернет-радио – Internet Radio Player), и практически не отличается от реализации на большом компьютере: из бесконечного списка радиостанций выбираем приглянувшуюся по настроению либо тематике, соединяемся и наслаждаемся чудесами технологии. Собственно, ничего революционного, хотя и чертовски приятно для поклонников ЗЫЗы.

Зато вторая опция – потоковое видео – заслуживает ордена Че Гевары. Возможность реализуется с помощью альтернативной программы PiMP Streamer (творение DickyDick1969), серверная часть которой работает на большом компьютере, а клиентская – на игровой приставке. Выглядит это следующим образом:

• вы соединяете ЗЫЗу с PC и запускаете инсталлятор программы. Все необходимые клиентские модули записываются на флэш-карту приставки;

• запускаете на PC PimpStreamer.exe и в верхней части окна указываете пути к директориям, на которых хранятся ваши фильмы. Директории эти могут находиться как на локальном компьютере с установленным сервером PiMP Streamer, так и на любой сетевой машине. Дабы удостовериться, что сервер находится в онлайне, откройте браузер и запустите http://xxx.xxx.xxx.xxx:3333 (иксам соответствует IP-адрес вашего компьютера – того самого, где установлен PiMP Streamer);

• прежде чем отсоединить приставку от компьютера, отправляйтесь на флэш-карту ЗЫЗы и проверьте на всякий случай, что в файле pmp.ini (он находится в директории Х:PSPGAME150PIMPSTREAMER201SUB, где Х – буква тома MemoryStick) указан правильный адрес вашего компьютера. Иногда (если кроме PSP к компьютеру подключены и другие флэш-карты) инсталлятор PiMP Streamer путается и копирует нужные файлы не на приставку, а в другое место;

• теперь все готово для работы. Отсоедините ЗЫЗу и запустите на приставке программу (Игра – MemoryStick – PiMP Streamer). В первом окне выберите название вашей сети, во втором – местоположение сервера PiMP Streamer (в том случае, если в файле pmp.ini у вас указано несколько адресов). Программа соединится с Большим Братом и выведет на экран список всех ваших фильмов, находящихся в директориях, зарегистрированных в PiMP Streamer;

• выбираете нужный фильм и через мгновение начнется воспроизведение видео в реальном времени.

Ощущаете потенциал программы? Сервер PiMP Streamer на лету конвертирует оригинальное видео в зызин формат (480x272) и сливает по воздуху на экран приставки. А это значит – никаких больше конвертаций ночи напролет, никаких часовых копирований фильмов на непристойно медленные соневские флэш-карты. Кстати, о картах. MemoryStick представляется мне какой-то пародией на Макинтоши! Проприетарный формат бывает оправдан лишь в ситуации, когда он демонстрирует явные преимущества перед мэйнстримными решениями. Как в случае с Mac OS по отношению к Windows, выигрывающей в простоте интерфейса и удобстве работы с компьютером. Меж тем флэш-карты MemoryStick уступают стандарту Secure Digital во всех отношениях – и по быстродействию, и по форм-фактору, и по надежности конструкции (у меня на всех шести карточках, что есть в доме, в первый же месяц отвалился тоненький ободок, обрамляющий контактную зону!). Ну да ладно, возвращаемся к баранам.

Напоследок: PiMP Streamer работает не только с видеофайлами в контейнере AVI, но и с FLV (флэш-видео), WMV (Windows Video), MPG, MP4, VOB, M4V – you name it. Я говорил, что чудо-поделка DickyDick1969 тоже умеет транслировать на вашу ЗЫЗу в реальном времени аудиопотоки в формате MP3 и OGG, а заодно и картинки BMP, GIF, JPG, JPEG, TIF, TIFF? Не говорил? Так говорю.

Финальный мазок: PiMP Streamer позволяет даже просматривать фильмы с внешними субтитрами; для этого необходимо создать на флэш-карте директорию PSP/MOVIES и закинуть в нее файл с субтитрами! Единственное требование: имя файла с расширением SUB должно точь-в-точь совпадать с именем самого фильма.

Такие вот чудесные пироги испекает для нас вечно молодая ЗЫЗа в умелых и опытных руках свободолюбивых кодоломателей!

КАФЕДРА ВАННАХА: Неабсолютное оружие

Автор: Ваннах Михаил

В редакцию пришел интересный отзыв на статью Михаила Ваннаха «Меч из камня» («КТ» #725), так что на этот раз «Кафедра» получилась интерактивная (а автор письма получает приз; см. стр. 76.

В статье обсуждается одна из систем высокоточного оружия на основе ствольной артиллерии. Спутниковая навигация используется и в других системах высокоточного оружия (управляемые бомбы, крылатые и др. ракеты авиационного, морского и сухопутного базирования). Такой способ целеуказания и наведения средств поражения представляет собой управление по навигационным данным. Преимуществом такого способа наведения по сравнению с активными головками наведения является отсутствие демаскирующего радиолокационного и лазерного излучения. Недостатком – необходимость задания абсолютных или относительных координат целей с характеристиками, соответствующими требованиям точности наведения, а также относительно низкая помехозащищенность, так как используется внешний радиочастотный сигнал. В настоящее время все кому не лень (со знаниями на уровне радиокружка) могут изготавливать и изготавливают «пищалки» с использованием IT, позволяющие или подавлять, или нужным способом искажать сигналы сетевых спутниковых навигационных систем, будь то GPS, ГЛОНАСС или разрабатываемая в настоящее время европейская Galileo и др., что в определенной степени ограничивает использование спутниковых технологий как для создания реально действующих безопасных систем посадки гражданских самолетов, так и, тем более, для средств поражения.

Кроме того, сигнал спутниковых навигационных систем для определенных регионов может быть отключен фактическими владельцами этих систем, коими являются военные ведомства. Для частичной компенсации помехозащищенности, а также для выработки сигналов управления, позволяющих получить указанные точностные и надежностные характеристики (для которых необходимо не только положение снаряда, но и скорости, ускорения, а также параметры ориентации и угловые скорости) применяется комплексирование спутниковой навигационной информации и информации автономных средств (не подверженных воздействию внешних радиопомех) в виде инерциально-спутниковых систем (в тексте материала такие системы называются «...система управления (СУ). Она – двойная и инерционная и GPS» и «...устойчивая к перегрузкам система управления, инерционная/GPS»). На самом деле такая система является не инерционной, а инерциальной (как правильно было написано в подписи к иллюстрации), так как в отличие от других систем управления используются высшие производные, а термин «инерционный» с точки зрения СУ имеет смысл динамического запаздывания. Далее содержится достаточно спорная информация в виде «ускорения при выстреле – до 12000 g». Прошу автора статьи привести источник данных о столь высоких ускорениях в современной артиллерии.

Федорович

О применении бомб с GPS-наведением в Югославии я писал лет девять назад. Конечно, это не абсолютное оружие, но очень эффективное средство апгрейда старых боеприпасов.

Возможность глушения сигналов GPS… не знаю, не глушил. Достоверную информацию об этом, скорее, стоит ждать не из военной сферы, а из области компьютерной безопасности. Дело в том, что GPS широко используется в противоугонных системах, и его обман сразу же стал бы известен страховым компаниям, и далее везде. Но конечно – любая сигнальная система уязвима. Для этого и существует такая вещь, как РЭБ – радиоэлектронная война. Система управления в снаряде "Эскалибур" не имеет, насколько мне известно, устоявшегося названия на русском.

Она действительно ИНЕРЦИАЛЬНАЯ, в том смысле, что использует датчики ускорений, и ИНЕРЦИОННАЯ по алгоритму действия (аналогично, скажем, ИНЕРЦИОННОМУ СОПРОВОЖДЕНИЮ цели в РЛС, когда срывается сигнал), так как ведет изделие в промежутках между дискретными отсчетами GPS, экстраполируя данные последнего.

Данные по ускорениям, на которые рассчитан снаряд, взяты с www.globalsecurity.org (XM982 Excalibur Precision GuidedExtended Range Artillery Projectile).

Их легко проверить – стоит только взять длину ствола самого могущественного орудия, предназначенного для стрельбы XM982, – шведской системы Archer; дульную скорость и стандартное распределение давлений при выстреле, легко прикидываемое по толщинам ствола. Все эти данные есть в открытой печати, а свести их вместе – задача из курса кинематики школьной физики.

А 12.03.08 сайт www.defense-aerospace.com сообщил об успешных стрельбах, выполненных в Афганистане батареей C, 3-го батальона, 321-го полка полевой артиллерии армии США. Снаряды Excalibur, выпущенные из гаубицы M-777A2, успешно накрыли цель. Правда, в Афганистане и с радиолюбительскими кружками напряженно…

И в завершение можно сказать, что главной ошибкой, ПРИНЦИПИАЛЬНО не компенсируемой СУ "Эскалибура", будет ошибка разведки цели. Спасибо за внимательное чтение!

ТЕХНОЛОГИИ: Драконья погибель

Автор: Александр Бумагин

Каждый журналист мечтает о том, чтобы прийти после встречи, подключить диктофон к компьютеру и открыть весь разговор непосредственно в текстовом редакторе. На деле же приходится тратить уйму времени на расшифровку аудиозаписи. Автоматизации это процесс поддается плохо, если, конечно, у вас нет расторопной прислуги. Да и просто наговаривать тест, отложив клавиатуру, хочется еще со школьных лет. Фантастика? Специалисты питерского Центра речевых технологий полагают, что нет.

Формальным поводом для этой статьи послужило заявление питерского Центра речевых технологий (ЦРТ) о завершении работы над технологией распознавания слитной русской речи. Такая новость воспринимается не иначе, как первоапрельская шутка, особенно при воспоминании о весьма неуклюжих "российских" разработках типа "Горыныч" ["Горыныч" – адаптация под русский язык системы распознавания Dragon Naturally Speaking от компании Nuance. Она создавалась для английского языка – совершенно иначе организованного, если сравнивать его с русским]. Еще более забавной кажется идея того же ЦРТ подготовить к Олимпиаде в Сочи, ни много ни мало, карманный переводчик устной речи.

Центр речевых технологий был образован в 1990 году небольшой группой инженеров, часть которых работала в НИИ "Дальняя связь", где была своя речевая лаборатория. Впрочем, заниматься чистой наукой в ЦРТ не получилось, компании были нужны проекты, способные быстро себя окупить.

"Сейчас у нас работает около двухсот человек, – говорит Алексей Хитров, аналитик ЦРТ. – В основном мы специализируемся на системах профессиональной записи звука, включая многоканальную запись. Мы разработали профессиональный диктофон "Гном", у нас есть также системы протоколирования и стенографирования".

Весьма недешевый – больше 1000 долларов – цифровой диктофон "Гном 2М" отмечен экспертами МВД РФ как прибор, записывающий человеческую речь с качеством, позволяющим проводить идентификацию голоса. Кроме того, ЦРТ сам занимается криминалистической фоноскопической экспертизой: по словам Хитрова, доля компании в этом бизнесе составляет около 25% по всему миру.[В основном такая работа ведется в развивающихся странах]

О работе ЦРТ над распознаванием речи и, главное, о сложностях этой проблемы рассказала Марина Татарникова, математик по образованию, руководящая группой исследователей Центра.

"Сначала у нас было реализовано дикторозависимое распознавание изолированных команд как целостных образов, для небольших словарей, – рассказывает Татарникова. – Процедура распознавания в этом случае требует хранения нескольких эталонов для каждой команды. Потом были разработаны алгоритмы построения акустических моделей аллофонов [Аллофон(а) (от греч. бllos – иной, другой, и phфnз – звук), вариант, разновидность фонемы, обусловленная данным фонетическим окружением (БСЭ). Например, в словах "первое" и "апреля" звук "п" находится в разном окружении, и, соответственно, будут разные аллофоны.  и на основе этого – пофонемное [Фонема (от греч. phonema – звук), основная единица звукового строя языка, предельный элемент, выделяемый линейным членением речи (БСЭ)] распознавание команд и поиск ключевых слов, независимые от диктора и словаря".

Для распознавания же слитной речи необходимы огромные речевые базы, нужны специалисты-алгоритмисты и вычислительные мощности. Поначалу проблема казалась слишком трудной и многогранной, если не сказать – безграничной.

Моделирование

Система распознавания слитной речи представляет собой взаимодействие акустических моделей, лексикона, языковой модели и декодера. Если акустические модели выполняют оценку вероятностей распознавания отдельных аллофонов, то языковые модели оценивают вероятность следования слов друг за другом. Лексикон содержит все возможные варианты произнесения слов, которые будут распознаваться в процессе работы системы. Декодер определяет лучшую гипотезу в сети распознавания. Это программа, оперирующая большими объемами данных, которая в максимально сжатые сроки должна принять решение о распознанном тексте. Для успешной работы программы требуется разработка особых алгоритмов, ускоряющих процесс и уменьшающих число ошибок.

"Сложностей хватает, – признает Марина Татарникова. – Вот вы и я произносим звуки и понимаем друг друга.

С точки же зрения машины мы произносим одно и то же слово совершенно по-разному". По этой причине при создании систем дикторонезависимого пофонемного распознавания используется статистический подход. Для реализации такого подхода нужны большие базы с образцами речи разных людей для накопления параметров вероятностных моделей. Если база данных содержит достаточное количество образцов, оказывается возможным создать модель речевого процесса, отражающую вариативность естественной речи.

Акустические модели, – поясняет Татарникова, – это статистические модели, основанные либо на аппарате скрытых марковских моделей, либо на нейронных сетях. Обучение моделей происходит на размеченных речевых базах". В ЦРТ обучали собственные акустические модели на двухстах пятидесяти дикторах, половина из которых – мужчины, а половина – женщины. Все дикторы проживают в европейской части России.[Запись речевой базы частично велась ЦРТ, а частично приобреталась на стороне.]Таким образом, на решение задачи сразу накладывалось некоторое ограничение, ведь русская речь от региона к региону меняется очень сильно и звучит по-разному. Вся база данных составляла около тридцати часов речи. Текст для дикторов подбирался так, чтобы в нем присутствовали все аллофоны русского языка во всех окружениях. Часть записей лингвисты вручную разбивали на сегменты (фоны), для чего есть специальные программы (речь после записи отображается в графическом виде, и на картинке специалист ставит метки на границах сегментов). После того как часть материала была сегментирована, строились начальные акустические модели, а затем, по определенным алгоритмам, на компьютере обрабатывалась остальная часть базы, при этом сегментация проводилась уже автоматически. В процессе обработки параметры акустических моделей переопределялись. Обучение моделей на шести вычислительных машинах заняло около двух суток.

Великий и могучий

Для создания языковой модели в ЦРТ применяется N граммный подход, при этом чаще всего используются би граммы и три граммы. Для тренировки языковых моделей используются текстовые базы данных. В Интернете были собраны аудиозаписи новостей, которым присущ один и тот же стиль речи. В этой базе сейчас около 35 млн. слов. Для оценки параметров языковых моделей требуются огромные объемы данных, и, как правило, этих объемов не достаточно. Всегда существуют n граммы, которые не встретились в языковой модели. В этом случае используют сложные техники сглаживания и отката для оценки вероятностей так называемых unseen n грамм.

Все это более или менее хорошо работает в английском языке и ему подобных, где есть жесткая последовательность слов в предложении. С русским языком у специалистов возникают немалые трудности. "В области акустики наибольшую проблему для распознавания русской речи представляет необычайно сильная количественная и качественная редукция гласных безударных слогов, – объясняет Марина Татарникова, – частично обусловленная свободным характером словесного ударения". Вместе с низкой артикуляторной напряженностью русской речи это приводит к нейтрализации и "размазыванию" акустических свойств сегментов, особенно в спонтанной разговорной речи.

С точки зрения грамматики и синтаксиса русский язык относится к синтетическим языкам со свободным порядком слов. "Богатая словоизменительная парадигма нашего языка существенно затрудняет языковое моделирование на основе "классической" n граммной модели, – говорит Марина Татарникова, – поскольку требует использования чрезвычайно больших речевых корпусов для получения приемлемого числа реализаций всех входящих в словарь словоформ". Приходится ученым экспериментировать, использовать другие подходы при построении языковой модели, например морфемную или классовую. В морфемной модели словари строятся отдельно для основ и флексий, при этом n граммные модели считаются для основ и флексий отдельно. В классовой модели n граммы строятся не для слов, а для так называемых классов. Существует два основных подхода к построению классов: статистический и частеречный (от "часть речи"). Здесь улучшение достигается не при изолированном использовании классовой модели, а при интерполяции ее с базовой. Выбор того или иного подхода для русского языка требует исследований. Чем сейчас и занимаются в ЦРТ.


Убийственный нюанс

Увы, языковая модель, построенная на текстах новостной базы, не может быть применена в создании, например, языковой модели для распознавания спортивных трансляций (и наоборот).

"Общая модель языка, – говорит Татарникова, – в принципе, вряд ли интересна: каждый приобретающий систему распознавания будет использовать ее в своих целях, подразумевающих определенный стиль речи. И за рубежом так же".

Татарникова приводит как доказательство от противного довольно известную разработку Dragon, принадлежащую фирме Nuance. Продаваемая этой компанией система диктовки для любого текста и любого пользователя требует перед началом работы адаптации языковых моделей и расширения словаря. Адаптация языковых моделей производится путем загрузки в систему типичных для работы пользователя текстов и последующей корректировки статистических языковых моделей. Расширение словаря – задача пользователя. Насколько успешно он с ней справится, настолько успешно будет работать система. Любая система распознавания знает только те слова, что есть в ее словаре.

Существует в системе Dragon подстройка и под голос диктора. Для этого нужно минут тридцать почитать тексты, предложенные системой, чтобы программа адаптировала параметры существующих акустических моделей.

В ЦРТ также ведется работа по созданию алгоритмов адаптации акустических моделей под голос диктора, но в принципе уже ясно: журналистам, которым приходится проводить интервью с разными людьми в разном окружении, рассчитывать особо не на что. Универсального продукта для русского языка ждать не стоит. Даже более простой (в контексте распознавания) английский язык специалистам пока не поддается. О записи неформальной беседы, кажется, нет и речи.

"Надеяться на быстрое появление мобильных и даже стационарных устройств для распознавания спонтанной речи (например, нашего с вами разговора) вряд ли стоит в ближайшее время, – говорит Марина Татарникова.

 Спонтанная речь отличается более сложными языковыми и акустическими моделями. Кроме того, необходимы речевые базы спонтанной речи гораздо больших объемов".

Вопрос специализации

"Определенный скепсис насчет систем распознавания речи, конечно, имеет место, – продолжает Татарникова.


    Ваша оценка произведения:

Популярные книги за неделю