сообщить о нарушении
Текущая страница: 13 (всего у книги 38 страниц) [доступный отрывок для чтения: 14 страниц]
Люди, хорошо знакомые с возможностями современных технологий захвата цели и манипуляций видеоизображением, прекрасно осознают, что «живая» телевизионная трансляция ныне может становиться сколь угодно далекой от реально происходящих событий. Как говорит Норман Винарски, вице-президент по инфотехнологиям в корпорации Sarnoff, «видеть - это больше не означает верить, сейчас вы уже не можете знать, чему доверять».
Демонстрация подобных технологических чудес пока что способна производить на публику весьма сильное впечатление. В 1999 году на геополитической конференции о плюсах и минусах спутниковой видовой разведки интересно выступил профессор-политолог Стивен Ливингстон из Университета Джорджа Вашингтона. Для максимальной наглядности в подтверждение все того же тезиса «видеть - это не значит верить», он просто продемонстрировал аудитории видеоролик - выступление на льду знаменитой фигуристки Катарины Витт. Спортсменка изящно скользила по льду и вдруг в прыжке полностью исчезла с экрана. Камера все так же продолжала скользить по пустой площадке, ее бортам и трибунам со зрителями, пока столь же волшебным образом Витт опять не появилась на экране через десяток секунд. Конечно, в кино подобные спецэффекты применяются десятилетиями, но теперь то же самое без труда можно делать и с телетрансляцией в реальном масштабе времени.
Новая эра в информационных операциях
Понятно, что секретные спецслужбы проигнорировать подобные захватывающие возможности никак не могли.
В мае 1998 года в г. Арлингтон проходила конференция военной разведки США, как обычно секретная. Однако, на открытой части мероприятия в тот раз удалось побывать репортеру еженедельника Federal Computer Week. Он-то и рассказал о весьма впечатляющей презентации, с которой здесь выступил уже знакомый нам по первой главе д-р Джон Юречко, начальник «отдела поддержки информационной войны» Разведуправления МО США (РУМО). Суть доклада Юречко, если пользоваться его собственным речевыми оборотами, сводилась к тому, что «разведывательное сообщество США плодотворно комбинирует компьютеры с теориями когнитивной психологии, а использование информационных технологий возвещает для них новую эру в информационных операциях» [DV98].
По свидетельству этого эксперта, разведслужбы тщательно изучают способы использования компьютеров и глобальную сеть Интернет с целью формирования и распространения информации, предназначенной для склонения в нужную сторону общественного мнения по наиболее горячим политическим вопросам. В качестве составной части своей так называемой программы «управления восприятием» (perception management) разведывательное сообщество в течение десятилетий формирует дезинформацию для стимулирования политических изменений без прямого политического или военного вмешательства в тех странах, где США имеют значительные интересы, таких как Ирак или Северная Корея.
Опираясь на современные достижения в области информационных технологий, разведслужбы обращаются к ПК для разработки более сложных средств по манипуляции и распространению цифровых фотографий, видеоклипов и звукозаписей для распространения через Интернет документов о непроисходивших событиях в надежде спровоцировать желательные реакции. Юречко рассказал, к примеру, что разведывательные службы могут пытаться убедить лидера какой-нибудь страны в надвигающемся массированном вторжении, распространяя клипы видеоновостей, изображающие разворачивание больших военных сил, намного превосходящих реально существующие.
Для более наглядной демонстрации своих слов, Юречко продемонстрировал аудитории советскую фотографию 1938 года, на которой изображен Иосиф Сталин в компании Николая Ежова, тогдашнего главы госбезопасности СССР. На другой версии того же снимка Ежов «техническими средствами ретуши» удален с фотографии без каких-либо следов его присутствия. В эпоху кровавых репрессий, как многие помнят, эта процедура входила в стандартный набор советских средств для постоянного внесения коррективов в историю государства. Как выразился Юречко, на сегодняшний день точно такой же процесс «распыления» РУМО может применяться к видеозаписям.
Столь циничные параллели с тоталитарным режимом Сталина показались, вероятно, кому-то в американском руководстве чересчур откровенными. И, невзирая на иронию происходящего, технологию «распыления» применили к откровениям Юречко - с сайта еженедельника Federal Computer Week довольно поспешно убрали краткий репортаж с памятной конференции разведслужб в Арлингтоне. (Спустя несколько лет, правда, то ли одумались, то ли забыли о прежних указаниях, и публикация вновь «всплыла» на сайте, см. www.fcw.com/fcw/articles/1998/FCW_052598_483.asp).
Трудно сказать, какие еще изыскания и эксперименты разведслужб на поприще манипуляций изображением произвели на американские власти решающий эффект, но в конце 1999 года в недрах клинтоновской госадминистрации США родилась новость несколько иного рода. Было официально объявлено, что в министерстве обороны изучили вопросы применимости международного права к «информационным операциям», практикуемым военными, и пришли к выводу, что сгенерированные с помощью компьютера изображения в определенных обстоятельствах могут стать военным преступлением. Буквально, было сказано следующее: «[хотя] Используя технику компьютерного морфинга, имеется возможность создавать образ главы вражеского государства, информирующего свои войска о заключении перемирия или соглашения о прекращении огня», однако если это фабрикация, то подобный трюк «был бы военным преступлением». По всем параметрам подобный ход следует расценивать как «вероломство», иными словами - как явное нарушение общепринятых законов войны. Таким образом, американские военные сочли необходимым широко объявить, что на кибернетических полях сражений «вооруженные силы США будут сражаться в полном соответствии с законами войны»… [DV99].
Осталось неизвестным, какие именно конкретные причины или факты побудили военно-политическое руководство к подобным заявлениям. Но зато достоверно известно другое. В первых числах января 2000 г. германская газета «Франкфуртер Рундшау» сообщила, что видеолента НАТО, демонстрировавшаяся в предыдущем году по телевидению с целью оправдания убийства по меньшей мере 14 гражданских лиц в Косово, на самом деле была сфабрикована. Погибшие люди находились в поезде, который уничтожили в апреле 1999 г. самолеты НАТО, бомбя мост через реку Южная Морава. В оправдание убийства мирных жителей, представители военного блока тогда заявили, что поезд двигался слишком быстро, и траектории запущенных с самолетов ракет изменить было уже невозможно. Для документального подтверждения были продемонстрированы видеоленты, снимавшиеся телекамерами, установленными в боеголовках двух ракет, уничтоживших мост и поезд [FPOO].
В действительности же, как было установлено сотрудниками немецкой газетой, эти видеоленты демонстрировались со скоростью, в три раза превышающей реальную. Представители командования НАТО в Брюсселе были вынуждены признать данный факт, объяснив происшедшее «технической проблемой». Но самым пикантным в этой технической проблеме оказалось то, что счетчик хронометража, постоянно «щелкающий» в кадре видеоленты, показывал при этом вовсе не утроенную, а вполне нормальную скорость. Понятно, что никто из военных не пожелал вдаваться в подробности того, каким образом в видеолентах могут происходить столь удивительные метаморфозы. Но, учитывая возможности компьютерных технологий, подмена какого-то там счетчика - задача просто тривиальная.
Говорит и показывает
Сегодня успешно решаются задачи куда более сложные. На конференции Siggraph-2002, традиционно собирающей мировую элиту компьютерной графики и анимации, группа разработчиков из Массачусетского технологического института (МТИ) представила новую программу обработки видеозаписи, позволяющую имитировать произнесение человеком слов и фраз, которые в действительности тот никогда не говорил.
Нечто подобное делалось другими и раньше. Например, в конце 1990-х разработчики технологии Video Rewrite, совместно созданной в университете Беркли и компании Interval, обработали кинохронику с записью одного из выступлений президента Джона Кеннеди в 1962 году. В результате этой цифровой модификации речь президента пополнилась довольно забавными фразами, например, «Я никогда не встречался с Форестом Гампом» [EG02].
Главная же особенность новой программы МТИ - небывалая прежде реалистичность морфинга, в результате чего зрители, принимавшие участие в тестировании, оказались уже не в состоянии отличать реальную запись от сгенерированной компьютером. Кроме того, нынешняя техника компьютерной анимации обычно требует ручной доработки при «склеивании» комбинируемых фрагментов изображения говорящего, в то время как технология МТИ уже практически полностью автоматизирована.
Формирование «базовых» лиц программы речевого морфинга
Программа построена на основе самообучающейся системы искусственного интеллекта, которая после анализа 2-4-минутного видеоролика (необходимый для работы минимум) выделяет кадры, представляющие полный спектр возможных движений рта и окружающих его областей. После чего компьютер становится способен синтезировать любое выражение лица как комбинацию из примерно полусотни «базовых» лиц объекта. Затем программа просматривает всю имеющуюся видеозапись, обучаясь тому, как лицо отображает произнесение каждого звука и как оно двигается от одного звука к другому. Теперь, получая новую последовательность звуков, компьютер может сгенерировать точную картину движений области рта и аккуратно наложить эти движения на лицо объекта.
Разработчики признают, что в настоящее время высокая реалистичность образа достигается лишь на протяжении одной-двух фраз, после чего становится заметным отсутствие эмоциональности в лице говорящего. Однако уже ведутся работы по созданию и более сложной модели, способной обучаться выражению базовых эмоций человека. Так что генерация эмоциональной окраски и все более достоверного звукового сопровождения синтезируемых сцен - дело лишь времени. Новая программа разработчиков МТИ уже применяется на телевидении для формирования более правдоподобной мимики при дубляже читаемых диктором новостей с английского языка на испанский. Потенциал подобной технологии в кино и компьютерных играх поистине неисчерпаем, поскольку позволяет реалистично возродить на экране любого из уже ушедших из жизни актеров или знаменитых людей.
Яркий тому пример - инициатива южнокорейского продюсера Чул Шина, возвращающего на киноэкраны легендарного Брюса Ли, героя целой серии культовых фильмов 1970-х годов о мастерах восточных единоборств. Скоропостижная смерть от кровоизлияния в мозг оборвала карьеру артиста в 1973 году, когда после картин «Кулаки ярости» и «Путь Дракона» он находился в самом зените славы. Несмотря на прошедшие годы, фильмы с Брюсом Ли по-прежнему пользуются популярностью у зрителей Азии, Америки и Европы. Поэтому в 2001 году Чул Шин объявил о начале съемок новой картины, в которой благодаря современным компьютерным технологиям в главной роли вновь будет выступать легендарный артист. Сгенерированный компьютером персонаж будет на равных участвовать в действии вместе с живыми актерами и актрисами. Для этого тщательно подобран список азиатских актеров-спортсменов, чрезвычайно похоже имитирующих манеру боя и движений Брюса Ли. С помощью хорошо известной в компьютерной анимации технологии «захвата движения» с максимальной реалистичностью моделируются все сцены схваток «цифрового Ли». Что же касается речи, то предполагается, что за Брюса Ли будет говорить актер с похожим голосом, а окончательное доведение тембра и прочих голосовых нюансов до оригинального звучания возьмет на себя программа синтеза речи [MS01].
Отдельного упоминания заслуживает и нынешний уровень наиболее продвинутых программ синтеза речи. С лета 2001 года научно-исследовательский центр ATT Labs занимается коммерческими продажами своего программного обеспечения Natural Voices (www.naturalvoices.att.com). По свидетельству экспертов, на сегодняшний день у этой программы нет конкурентов в правдоподобности воспроизведения тембра, нюансов интонирования и прочих особенностей натурального человеческого голоса. При этом программа, основная цель которой - перевод печатного текста в синтезированную речь, способна говорить не только заранее выбранным голосом, но и обучаться воспроизведению хорошо всем знакомых голосов знаменитостей, как ныне живущих, так и давно ушедших из жизни [АВОЗ].
На примере Natural Voices уже очевидно, что клонирование человеческого голоса достигло такого уровня совершенства, когда на слух разница с оригиналом становится неощутима. В своей «базовой» версии это программное обеспечение вышло на рынок с тремя голосами профессиональных актеров, двух мужчин и одной женщины. Затем были добавлены еще два голоса- «ребенка» и «бабушки». Активно ведутся работы над версиями программы для разных языков и диалектов. Уже выпущены варианты «естественных голосов» на испанском, английском, французском и британском английском языках. Пока что комплект такого программного обеспечения стоит несколько тысяч долларов, и ориентировано оно на корпоративных клиентов, таких как телефонные компании; фирмы, занимающиеся созданием программ для чтения разного рода текстовых файлов; изготовители встраиваемых автоматизированных речевых устройств и тому подобное. Ясно, что перед бизнесом открываются захватывающие перспективы - привлечение толп новых клиентов с помощью легко узнаваемых голосов самых знаменитых актеров, телеведущих или политиков, бодро читающих нужные тексты абсолютно произвольного содержания. Но тут же встают многочисленные «скользкие» вопросы. Кто владеет правами на голос знаменитости? Наряду с полностью синтезированными актерами, проникающими ныне в кинематограф, не вытеснят ли синтезированные голоса живых артистов? Конечно же, всплывает сложнейшая проблема с имитацией голоса в мошеннических операциях, поскольку в телефонных переговорах начинается полное размытие границ между «настоящим» и «поддельным».
В настоящее время процесс обучения программы нужному - «заказному» - голосу выглядит следующим образом. Обладатель голоса приходит в студию, где в течение достаточно продолжительного времени - от 10 до 40 часов - начитывает специально подобранные тексты, от бессмысленной чепухи до бизнес-отчетов. Все сделанные записи нарезаются на крошечные звуки-фрагменты и в отсортированном виде хранятся в базе данных. Теперь, когда программа зачитывает произвольный текст, нужные фрагменты быстро извлекаются из базы, рекомбинируются и формируют требующиеся предложения. Данная технология именуется «конкатенативный синтез речи». Для тех ситуаций, когда в качестве обладателя заказного голоса фигурирует давно почившая знаменитость, подбирается массив архивных записей требуемого объема. Понятно, что если вдруг злоумышленники решат подделать чей-то голос, от них потребуется «всего лишь» накопить нужный объем достаточно качественных записей жертвы…
По сути дела, такие программы как Natural Voices и компьютерный морфинг видеоизображения предоставляют неисчерпаемые возможности для преступных злоупотреблений в целях фабрикации ложных улик, дезинформации, провоцирования и просто обмана публики. И сегодня многие эксперты по анализу изображений все чаще предполагают, что судам в ближайшее время придется, возможно, вернуться к средневековой практике и принимать во внимание лишь показания тех свидетелей, которые видели произошедшее собственными глазами.
Нейромаркетинговое мозготраханье
В условиях, когда очень многие осведомлены о возможностях злоупотребления компьютерными технологиями, всем - и политикам, и бизнесу - приходится действовать в этой области весьма осторожно.
Ведь противники-конкуренты не дремлют, и малейшая оплошность может самым сокрушительным образом сказаться на репутации. Но слишком уж заманчивые перспективы открывают научные и технологические достижения на пути к установлению тотального контроля за мыслями «человека из народа» - а ведь это предел мечтаний идеологов и маркетологов. Разница лишь в том, что одним нужна послушная кукла для воплощения идей политического руководства, а другим - для непрерывной и интенсивной покупки потребительских товаров.