Текст книги "Журнал "Компьютерра" N741-742"
Автор книги: Компьютерра Журнал
сообщить о нарушении
Текущая страница: 3 (всего у книги 10 страниц)
Прикладная криптология
Прикладная криптологияАвтор: Киви Берд
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 года
Криптология, как многие наверняка наслышаны, занимается не только шифрами и методами их вскрытия, но и множеством других проблем, так или иначе связанных с защитой и восстановлением информации. Поэтому нередки случаи, когда в реальных задачах прикладной криптологии собственно до анализа и вскрытия шифров дело вообще не доходит, но конкретные результаты все равно достигаются. Два примера из текущих ИТ-новостей наглядно демонстрируют этот на первый взгляд парадоксальный факт.
Первый сюжет связан с чрезвычайно актуальной и широко обсуждаемой ныне темой "сетевого нейтралитета" и роли компаний, обеспечивающих работоспособность сетевой инфраструктуры. Вправе ли они контролировать содержимое проходящего по каналам трафика, и если да, то до какой степени? Не дожидаясь итога этих дискуссий, многие интернет-провайдеры уже сегодня втихаря занимаются инспекцией пакетов и принудительным сужением (или "дросселированием") каналов для некоторых видов трафика, в первую очередь – для распространенных P2P-протоколов обмена файлами. Естественной реакцией на это со стороны пиринговых сетей стало шифрование пакетов.
Понятно, что сеанс зашифрованной связи просто так уже не проинспектируешь. Но вот недавно в Сети было опубликовано любопытное исследование[www.ing.unibs.it/~gringoli/ pub/PID578397b.pdf.], емонстрирующее программный инструмент, с помощью которого провайдеры могли бы целенаправленно блокировать или ограничивать шифрованный трафик своих абонентов, даже не имея возможности проанализировать защищенные данные.
Авторы работы, итальянские исследователи из Университета Брешии, нашли способ "слепой" классификации с точностью до 90% того типа трафика, что сокрыт в шифрованных пакетах сеансов SSH-соединений. Такой выдающийся результат достигнут с помощью алгоритма автоматического анализа, сопоставляющего размеры пакетов и интервалы между их доставкой. А собственно содержимое пакетов программу анализа совершенно не интересует.
Второй сюжет посвящен роли криптологии в аспектах, связанных с интернет-телефонией. Постоянно растущая популярность VoIP-технологий диктует необходимость поиска все более эффективных методов компрессии речи. Перспективное и сравнительно новое здесь направление (впрочем, хорошо известное любителям цифровой музыки) – сжатие с переменным битрейтом, при котором размер пакетов данных существенно варьируется. Происходит это потому, что для длинных и сложных гласных звуков частота отсчетов делается высокой, а для простых согласных частота сэмплирования заметно ниже.
Важнейшее достоинство данного метода сжатия в том, что он сохраняет качество звука, присущее высокому битрейту, но при этом снижает нагрузку на канал связи. Однако с точки зрения защиты информации эта технология не выдерживает никакой критики.
Группа исследователей из американского Университета Джонса Хопкинса (Johns Hopkins University) продемонстрировала, что сжатие с переменным битрейтом очень сильно ослабляет криптозащиту зашифрованных VoIP-потоков. Ученые показали, что достаточно измерять размер пакетов, даже не прибегая к их декодированию, чтобы с высокой точностью выявлять слова и фразы [Spot me if you can:Uncovering spoken phrases in encrypted VoIP conversations, 2008 IEEE Symposium on Security and Privacy, May 18 22, 2008.]. Программа анализа, разработанная авторами, пока не может восстановить весь разговор целиком, однако позволяет отыскивать конкретные словосочетания в зашифрованном потоке.
Алгоритм программы с помощью фонетического словаря разбивает искомую фразу на фонемы.
Затем фраза составляется из звуков, взятых из библиотеки образцов, а результат преобразуется в набор VoIP-пакетов. Полученная структура дает общее представление о том, как фраза может выглядеть в реальном VoIP-потоке. И когда нечто похожее по структуре выявляется в реальном сеансе IP-телефонии, программа тут же оповещает перехватчика о находке.
При тестовых испытаниях с перехватом реальной зашифрованной передачи программа верно выявляла и декодировала искомые фразы примерно в половине случаев. Результат, ясное дело, не очень впечатляющий, однако аккуратность метода подскакивала до 90%, если для поиска задавались длинные и сложные слова. Иначе говоря, эффективность подобной атаки намного выше, если перехватывается разговор профессионалов, насыщенный жаргонизмами. Как показывает анализ, в разговорах на профессиональном "диалекте" обычно много слов, которые сцепляются в длинные и относительно предсказуемые фразы.
Что же касается неформальных звонков, то там набор выражений случаен, а потому значительно хуже поддается аналитическому декодированию.
Впрочем, досужий треп обывателей шпионам неинтересен.
Компаний, предоставляющих услуги VoIP-шифрования при сжатии речи с переменным битрейтом, пока что не так много. Но в целом технология считается весьма перспективной и сулящей значительные выгоды. С точки зрения криптографов, однако, подобная схема компрессии применительно к интернет-телефонии – плохая идея. Самым простым решением проблемы могло бы стать разбиение речевого потока на пакеты равной длины, однако это неизбежно ухудшит степень сжатия. Что в очередной раз, увы, подтверждает давно известную истину: эффективность и безопасность – вещи практически несовместимые.
Микрофишки
МикрофишкиОпубликовано в журнале «Компьютерра» N25-26 от 08 июля 2008 года
Зонд "Феникс", изучающий в настоящее время нашего соседа по Солнечной системе, передал на Землю первые результаты анализа марсианской почвы. Оказалось, что марсианская землица достаточно плодородна. Не чернозем, конечно, но минимум необходимых минералов в ней есть. Проба для анализа была взята на глубине около дюйма, в грунте обнаружены соли и щелочи, следы магния, натрия, калия, а также ионов хлора. Кислотность хоть и не идеальна для растений, но вполне терпима для некоторых из них. Ученые, впрочем, не стали обещать скорого появления цветущих плантаций на Марсе атмосферные условия на планете далеки от идеальных. АБ
***
У компьютерщиков появился достойный повод осушить кружку любимого пива – если верить выкладкам агентства Gartner, в июне число ПК на земном шаре перевалило за миллиард. Впрочем, это еще не предел: не далее как в 2014 году прогнозируется удвоение нынешнего «машинного парка». Если ныне 58% всех установленных PC «прописаны» в развитых странах, то в покорение следующего миллиардного рубежа вклад этих государств ожидается куда менее значительный.
Увы, век электронных "мудрецов" недолог: только в нынешнем году апгрейду будут подвергнуты больше 180 млн. персоналок, пятая часть из которых закончит свои дни на свалке. ДК
***
Blizzard анонсировала продолжения культового Diablо. То, что грядет хит, геймеры поняли за несколько дней до объявления, наблюдая за тизерами на сайте компании. Впору было организовывать тотализатор: новый Diablo или WarCraft? Поклонникам противостояния орков и людей не повезло…
Diablo 3 представили на Blizzard Worldwide Invitational, где был показан двадцатиминутный ролик, демонстрирующий геймплей. Судя по видео, работа над игрой если и не завершена, то уже находится в финальной стадии.
Окунуться во вселенную Diablo 3 (новая часть истории о борьбе с мировым злом перенесена в полностью трехмерное окружение) смогут владельцы Mac и PC, а вот консольщики остались с носом. О дате выхода пока ничего не говорится, можно лишь помечтать. Например, о новогодних подарках… АБ
***
Сбываются мечты тех, кто грезил о новеньком iPhone 3G, не привязанном к конкретной сотовой сети. Теперь не только некоторые операторы в Европе, но и AT amp;T заявили о готовности продавать трубки по принципу Pay amp;Go за 600 или 700 долларов за модели с 8 или 16 Гбайт памяти на борту. Представители оператора говорят, что решились на этот шаг лишь потому, что люди сами того хотели. И правда, кто же откажется заплатить за телефон тройную цену? АБ
***
Известия о новых сервисах от Google уже давно никого не удивляют. Не все новинки приживаются, однако некоторые становятся просто незаменимыми. Быть может, подобная судьба постигнет и проект Media Server – новую функцию Google Desktop.
Фича позволяет транслировать медиа-контент прямиком на бытовые устройства, поддерживающие семейство протоколов Universal Plug and Play. Это, например, Sony PlayStation 3 и ряд продвинутых телевизоров. В дальнейшем тому же научат цифровые рамки, смартфоны (несколько моделей уже работают с этой технологией) и прочую электронную братию.
Как не раз случалось,Google взяла известную задумку и приправила ее фирменным соусом. В результате, наряду со стандартной функциональностью подобного ПО, появилась возможность смотреть видеоролики с YouTube и фото из Picasa (находящиеся на локальном компьютере или в онлайн-альбомах) не вставая с кресла в гостиной.
YouTube частенько называют убийцей традиционного ТВ. Google Media Server позволит самому популярному видеосервису еще увереннее теснить телевидение на его же территории. ТВ
тема номера: Совершенное несовершество
Совершенное несовершествоАвтор: Илья Щуров
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 годаЕсли верить физикам, фундаментальные свойства Вселенной от времени не зависят. Законы, правящие материей, всегда действовали и будут действовать одинаково – вчера, сегодня или миллион лет назад.
Так что менять физический мир, с которым мы сталкиваемся в повседневной жизни, – занятие непростое.
Кому-то это удается – и в результате вместо пещер мы живем в небоскребах, перемещаемся на дальние расстояния не бегом и даже не верхом, а в автомобилях и поездах, а для связи используем не голубиную почту, а электронную.
Казалось бы, совсем другое дело – менять пространство виртуальное, созданное самим людьми и далекое от бренной материи и ее ограничений. Достаточно одной революционной идеи, нескольких десятков строк кода, и – добро пожаловать в новый мир! Однако, как оказывается, вселенная "чистого разума" обладает своей инерцией и тоже сопротивляется изменениям, порой с завидным упрямством.
Сегодняшняя тема номера посвящена тому, как меняется Веб – самая известная, популярная и динамичная из существующих на сегодня "виртуальных" сред. Как те самые "революционные идеи" сталкиваются с существующими технологиями, пытаются их изменить – и сами меняются под их воздействием.
Это противостояние неизбежно. Одним из ключевых факторов, определивших успех и даже сам факт существования современного Веба, был его "прощающий" характер, благодаря которому даже самый криворукий вебмастер мог написать свою страничку, что называется, особо не заморачиваясь соответствием стандартам, семантической разметкой и прочими глупостями. Вследствие этого несовершенства архитектуры, тормозящего сейчас наше движение в светлое будущее, мы как раз и имеем то настоящее, которое имеем. А это, наверное, тоже чего-то стоит…
Ахиллесова пята Семантического Веба
Ахиллесова пята Семантического ВебаАвтор: Виктор Шепелев
Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 годаТим Бернерс-Ли, много лет назад создавший Веб, долгое время был привычен нам в амплуа участника комитетов, радетеля и охранителя, авторитетного, но кабинетного ученого. Однако в последние месяцы досточтимому сэру стало тесно в этом амплуа: то опубликует программную статью про Giant Global Graph – будущее Веба [См. «Обалдеть, завтра дайте три!» («КТ» #717).], то интервью даст, с легкой руки журналистов получившее кодовое название «Создатель Веба рассказывает, где смерть Гуглова»[См., например
[Закрыть]]. Нетрудно заметить, что и в этих новых статьях/интервью отец-основатель продвигает все ту же идею, которую продвигал в предшествующие семь лет: идею (фанфары!) Семантического Веба. А, простите, что это? И, кстати, почему все эти долгие годы (за которые в Интернете изменилось чуть ли не все) Прекрасный Новый Веб неизменно остается «делом отдаленного, но близкого будущего»?
Замах: Обыкновенный веб
Как известно, Веб и составляющие его технологии – HTML (формат описания гипертекста), HTTP (протокол передачи гипертекста), URL (способ адресации гипертекстовых документов) – далеко не первая гипертекстовая система в мире. К тому моменту, как молодой выскочка-ядерщик заинтересовался темой, считалось, что известны инструменты, наработаны теории и технологии, и вообще – гипертекст это наше все и наше будущее (как только глупые люди поймут, сколько в нем преимуществ). И тут появляется Бернерс-Ли, тогда еще ни капельки не сэр, и создает систему, которая с возмутительной простотой и легкомыслием нарушает большинство принципов простоты ради – и завоевывает мир. (Заметим, что прототип Веба, персональная программа-для-управления данными Esquire, была куда более «серьезным» инструментом, нежели все достижения сегодняшних технологий, – она работала не просто со «ссылками куда-то», а со ссылками, включавшими описание отношений между данными, проверявшими наличие и релевантность «конечной точки» и т. п.) Причины, по которым эта простота и «легкомысленность» Веба стали главным залогом его успеха, мы здесь рассматривать не будем (хотя бы потому, что автор уже делал это – см. «Таинственные формулы прогресса» в «КТ» #695). А рассмотрим мы – что с сегодняшним Вебом не так, какие проблемы порождает его простота и снисходительность.
А "не так", собственно, только одно – набор элементов, предоставляемых HTML, слишком мал и однообразен для описания богатой семантики современной веб-страницы – даже с учетом всех благих рекомендаций по отделению представления от содержания и использованию таблиц стилей (CSS).
Ведь все элементы HTML, в общем-то, предназначены для описания только и именно текста, статьи, документа; все это богатство (абзац, заголовок, таблица и пр.) отнюдь не рассчитано на страницы сложной структуры, состоящие из многих сегментов – верхнего меню, бокового меню, подвала, панели ссылок… то есть всего, что составляет практически любой современный сайт. Таблицы стилей скрывают от нас, что с точки зрения языка разметки мы смотрим не на "страницу с меню и блоком навигации", а на сотню одинаковых блоков или (упаси господи) здоровенную таблицу из полутора сотен ячеек. Еще более проблемный элемент – собственно ссылка, основа и связующее звено гипертекста.
Опять же, с точки зрения семантики любая ссылка выглядит одинаково, и отличить ссылки внутренней навигации от несущих смысл информационных связей (а также от ссылок "по дружбе", ссылок на "студию, которая делала этот сайт", и т. п.) может только естественный интеллект (вооруженный к тому же современным браузером, изображающим документ примерно так, как предполагал его автор). И это если не говорить о "ссылках", выглядящих как таковые, но никуда не ссылающихся, а открывающих новые окна, выполняющих AJAX-запросы и делающих много других, крайне полезных, но никак в семантику ссылки не укладывающихся дел [Некоторые из этих проблем пытается исправить будущий стандарт HTML5, вводящий, например, элемент ‹nav› для обозначения навигационной части страницы;другие проблемы решаются и в сегодняшнем HTML’е при помощи менее известных "фич" вроде возможности указать атрибут "rel"(relation) для любой ссылки, обозначив ее отношение к текущему документу. Но все это лишь случайные "поправки" – тогда как необходимо комплексное решение проблемы].
То есть изначальная (и нынешняя) структура HTML, во-первых, не учитывает разделения любой вебстраницы на "приложение" (навигацию, служебные и информационные элементы) и его "контент"; вовторых, эта самая структура неспособна адекватно отобразить отношения между частями сложного контента, действуя лишь в терминах "это идет за этим" и "это стоит рядом с тем". Соответственно, любая маломальски нетривиальная задача по работе с информацией в Вебе не может быть выполнена автоматизированным средством анализа, а только – человеком, отличающим оформление от контента, существенную информацию от факультативной, определяющим значимость ссылок "на глаз".
Тим Бернерс-Ли и его коллеги осознали эти проблемы уже довольно давно и, в общем и целом, сделали вывод, что "с самого начала надо было не так".
Вот это самое "не так", которое одно время казалось будущей заменой нынешнего Веба, и получило название Semantic Web – Семантической Паутины.
Прыжок: Прекрасный новый веб
В чем же радикальное отличие Прекрасного Нового Веба, каким он видится тем, кто «знает, как надо»?
Разберемся для начала формально, по спецификациям и стандартам W3C.
Итак, предполагается, что Семантический Веб состоит из ресурсов, информация на которых описана на языке RDF (Resource Description Framework).
Грубо говоря, в каждом случае составляется нечто вроде анкеты. В случае порнокартинки [Этан Цукерман (Ethan Zuckerman) утверждает, что любая востребованная среда привлекает порнографию и социальных активистов;если нет порнографии – среда не работает, нет активистов – работает, но плохо
[Закрыть].], например, будут описаны характеристики самого изображения, изображенных личностей и их занятий в достаточно строгом, иерархическом формате, который может быть однозначно разобран алгоритмом [Вообще говоря, распространено мнение, что RDF – подмножество языка разметки данных XML. На самом деле это не так: XML лишь один из форматов, в котором может быть сохранено RDFописание; другой, например, формат – Notation 3.Модель данных RDF, в отличие от XML, является не иерархической («автор» является частью «картинки», являющейся частью «набора картинок»), а предикатной (автор и картинка находятся в отношениях «является автором», картинка и галерея – в отношениях «входит в»); графически данные, описанные в RDF, представляются графом, а не деревом]. Ресурс, информация на котором описана таким образом, гораздо более гибок в использовании, нежели традиционный HTML-сайт: например, в гипотетическом примере с порнокартинкой можно одним движением запросить у ресурса его данные, отсортированные и отобранные по любому из свойств этих картинок, – причем в отборе и сортировке пользователь будет полагаться не на создателей ресурса и его встроенный поисковик, а только на своего интеллектуального (программного) агента, который переберет все доступные данные, проанализирует их описания и выберет/отсортирует в соответствии с запросом пользователя.
Но главная цель и сущность Семантического Веба не в том, чтобы информация с отдельного ресурса была представлена в логичном, машиночитаемом виде, а в синергическом эффекте, происходящем от наличия глобальной сети ресурсов, "говорящих" на общем формальном языке. Переходя от уровня отдельного ресурса на уровень всеобщей Сети, наш гипотетический любитель клубнички может получить от своего интеллектуального агента биографии понравившихся моделей (включая сразу и ссыл ки на покупку соответствующей продукции) или, скажем, описания по применению заинтересовавших подходов к проблеме, – и все это не потому, что авторы единственного сайта сочли нужным проставить соответствующие ссылки, а потому, что мы оперируем в рамках сети данных (формально описанных в терминах общих языков и словарей) вместо нынешней сети страниц.
Чтобы все это работало, понадобятся еще некоторые компоненты, кроме собственно языка описания данных. Нужны общие термины-предикаты допустимые разделы и "поля" для "анкет" разных типов. Например, если в RDF-документе записано, что он использует схему данных[Описанную, к примеру, в формате RDF Schema. Форматов существует несколько, но главное не формат, а декларация намерений: схема может быть вообще никак не описана, а только определяться уникальным идентификатором. Например, схема дополнительных полей для описания блога от Яндекса не имеет публичного описания, но любой документ, в котором есть URL-идентификатор этой схемы – "http://blogs.yandex.ru/schema/foaf/
[Закрыть]", – декларирует, какое значение он придает предикатам вроде «blogActivity» или «bio».], обозначаемую таким-то уникальным идентификатором (как правило, таким идентификатором служит адрес в Вебе, где выложена сама схема или документация по ней), это сразу говорит интеллектуальному агенту, какие поля он может встретить (и позволяет агенту определить, знает ли он способ обработки таких типов документов).
Следующий компонент, позволяющий интеллектуальному агенту уверенно чувствовать себя в сети данных, – это онтологии (классификации и описания свойств) общих понятий и отношений между ними.
Ссылки на онтологии позволяют интеллектуальным агентам понимать, что если рассматриваемые данные описывают "страну", то у нее может быть ссылка на ровно одно данное типа "столица", несколько ссылок на "граничащие страны" и т. п. Другой пример (возвращаясь к нашей клубнике): если разные ресурсы используют в качестве названий… хм… жанров не просто текстовые строки, а ссылки на термины одной общей онтологии порножанров, лежащей где-то в Сети, то программный интеллектуальный агент сможет на всех этих ресурсах выполнять едино образные запросы с гарантированным результатом, независимо от того, какими словесами обозначены жанры в пользовательском интерфейсе. Самый известный и "официальный" (в смысле наличия W3C-стандарта), хотя и не единственный язык описания онтологий называется OWL (Web Ontology Language)[Один из создателей языка о несоответствии названия аббревиатуре: "Ну, может же язык, созданный ради логичности и последовательности, быть хоть в чем-то непоследовательным?"]. В более ранних описаниях Семантического Веба OWL фигурирует как "единственно верный" язык описания онтологий, но реальность часто корректирует стандарты, делая их более вариативными, – сегодняшний FAQ на сайте W3C
[Закрыть] указывает лишь, что «необходим язык описания онтологий, например OWL». Другие более-менее распространенные языки – SKOS, созданный европейским семантическим сообществом, и DAML+OIL, выращенный в недрах DARPA.
Наконец, очевидно, что нужны и стандартные средства обработки RDF-данных – описания запросоввыборок [Эту роль берет на себя язык SPARQL (во многом подобный языку SQL, используемому для запросов к обычным реляционным базам данных).] и систем логических выводов[Существует предложенный, но пока не принятый стандарт Rule Interchange Format (RIF).].
Итак, сводим воедино прекрасную картину Семантического Веба: все ресурсы Сети выглядят как "анкеты" на языке RDF, излагающие смысл, а не внешний вид; во всех имеются ссылки на схемы-описания полей этих анкет и словари общих терминов. Пользователь же вооружен не пассивным "браузером"просмотрщиком [Кстати, для установки аналогий в головах читателей – на официальном языке стандартов W3C браузер тоже называется "пользовательским агентом"], а активным интеллектуальным агентом, работающим на уровне данных (независимо от их источника), а не страниц. То есть: из онтологии популярных фотосайтов вытащил порносайты, отобрал с них изображения по восьмидесяти критериям вкуса пользователя и вывел аккуратным списочком, доступным для дальнейшей сортировки, фильтрации и вду-у-у-умчивого просмотра.
Вот почему сэр Тимоти считает, что "Гуглу капец": буде все "интересненькое" в мире опишется формальными RDF-описаниями, методы взаимодействия с Вебом станут (могут стать) принципиально другими. Изменятся (могут измениться) даже самые что ни на есть базовые вещи: единица "браузинга" по Семантическому Вебу уже не имеет ничего общего со "страницей" (единственным документом в каком бы то ни было формате, определяемым своим адресом-URL) – она может быть как маленькой частичкой огромного "документа", так и, наоборот, огромным описанием, составленным из фрагментов десятков документов-описаний со всей Сети. По сути (в экстремуме, в идеальной сети данных), загнуться или сильно изменить бизнес-модель придется не только поисковикам, но и блоговым платформам, онлайн-магазинам, фотохостингам… Останутся лишь "голые" производители, потребители и хостеры "голых" же данных и шустрые интеллектуальные агенты между ними.
Однако основным идеям Семантического Веба уже немало лет, а не то чтобы "экстремума", но даже стремительного роста не видать (сравните хотя бы с куда более молодым термином-вирусом "Web 2.0", знакомым любой домохозяйке). В чем же дело?
Где деньги, Зин?
Вот вопрос: а где же, собственно, во всем этом благолепии деньги (которые, как известно, правят миром), – то есть что может завлечь сильных мира сего в Сети Семантики? Ответы есть и у W3C
[Закрыть], и лично у сэра Тимоти
[Закрыть], но, в общем-то, не слишком убедительные: дескать, информационные потоки любой корпорации могут быть организованы существенно эффективнее (читай – выгоднее), если будут основываться на семантически описанных данных. Но вопрос-то не в том, что Семантический Веб намного проще, а в том, где деньги для поставщиков контента? С какой стати мой непосильнымтрудом-нажитый контент должен участвовать в сети-без-сайтов, где потребитель информации не"зайдет ко мне" (и посмотрит Рек ламу!), а получит от меня лишь нужный ему кусочек данных посредством своего интеллектуального агента?
Существует интересный прагматический ответ на этот непростой вопрос, известный под названием MashupAds
[Закрыть]. Идея в том, что пользовательским «интеллектуальным агентом», интерфейсом к миру семантических данных, должен являться обычный сайт, аггрегирующий информацию с семантических сервисов и предоставляющий пользователю дружественный интерфейс для навигации по этой информации и выполнения сложнейших запросов. Именно этот сайт (точнее – множество сайтов, для каждой отрасли – свой интеллектуальный агент) и будет показывать пользователю рекламу – да не свою, а полученную из «семантической базы рекламы» и семантически же привязанную к текущему контенту. При этом деньги из кармана рекламодателя (минус процент «интеллектуального агента») будут переходить в карман поставщиков того контента, к которому семантически привязалась реклама. Не правда ли, похоже на модель Гугла с его AdWords и AdSense?
В таком разрезе Семантическая Паутина простому пользователю представляется немногочисленным набором сайтов-аггрегаторов специализированных поисковиков, выполняющих посредническую роль не только между пользователем и информацией, но и между поставщиком контента и рекламодателем. Условный пример: на сайте-"интеллектуальном агенте" географической направленности пользователь может максимально быстрым и удобным путем найти любую информацию об интересующей его местности – от туристической до краеведческой; и при этом он увидит максимально релевантную своим поискам рекламу: человеку, просматривающему информацию об отелях, будет предложено несколько соблазнительных туров, а взыскующему исторических сведений скорее выпадет реклама книжных магазинов и обучающих фильмов. При этом, напомним, сам сайтсервис является просто универсальным интерфейсом к туче баз данных (находящихся на других серверах, принадлежащих другим хозяевам).
Выводы о преимуществах и недостатках описанного подхода, а равно и перспективах его внедрения, оставим читателю в качестве домашнего задания.
(Редактор попытался начать выполнять "домашнее задание" и сразу столкнулся с вопросом: с чего бы агенту что-то отстегивать поставщику контента, если только мы не планируем вступать на шаткую землю "технологий защиты от копирования"?)
Подача в прыжке
Если попытаться дать простой ответ на прямой вопрос – побеждают ли идеи Семантического Веба? – то мы окажемся перед серьезным затруднением.
С одной стороны, разработанные инструменты – RDF как универсальный способ машиночитаемого описания данных, OWL как способ построения онтологий, SPARQL как способ запроса к этим данным и онтологиям – вполне себе заняли место в научных и смежных областях и стали стандартом де-факто. С другой стороны, в "мэйнстрим" эти технологии не спешат – а когда и прорываются, редко обходится без конфуза. Например, всем известный RSS – формат для описания обновлений сайтов и блогов, вполне себе семантическая штука, – изначально расшифровывался именно как RDF SiteSummary; завоевание им всеобщего признания казалось началом триумфального шествия Semantic Web по планете. Однако в результате некоторых противоречий и недопониманий на данный момент существует несколько разных RSS’ов (0.90, 0.91, 1.0,2.0), которые, даром что отличаются только номерами версий, имеют совершенно разную внутреннюю структуру и даже разную расшифровку аббревиатуры. Из этих форматов только 0.90 и 1.0 по-прежнему основаны на RDF. А RSS 0.91 (Rich Site Summary) и RSS 2.0 (Really Simple Syndication) – более простые форматы, не связанные с ключевыми технологиями Semantic Web. (Вдобавок существует еще и альтернативный и популярный формат Atom, тоже не имеющий с RDF ничего общего.)
Вообще говоря, превалирующим "сторонним взглядом" на перспективы идей Семантического Веба долгое время был абсолютный пессимизм и неприятие[Еще полтора года назад автор писал колонки на тему "почему Семан– тического Веба нет, не было, и не надо" – см
[Закрыть].]. Причины, в общем, можно легко предпо ложить: среди всего разнообразия сайтов, созданных разнообразнейшими методами, руками авторов с разнообразнейшей квалификацией, трудно ожидать вспышки интереса к «правильной», осмысленной выдаче данных – тем более что выгоды каждого конкретного сайта/сервиса от собственной семантичности малоочевидны, а квалификации создателей не всегда хватает на семантически правильное использование элементов простого HTML, вроде заголовков и списков. Да и сама идея полной (или, по крайней мере, существенной) замены современного Веба Новым Вебом казалась утопией – при полном отсутствии так называемого killer app, привлекательного и общеполезного приложения (не гипотетического, а работающего «здесь и сейчас»), которое делало бы преимущества Нового Веба очевидными любому.
Но в новейшее время в семантичности Веба определенно происходят положительные сдвиги – хотя "семантические" технологии W3C играют в этих сдвигах далеко не первую роль. Killer app’ом, чья популярность только зарождается, оказались, вопервых, поиск, а во-вторых – переносимость данных.
Средством и основной технологией – микроформаты и простые API популярных сервисов. Средством структурирования – (контролируемые) фолксономии.
Результатом – не новая "сеть данных", но и не старая "сеть страниц", а гибридная "сеть страниц с (мета) данными".
Итак, семантическая информация в сегодняшнем Вебе-не-только-для-ученых преимущественно записывается в виде микроформатов – стандартов, позволяющих к существующей HTML-странице добавить информацию о смысле данных. Например, ‹a href=''http://vasya.com''› – это "какая-то ссылка"; а ‹a href=''http://vasya.com'' rel=''colleague''› [Помните "малоиспользуемый и забытый атрибут rel" из первого раздела? ] это та же ссылка, но семантически описывающая мои отношения с блогом-по-ссылке в формате XFN (XHTML Friends Network – натурально, формат задания информации о френдах), – при этом, с точки зрения простого браузера, страница выглядит все так же, но "понимающие" XFN боты[Или браузеры со специальным плагином, например Operator для Firefox.]"увидят" дополнительную информацию и смогут ее использовать. Существуют микроформаты для описания, например, контактной информации (hCard), календарной (hCalendar), информации о "Creative Commons"-лицензировании данного контента и множество других.