355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Компьютерра Журнал » Журнал «Компьютерра» № 11 от 20 марта 2007 года » Текст книги (страница 10)
Журнал «Компьютерра» № 11 от 20 марта 2007 года
  • Текст добавлен: 10 сентября 2016, 01:27

Текст книги "Журнал «Компьютерра» № 11 от 20 марта 2007 года"


Автор книги: Компьютерра Журнал



сообщить о нарушении

Текущая страница: 10 (всего у книги 14 страниц)

Прежде чем захлебнуться самому и захлебнуть читателя восторгом по поводу нового релиза одной замечательной программы, анонсирую с не меньшим захлебом два сайта. Первый — бакунианский, родом из близкой моему сердцу Незалежности. Называется www.pulya.net . Навскидку — рядовой портал, каких сегодня тысячи, с акцентом на свежие фильмы, пугливую эротику, фотосеты суперкаров, выборочные статьи гламурно-мусорной полиграфии, книжки и ненавязчивые программулины общенародного потребления, на поверку — блестящая модель онлайн-бизнеса. Чистота модели и концентрация на идее — вот изюминка украинской Пули, заставившая меня извлечь этот портал на обозрение потребителей культур-повидла. Концепция проста и элегантна: громадный массив контента, привлекательный для максимально широкого пласта Рунет-тусовки, выкладывается на два файлохранилища — Rapidshare и FileFactory. Все линки — в открытом доступе, никакой регистрации на портале и членства не требуется. Хотите — качайте, сколько душа просит, через фриварные аккаунты. Кто пробовал, тот знает: мизерный лимит на объем скачивания и часовые ожидания допуска быстро заставляют душу ничего больше не хотеть. В этот момент и включается бизнес-модель: Пуля продает премиум-аккаунты Rapidshare и FileFactory по льготной цене (4—10 WMZ в зависимости от длительности подписки). Цены меньше, чем у самих файлохранилищ, плюс — удобная для Рунета оплата не кредитной картой, а WebMoney. Источник аккаунтов на продажу — пойнты, которые зарабатываются официально на файлохранилищах за счет гигантских объемов того самого трафика, что создается контентом, выложенным на портале. Эдакий perpetuum mobile и, на мой взгляд, ценная модель для изучения на предмет адаптации. Второй сайт, который хочется представить читателям, называется «Война и мир» (www.warandpeace.ru). Посвящен геополитике, причем в том бесконечно редком ключе, что идеально вписывается в мою собственную модель современного мира. Небольшая выдержка из «Основных принципов информационной политики» сайта, проливающая свет на весь подход: «Игнорирование новостного мусора из СМИ — „светской жизни“, будней „реалити-шоу“ и прочих явлений массовой культуры; криминальной хроники; скандальных сюжетов о чиновниках, проституции и „сексуальных меньшинствах“. Принципиальное неприятие „желтизны“ в любых видах». Освещаемая тематика — романс Америки с Осамой, трения с Грузией, война в Ираке, доктрина Блэра, исламский банкинг (тот самый, в котором нельзя начислять проценты за кредит), политика Уго Чавеса и т. п. Теперь — обещанная софтина. Пару лет назад я рассказывал читателям об одной из замечательных астрономических (не путать с астрологическими!) программ — Starry Night канадской компании Imaginova. Речь шла о релизе Starry Night Enthusiast 5 (категория New To Astronomy), которым я наслаждался несколько лет. Не так давно программа обновилась до версии 6, и мне посчастливилось тестировать ее самый полный вариант — Starry Night Pro Plus 6 (категория Experts). Сказать, что я потрясен, значит ничего не сказать. Добавление одной цифры к номеру релиза в случае Starry Night служит пожизненным укором всем тем шареварным халтурщикам, что штампуют обновления, отличающиеся лишь новыми алгоритмами и ухищрениями защиты. Шестой релиз Starry Night — самая настоящая революция! Список нововведений огромен и занимает несколько страниц, поэтому я не буду утомлять читателя, тем более что он вряд ли подготовлен к адекватному восприятию астрономических реалий. Назову лишь главное — то самое революционное — новшество: полноцветовое цифровое фотографическое изображение всего звездного неба, видимого с Земли! Если в предыдущих версиях Starry Night, как и во всех прочих астрономических программах, мы имели дело с векторной симуляцией, то теперь видим так называемую AllSky CCD mosaic — цельную панораму неба, составленную из двадцати тысяч снимков, сделанных мощнейшим телескопом, размером 6,44 млрд. пикселов (съемка велась с разрешением 12 арксекунд на пиксел)! Просмотр любого уголка Вселенной возможен на пяти уровнях зуммирования, открывающих совсем уж неописуемые зрелища: как вам 24-битная цветная фотокарта всей поверхности Марса, снятая с высоты полета космического зонда? Или матушка Земля с разрешением до 1 км (здравствуй, GoogleEarth!)? Неудивительно, что пять лет усилий, направленных на создание нового революционного релиза, отлились в 11 Гбайт информации, ложащейся божественно желанным грузом на жесткий диск. Специально не дописываю последнюю тысячу знаков «Голубятни», оставляя место для лишнего скриншота! ТЕХНОЛОГИИ: Великие раскопки и великие вызовы Автор: Леонид Левкович-Маслюк Наука об извлечении содержания из гигантских массивов данных становится все более изощренной, а задачи, за которые берутся мастера такого поиска, — все более человечными. ЦИФРА Агентство IDC прогнозирует, что объем цифровой информации в мире достигнет тысячи экзабайт к 2010 году, то есть по сравнению с 2006 годом увеличится в 6 раз (1 экзабайт = 260 байт, или миллиард гигабайт). Прочесыванием гор информации в поисках скрытых в них закономерностей люди занимаются уже многие века. Но только с появлением компьютеров, баз данных, локальных и глобальных сетей понятие «больших массивов» обрело нынешний смысл, а их вдумчивое сканирование, когда-то занимавшее лишь шпионов и каббалистов-мистиков, позже — социологов культуры и теоретиков медиа с их страстью к контент-анализу, превратилось в индустрию. Причем индустрию высокотехнологичную даже на фоне инфотеха. Ведь найти смысловые связи в новостной заметке, правильно ответить на элементарный вопрос — о чем она, к какому тематическому классу ее причислить, — сложнейшая, как оказалось, задача для машины. С другой стороны, даже простая для машины, но неподъемная и невыносимо тоскливая для человека задача механического сканирования текста с одновременной сортировкой имен, названий, ключевых слов часто оказывается очень и очень востребованной. А если еще и выйти за пределы мира текстов, попытаться научить компьютер понимать, о чем люди говорят (хотя бы в телефонных переговорах с туристическим бюро), что они показывают друг другу на фотографиях и видеолентах, — станет ясно, что колоссальный спрос на результаты таких исследований сталкивается с колоссальными трудностями в их реализации. Вот где-то между этими молотом и наковальней и зародился современный датамайнинг (data mining, буквально — раскопки данных, или добыча чего-то из данных), в котором научные и индустриальные компоненты трудно разделить. В 1998 году научную зрелость этой отрасли подтвердило создание Special Interest Group (SIG), Группы особых интересов, в рамках авторитетной международной организации по компьютерным исследованиям ACM (Association for Computing Machinery, Ассоциация по вычислительным машинам). Что такое SIG? Вспомним о самой популярной из подобных групп — SIGGRAPH. Ежегодные мегаконференции, на которых делаются доклады, читаются лекции и демонстрируются высшие достижения компьютерной графики, анимации и сопутствующей всему этому математики, других наук и технологий, известны далеко за пределами сообщества специалистов. Другие SIG’и (сейчас их тридцать четыре, в том числе SIGART [искусственный интеллект], SIGMOD [базы данных], SIGPLAN [языки программирования], SIGSOFT [разработка ПО] и др.) не так знамениты среди широкой публики, но заслужили уважение специалистов, а проводимые ими конференции, издаваемые журналы являются индикаторами качества в своих областях. На наши вопросы о теории и практике датамайнинга ответил Григорий Пятецкий-Шапиро (Gregory Piatetsky-Shapiro), основатель и председатель SIGKDD — Группы особых интересов, посвященной «открытию знаний в данных» (Knowledge Discovery in Data). ОЦЕНКА Удачные статистические модели позволили выявить потенциальные «налоговые убежища» обеспеченных американцев объемом в сотни миллионов долларов. Какие новые разделы датамайнинга (ДМ) появились в последние годы? Какие из них самые перспективные для бизнеса, для исследовательской работы? — Одно из замечательных новых полей исследований — анализ связей (link analysis). Приложения весьма обширны, от биоинформатики до выявления преступлений, от маркетинга до исследования социальных сетей. Вокруг Web 2.0 сейчас столько шума именно потому, что он очень эффективно использует веб как инструмент социальных связей, — а это придает все большую значимость анализу этих связей. Огромный прогресс виден и в майнинге текста (большинство программных комплексов [suites] для датамайнинга теперь включают компоненты для текст-майнинга), а также в майнинге мультимедиа. И то и другое — прекрасные области для исследований. Датамайнинг широко применяется в больших компаниях, особенно работающих в электронной коммерции. Amazon, Yahoo — примеры таких компаний (мой коллега Усама Файяд занимает должность руководителя по обработке данных [Chief Data Officer] в Yahoo, он первым в индустрии е-коммерции получил такой титул). Вот неполный список областей применения датамайнинга: • реклама; • биоинформатика; • связь с клиентами (CRM); • маркетинг; • выявление мошенничества (fraud detection); • е-коммерция; • здравоохранение; • инвестиции/ценные бумаги; • управление производством; • развлечения и спорт; • телекоммуникации; • изучение веба. Если говорить об успехах индустрии датамайнинга, то самый яркий пример здесь — Google. Oба его сооснователя в Стэнфорде занимались исследованиями в этой области, и ранняя история самого Google связана с датамайнингом. Рекомендации на сайте Amazon.com («покупатели, купившие/искавшие/посмотревшие X, купили также Z») привели к огромному росту продаж. Высококачественные рекомендации такого типа обеспечили успех компании Netflix, занимающейся прокатом видео. Например, если вам понравилась знаменитая абсурдистская комедия «Монти Пайтон и священный Грааль» («Monty Python and the Holy Grail»), то вы получите от Netflix рекомендацию посмотреть «This is Spinal Tap» ["Пункция спинномозговой жидкости"], известную пародию на документальный фильм о гастролях экстравагантной рок-группы. Netflix придает такое значение датамайнингу, что в прошлом году учредила приз в миллион долларов за улучшение алгоритма выработки рекомендаций (см. врезку). Истоки KDD Как развивалась ваша карьера? Как вы заинтересовались датамайнингом? — С детства у меня была склонность к математике, очевидно унаследованная от папы, крупного математика Ильи Пятецкого-Шапиро. Живя в Москве, я учился в известной Второй математической школе, принимал участие в математических олимпиадах — но поскольку перенял от папы лишь малую часть математического таланта, то уже в школе понял, что чистая математика не для меня. Я открыл для себя компьютеры в 1974 году, на первом курсе в Технионе, когда эмигрировал в Израиль, и сразу заинтересовался ими. Меня особенно увлекали вопросы искусственного интеллекта. Первую интересную программу я написал в 1974 году на языке АПЛ — она была предназначена для игры в «морской бой». Сыграв с ней одну партию, я безоговорочно уступил своей же программе. Желание продолжать игру исчезло — зато усилилось желание писать программы. Потом была учеба в аспирантуре в США, тоже с концентрацией на задачах искусственного интеллекта. Темой диссертации стало приложение искусственного интеллекта к работе с базами данных. Датамайнингом я заинтересовался, работая в Лабораториях GTE (организация, подобная знаменитой Bell Labs, только поменьше) над крупными коммерческими базами данных. Оказалось, что если найти определенные правила, некоторые запросы к этим базам можно ускорить на несколько порядков. Я заинтересовался вопросом — можно ли находить такие правила автоматически, и занялся применением идей искусственного интеллекта к большим базам данных. Побывав в 1988 году на встрече (workshop) по этой теме (в рамках конференции AAAI ’88), я понял, что этому мероприятию нужна более четкая фокусировка. По молодости лет я не представлял себе, каких усилий стоит организовать такую встречу, и поэтому в 1989 взялся за организацию воркшопа сам. Термин «датамайнинг» я считал недостаточно завлекательным (sexy) и вместо него предложил назвать тему «открытие знаний в базах данных» (Knowledge Discovery in Databases, KDD). Это название подчеркивало, что конечная цель работы — знания, и намекало на дух первооткрывательства, сопутствующий поиску знаний. Тогда же я начал новый проект в GTE Labs, и это был первый в мире проект по KDD. Воркшоп прошел в 1989 году с большим успехом, и с тех пор я продолжаю работать в этой области. В 1993 году начал рассылку «Knowledge Discovery Nuggets», чтобы помочь в установлении связей между исследователями, занятыми этой проблематикой (первыми ее получили пятьдесят участников KDD-93). В 1994 году, с началом массового распространения веба, я создал один из первых сайтов по датамайнингу, из которого вырос мой нынешний сайт KDnuggets.com. Я очень рад, что вовремя сообразил, что в одиночку не потяну организацию воркшопов, и подключил к этому делу Усаму Файяда (Usama Fayyad), ставшего председателем оргкомитета KDD-94. С ним и еще несколькими коллегами мы превратили KDD в полномасштабную конференцию, а при поддержке Вон Кима (Won Kim) создали в 1998 году SIGKDD — исследовательское общество по открытию знаний и датамайнингу. В 2007 году в Сан-Хосе (Калифорния) пройдет уже 13-я конференция KDD . Воркшоп KDD в 1989 году был единственным в мире, а сейчас каждый год собирается дюжина конференций и встреч по этой теме. Кто заказывает вашей фирме KDnuggets датамайнинговые проекты? Насколько они масштабны (по количеству участников, ресурсам, времени выполнения)? Требуют ли разработки нового ПО специально для каждого проекта? — Многие думают, что Kdnuggets — большая компания с веб-программистами, редакторами, менеджерами по развитию бизнеса, отделом кадров и т. п. На самом деле она состоит из одного человека — меня самого, а все ее дела я веду при помощи множества скриптов, автоматически выполняющих большинство необходимых действий. Время от времени я получаю интересные заказы на консалтинговые проекты, которые тоже обычно выполняю самостоятельно. Главное, что требуется от консультанта по датамайнингу, — интуиция, которая подсказывает, как найти интересные объекты в массиве данных и как при помощи существующих методов и технологий обнаруживать именно то, что принесет пользу заказчику. К сожалению, многие успешные датамайнинговые проекты, в том числе и часть моих, связаны с деликатными вопросами бизнеса — такими, как выявление мошенничества и обмана, — и поэтому о них нельзя подробно рассказать в прессе. Однако недавно состоялся воркшоп, специально посвященный «историям успеха» технологий датамайнинга . Там были представлены статьи, против публикации которых заказчики проектов не возражали. Лучшей была признана работа Бхарата Рао (Bharat Rao) из Siemens, в которой описывалась очень интересная система. Она позволяет автоматически повысить качество лечения и ухода за пациентами кардиологических отделений благодаря тому, что извлекает важную медицинскую информацию из невнятно написанных и неточных записей в историях болезни [Гм-гм. Недавно мы упоминали о том, как широко применяется распознавание речи при надиктовывании врачами историй болезни. Может быть, система Рао исправляет ошибки не только врачей, но и той системы, которая записывала их диктовку? — Л.Л.-М.]. Среди кандидатов в «Великие вызовы KDD» (см. врезку) есть задачи, близкие к тесту Тьюринга. Есть ли надежда, что техники ДМ помогут существенно продвинуться в решении такого рода классических проблем искусственного интеллекта? С другой стороны — можно ли в задачах протеомики надеяться на то, что только за счет ДМ появятся ответы на важные вопросы биологии? — Из кандидатов в «Великие вызовы» ближе всего к Тьюринг-тесту предложение Ронена Фельдмана (Ronen Feldman) — выдвинуть в качестве вызова создание текст-майнинговых систем, которые смогут сдавать стандартные экзамены на понимание текстов, — SAT, GRE, GMAT, причем обучаться системы будут, исследуя веб. Лично я думаю, что это вполне решаемая в течение пяти-десяти лет задача, а когда она будет решена, это полностью изменит существующую практику вступительных экзаменов. Недавно Ларри Пейдж, сооснователь Google, объявил, что Google серьезно работает над ИИ, а использование сосредоточенной там вычислительной мощности и базы знаний может серьезно ускорить движение в сторону ИИ. Для продвижения в биологии (протеомике, геномике) критически важно понимание предметной области. Однако и без инновационных алгоритмов датамайнинга прогресс там невозможен. Как устроены системы датамайнинга? Много ли общего у этих технологий с технологиями поисковых машин типа Гугла?

    Ваша оценка произведения:

Популярные книги за неделю