сообщить о нарушении
Текущая страница: 11 (всего у книги 14 страниц)
— Системы датамайнинга устроены не так, как системы поиска по вебу (Google, Yahoo), поскольку датамайнинг работает обычно с цифровыми базами данных и задает другие вопросы, нежели Google. Обычно эти системы реализуют различные методы очистки и препроцессинга, а затем применяется основное ядро алгоритмов. Самые важные задачи, решаемые этими алгоритмами, — классификация, кластеризация, визуализация. Процесс датамайнинга требует множества итераций, как показано на рисунке. Важнейшая алгоритмическая часть — использование алгоритмов машинного обучения, то есть построение модели; для датамайнинговой системы это так же важно, как двигатель для спортивного автомобиля. Однако основные усилия обычно уходят на подготовку данных. Заинтересованных читателей приглашаю познакомиться с моими (свободно доступными) лекциями .
Кандидаты в великие
На конференции KDD-2006 несколько известных исследователей в области извлечения знаний из данных предложили задачи, которые в будущем могут претендовать на роль «великих вызовов», бросаемых повседневной практикой .
• Провести аннотацию 1000 Часов цифрового видео в течение одного часа. Согласно автору предложения Шабану Джерабе (Chabane Djeraba), в настоящее время это требует тысяч человеко-часов при ручной работе. Под аннотацией подразумевается краткое описание происходящего. Например, сегодня невозможно без выполненной человеком аннотации выделить в записи баскетбольного матча эпизоды атаки и обороны каждой команды. Ручная аннотация одной фотографии для Национального географического общества требует двадцать минут.
• ВикипедиЯя-тест (Lise Getoor, Лиз Гетур). По сборнику статей, созданному либо в режиме партисипативной журналистики (то есть по принципу наполнения Википедии), либо с использованием автоматических инструментов поиска линков по требуемой тематике, определить, какой из этих двух методов использовался: то есть составлен ли сборник машиной или людьми (и в каком случае качество оказалось выше)? Автор предложения указывает на связь этого вызова с другим, брошенным специалистам по сжатию информации: сжать 100 мегабайт Википедии до 18 мегабайт, не потеряв ни единого бита (за это уже назначен приз Хаттера в 50 тысяч долларов).
• Оценить миллиард прогнозирующих моделей (Robert Grossman, Роберт Гроссман). В ходе многолетней практики датамайнинга было построено великое множество статистических моделей для различных типов и конкретных ансамблей данных. Во многих случаях для одних и тех же массивов данных строится несколько моделей, чтобы ухватить их характеристики разных видов. Пример: имеется информация от 833 датчиков движения транспорта в Чикаго. Задача состоит в автоматическом определении ситуаций, когда в транспортном потоке возникают аномалии, происходит что-то необычное (но не простая пробка!). Данные сегментировались по дням, часам и участкам дороги, что приводило к появлению 7х24х250 = 42000 автоматически генерируемых статистических моделей — хотелось бы значительно сократить их число! Подобная ситуация возникает и в онлайновом маркетинге (отдельная модель поведения для каждого клиента), в перспективных подходах к оценке эффективности лекарств на основе индивидуального генотипа и т. д. Так что миллиард набирается легко — вопрос в том, как радикально уменьшить это число.
• Разработка систем анализа текстов (text mining), способных сдать обыЧные экзамены на понимание текста SAT, GRE, GMAT (Ronen Feldman, Ронен Фелдман). Эту задачу с оптимизмом комментирует в своих ответах Григорий Пятецкий-Шапиро. Она покруче даже стандартного теста Тьюринга (определить, машина или человек отвечает на ваши вопросы), по поводу которого тоже было много оптимизма, в том числе и у его гениального автора. Однако не будем забывать, что этот вызов — лишь планка, которую автор предложения поднимает так высоко в надежде на достижение более приземленных практических целей: довести точность реализации реляционных запросов с нынешних 70—80% до 98—100%, причем в самой общей ситуации.
Кроме этого, был предложен еще один весьма важный вызов — функциональная аннотация белков. Однако формулировка здесь так сложна, а задач так много, что мы ограничимся лишь констатацией — это направление, датамайнинг в геномике и протеомике, тоже служит источником великих вызовов (напомним, кстати, что недавно назначен приз X PRIZE за снижение стоимости сканирования генома до 10 тысяч долларов при повышении производительности до ста геномов за десять дней).
Ну а для полноты картины упомянем и конкурс, который состоится на конференции KDD-2007. Участникам предоставляется тренировочный массив данных Netflix, в котором собрано больше 100 млн. рейтингов (по пятибалльной шкале) по 18 тысячам фильмов от 480 тысяч случайно выбранных анонимных пользователей Netflix (то есть людей, бравших у Netflix DVD напрокат), с 1998 по 2005 год. Вот одна из двух задач, по которым будет проводиться состязание:
Дан список из 100 тысяч пар вида «номер_пользователя, номер_фильма», относящийся к 2006 году (то есть не входящий в тренировочный массив). Для каждой такой пары нужно указать вероятность, что данный пользователь хоть как-то рейтинговал данный фильм в 2006 году.
Денежные призы не предусмотрены — в отличие от основного конкурса Netflix . Там, чтобы заработать миллион долларов, требуется превзойти точность действующей сейчас на фирме системы рекомендаций Cinematch™ всего лишь на 10% (на исторических данных); ежегодно разыгрывается приз в скромные 50 тысяч долларов просто за самое большое уточнение прогноза. Прогноз состоит в том, чтобы угадать по предшествующим оценкам фильмов клиентами, какие из фильмов они высоко оценят в будущем. По состоянию на 14 марта 2007 года лучший результат в конкурсе Netflix уже 6,75%, то есть две трети пути к миллиону пройдено.
ЦИФРА ЗАКОНА: Письмо несчастья: Может ли «покаянное письмо» спасти системного администратора?
Автор: Павел Протасов
Среди обилия заблуждений, бродящих по умам наших соотечественников, одно из первых мест занимают те, что связаны с законодательством. Об одном из них я и хочу сейчас поговорить. Оно периодически всплывает то тут, то там в ходе разнообразных обсуждений судьбы тех бедолаг, что попали под кампанию борьбы нашего государства с пиратством, однако наиболее активно его начали пропагандировать в связи с недавним судебным процессом по обвинению в «пиратстве» директора сельской школы Александра Поносова. Связано оно с вопросом о том, как обезопасить себя от милицейского «наезда», если на вверенной абстрактному системному администратору территории обнаружилось что-то контрафактное.
Директор школы Поносов — все-таки исключение, а типичной является ситуация, когда за «пиратку» привлекают к ответственности компьютерных дел мастера, обслуживающего какую-нибудь контору. В один прекрасный день приходит проверка, которая обнаруживает на конторских компьютерах пиратские программы и интересуется: а кто же их установил. Такой человек находится довольно быстро, а поскольку речь идет об организации и компьютеров несколько, то контрафакта на «уголовный» размер обычно набирается. Следствие, суд, условный срок, заметка в местной газете об очередной победе борцов с высокими технологиями и о вреде пиратства. Стандартный набор.
Правда, сперва я хочу испортить вам удовольствие от предвкушения развязки этой статьи и дать искомый ответ в самом начале. Он прост: чтобы избежать ответственности за «пиратство», не нужно ставить ничего «пиратского». А теперь — можете читать дальше.
«Отмазка» найдена?
Пальму первенства в дискуссиях о том, как выйти сухим из воды, удерживает предложение обратиться к вышестоящему начальству с письмом и предупредить о недопустимости использования на рабочих местах контрафакта. Следует вручить оное письмо под роспись и наслаждаться жизнью. Дающие такой совет уверены, что это позволит переложить ответственность на начальника, оставив непосредственного исполнителя чистым. Вот на этом устойчивом и вредном заблуждении я бы и хотел остановиться поподробнее.
Вообще, склонность соотечественников давать советы в тех областях, в которых они ничего не соображают, меня всегда поражала. Любопытно, много ли из советчиков пытались применить этот прогрессивный метод на практике? Боюсь, таковых не обнаружится. А если и обнаружатся, то чутье подсказывает, что о встрече с милицией, которой было предъявлено такое письмо, предъявлявший предпочтет не вспоминать очень долго.
Давайте посмотрим, как, собственно, происходит привлечение к уголовной ответственности. Следствию необходимо, среди прочего, доказать умысел подозреваемого на совершение преступления, то есть подтвердить его осведомленность о том, что устанавливаемые программы — контрафактные, и сознательно желание их установить. Тут есть несколько способов.
Самый простой — сотрудники милиции приходят «побеседовать» с руководством организации. «Беседой» это мероприятие называется исключительно в протоколах, а к чему его отнести с точки зрения повседневного лексикона — даже и не знаю. В «Крестном отце» было такое выражение: «предложение, от которого невозможно отказаться», — вот, очень подходит… Во время «беседы» делается предупреждение о недопустимости использования нелицензионного софта, причем под расписку. Если вас навестили такие вот «собеседники» — пора переводить свой компьютерный парк под «Линукс». Ибо времени осталось совсем мало. Неизбежно нагрянет следующая проверка, после которой может быть возбуждено уголовное дело. И в деле этом будет фигурировать расписка о том, что вы соответствующим образом предупреждены…
Скажем, в случае с Поносовым прокуратура именно так и поступила: после проверки, состоявшейся в мае прошлого года, с директора школы взяли расписку о том, что он знает о контрафактном характере программ, обязуется их не использовать и не удалять. Правда, потом ревизоры забыли о школе и изъяли компьютеры только в августе, через три месяца после проверки. Зато потом, когда в суде дело начало «сыпаться», расписка пригодилась: обвинение стало утверждать, что состав преступления образуют действия Поносова по использованию компьютеров, совершенные после проверки, когда он уже был официально предупрежден о контрафакте той самой распиской… Не помогло.
Это наименее хлопотный путь — чуть более трудолюбивые милиционеры привлекают руководство организации к административной ответственности по статье 7.12 КоАП. Разумеется, потом административный материал приобщается к уголовному делу, где играет ту же роль, что и расписка. Творческие натуры могут придумать что-нибудь еще: например, в одном из обвинительных заключений в качестве доказательства фигурировала видеозапись «беседы», в ходе которой оперуполномоченный разъяснял будущему подсудимому, как отличить пиратский компакт от лицензионного.
Но и в том случае, если всего этого нет, не беда. Суды у нас сознательные и понимают важность борьбы с контрафактом. Поэтому, если написать в обвинительном заключении что-нибудь вроде «гражданин Н., обладая специальными познаниями в области компьютерной техники, не мог не знать, что программы… являются контрафактными», то суд отнесется к такому доказательству вины с пониманием и даже приговор перепишет. Железная ведь улика…
Вы все еще верите, что в подобных делах будет применяться презумпция невиновности? Забудьте о ней: мы в России, которой надо вступать в ВТО (а вот об этом не забывайте).
А теперь поставьте себя на место следствия и попробуйте ответить на вопрос: чем для вас будет то самое «письмо начальнику» о недопустимости контрафактных программ? Да-да: системный администратор, применивший такой прогрессивный способ ухода от ответственности, своими руками принесет милиции основное доказательство вины! На блюдечке.
Кстати, возможна еще одна граничная ситуация — когда организация «легализует» софт, покупая соответствующее количество «лицензионных» экземпляров. Тут не полениться и переустановить все, если не хотите неприятностей. А то может произойти следующее: после «экспертизы», которая покажет «контрафактность программ», наличие лицензионных дисков, которые будут предъявлены следствию, сыграет роль того самого письма. В самом деле: поставили «пиратку», потом купили «лицензию» — значит, знали, что программы пиратские.
Я же говорил: забудьте о презумпции невиновности! В ВТО с нею не пускают.
Виды ответственности
Компьютерно-программные «заморочки» — это самый настоящий «черный ящик» для следствия и судов, так что протащить от возбуждения до приговора можно любую чушь: наши судьи будут продолжать думать, что это она и есть, чистая, ничем не замутненная законность.
Но и подсудимые тоже хороши. Байку о «письме» мог придумать только человек, абсолютно незнакомый со смыслом такого понятия, как «ответственность». Впрочем, это всеобщая болезнь: то и дело приходится читать не только форумные обсуждения, но и статьи, авторы которых просто путают виды ответственности. А ведь она — разная…
Да, действительно, с помощью того письма, с обсуждения которого я начал статью, можно «избавиться от ответственности». Но только от одного ее вида — «дисциплинарной», которая заключается во взысканиях, накладываемых в рамках Трудового кодекса (выговора, предупреждения и т. д.). На административную или уголовную это не повлияет никак. В самом деле: представьте себе письмо от одного соучастника кражи другому, в котором говорится, кто и как будет нести ответственность в случае поимки. Почему-то в случае с кражей до этого никто не додумался…
Впрочем, вопрос о видах ответственности не по зубам даже некоторым прокурорским работникам: я снова о «деле Поносова». Главным поводом для привлечения директора к ответственности стало мнение следствия о том, что он-де «обязан обеспечить соблюдение законодательства» в школе, будучи ее главой. Действовала прокуратура явно по аналогии со 143-й статьей УК, которая предусматривает ответственность за нарушения правил охраны труда. Вот там действительно применяется такой порядок: директор предприятия своим приказом устанавливает должностное лицо, ответственное за безопасность труда, которое, в свою очередь, издает инструкции о технике безопасности и знакомит с ними работников. Если ничего подобного не сделано, а с кем-то из работников случится неприятность, возможно привлечение к ответственности этого должностного лица.
Но с охраной труда ситуация принципиально иная. Обязанность соблюдения ее правил возложена на работодателя открытым текстом: в Трудовом кодексе этому посвящено несколько разделов, с тридцать четвертого по тридцать шестой. Да и статья 143 УК, карающая за нарушение правил ТБ, звучит принципиально иначе, предусматривая ответственность за нарушение, совершенное «лицом, на котором лежали обязанности» по соблюдению правил охраны труда. По умолчанию они возложены Трудовым кодексом на руководителя предприятия, если он ни на кого не переложил эти заботы своим приказом.
А вот для софта, установленного на предприятии, ничего подобного в законодательстве не закреплено. Чтобы прокуратура оказалась права, нужен закон, возлагающий на руководителя предприятия обязанности по контролю за лицензионностью программного обеспечения (а не по абстрактному «соблюдению законодательства»). Кроме того, должны существовать правила такого контроля, сформулированные в явном виде, с которыми все обязанные их соблюдать должны быть ознакомлены. В противном случае, продолжая такую логику, можно было бы очень далеко зайти и привлекать к ответственности начальника организации вообще за все совершенное на ее территории, если виновного не нашли. Например, за убийство…
К счастью, это не так, и в большинстве случаев обвиняемым становится только админ — как «обладатель специальных познаний», априори считающийся знающим о «пиратском» характере софта и, стало быть, виновный во всем. Тем не менее, возможна ситуация, когда он потащит за собой начальника, и будут они вместе «организованной группой», сам он «исполнителем», а начальник — «организатором». Те, кто поставил себя на место милиции, вероятно, уже догадались, в каком случае такое возможно. Да-да, если начальник все-таки получит то самое «письмо», с обсуждения которого я начал, да еще и под роспись. В этом случае у следствия будут доказательства того, что начальник знал о контрафакте, и он тоже понесет ответственность.