Текст книги "Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных"
Автор книги: David J. Hand
сообщить о нарушении
Текущая страница: 2 (всего у книги 3 страниц)
Покупатель подходит к кассе супермаркета, выкладывает на ленту выбранные товары, лазер сканирует их штрихкоды, и каждый раз кассовый аппарат издает звуковой сигнал, сообщая, что суммирует цены. В результате этой процедуры покупатель получает чек и расплачивается. Однако история его покупки на этом не заканчивается. Данные о купленных товарах и их стоимости отправляются в базу данных. Позже статистики и аналитики будут изучать их, создавая картину поведения покупателей на основе того, что они купили, какие из товаров были куплены вместе и, конечно, какие клиенты покупали эти товары. Казалось бы, здесь просто нельзя ничего пропустить. Данные о транзакциях собираются во всех случаях, кроме отключения электроэнергии, сбоя кассового аппарата или мошенничества.
Вроде бы собираются все данные. Иначе говоря, в базу попадают данные не по некоторым транзакциям или некоторым купленным товарам, а по всем транзакциям, совершенным всеми покупателями, и по всем товарам в конкретном супермаркете. Такие данные еще называют исчерпывающими.
Однако так ли это? Ведь собранные данные описывают то, что произошло на прошлой неделе или в прошлом месяце. Конечно, польза от них несомненна, но если мы управляем супермаркетом, то, вероятно, нам будет интересно, что произойдет завтра, на следующей неделе или через месяц. Мы бы хотели знать, кто, что, когда и сколько купит в будущем. Какие товары могут закончиться на полках, если не заказать их впрок? Как могут измениться предпочтения людей в отношении брендов? Другими словами, нам нужны данные, которые не собираются. Это связано с самой природой времени, и здесь фигурируют темные данные DD-тип 7: данные, меняющиеся со временем.
Помимо этого, интересно узнать, как вели бы себя люди, если бы мы, скажем, более плотно заставили товарами полки, или разместили их как-то иначе, или изменили часы работы супермаркета. Такие данные называются контрфактуальными, поскольку они противоречат реальным фактам – они о том, что случилось бы, если бы произошло нечто, чего на самом деле не происходило. Контрфактуальные данные классифицируются как DD-тип 6: данные, которые могли бы существовать.
Излишне говорить, что контрфактуальные данные интересуют не только менеджеров супермаркетов. Все мы принимаем те или иные лекарства и при этом, разумеется, доверяем врачу, который их прописал, предполагая, что лекарства прошли тестирование и были признаны эффективными. Но как бы вы себя чувствовали, если бы вдруг обнаружили, что ваши лекарства не были проверены? И не было собрано данных о том, помогают ли они вообще? Вдруг они делают только хуже? А если они даже и были протестированы и рекомендованы, то ускоряют ли эти лекарства на самом деле процесс выздоровления? А может быть, их не сравнивали с другими препаратами, чтобы оценить эффективность? В истории со слоновьим порошком такое сравнение принятых мер с бездействием быстро показывает, что для отпугивания слонов отсутствие действия так же эффективно, как и применение порошка. (А это, в свою очередь, может привести к следующему, не менее полезному выводу, что никаких слонов, которых надо отпугивать, просто нет.)
Возвращаясь к понятию «исчерпывающие данные», стоит отметить, что часто контекст делает явно бессмысленной саму возможность иметь «все» данные. Возьмите, например, свой вес. Узнать его легко – достаточно встать на весы. Однако уже не так легко будет повторно получить те же данные. Даже если сразу же встать на весы снова, результат, скорее всего, будет немного другим, особенно если попытаться измерить его с точностью до грамма. Никакие физические измерения нельзя считать абсолютно точными в результате погрешностей или случайных колебаний, возникающих вследствие очень незначительных изменений условий (DD-тип 10: ошибки измерения и неопределенность). Для решения этой проблемы ученые, измеряющие параметры какого-либо явления – скажем, скорость света или заряд электрона, проводят серию измерений, а затем усредняют значения. Можно сделать тысячи и миллионы измерений, но очевидно, что невозможно сделать «все» измерения. В этом контексте просто не существует понятия «все», а значит, не существует и исчерпывающих данных.
Следующий тип темных данных хорошо иллюстрируется примером знаменитых лондонских автобусов. Если вам доводилось на них ездить, то, скорее всего, вы помните, что они, как правило, набиты битком. И все же данные показывают, что средняя заполняемость одного автобуса составляет всего 17 человек. Но чем можно объяснить это кажущееся противоречие? Кто-то манипулирует цифрами?
Немного поразмыслив, вы поймете, что ответ довольно прост – в основном мы попадаем в автобусы в часы пик, именно поэтому они и набиты битком. Вот почему большинство людей видит автобусы переполненными. В то же время о пустом автобусе будет просто некому сообщить, что он пуст (разумеется, не считая водителя). Этот пример иллюстрирует темные данные DD-тип 3: выборочные факты. Иногда, впрочем, это может быть необходимым следствием сбора данных, и в таком случае мы получаем DD-тип 4: самоотбор. Я приведу два моих любимых примера, похожих и в то же время несопоставимых по своему масштабу.
Первый – известная карикатура, на которой изображен человек, стоящий перед большой картой, какие обычно висят на вокзалах. В центре карты находится красная точка с надписью «Вы здесь». «Как?! – думает потрясенный человек. – Как они узнали это?» Они узнали, потому что отталкивались от простого факта, что каждый, кто смотрит на эту красную точку, должен находиться непосредственно перед ней. Мы имеем дело с очень узкой выборкой, отсекающей всех, кто находится в другом месте.
Данные могут быть собраны, только если имеется кто-то или что-то для их сбора, например измерительный прибор. Второй пример самоотбора связан с антропным принципом, который, по сути, говорит, что Вселенная должна быть такой, какая она есть, а иначе нас бы просто не существовало и мы бы не смогли наблюдать ее. У нас нет данных из разных вселенных по одной простой причине – мы там не были. Это означает, что любые выводы, которые мы делаем, неизбежно ограничиваются нашей Вселенной (а точнее, вселенными такого же типа): как и в случае с бостонскими выбоинами, может происходить масса всего, о чем мы не знаем.
Из этого примера наука может извлечь для себя важный урок. Теория может идеально согласовываться с данными, но сами данные имеют ограничения. И это относится не только к сверхвысоким температурам, геологическим эпохам или космическим расстояниям. Если вы экстраполируете теорию за пределы, в которых были собраны данные, то всегда есть вероятность того, что она окажется недействительной. Экономические теории, основанные на данных, собранных в период процветания, часто оказываются несостоятельными во время рецессии, а законы Ньютона работают только тогда, когда речь не идет о крошечных объектах, высоких скоростях и прочих крайностях. В этом и заключается суть темных данных DD-тип 15: экстраполяция за пределы ваших данных.
У меня есть классная футболка от сайта веб-комиксов xkcd.com, на которой общаются два персонажа. Один говорит: «Раньше я думал, что корреляция подразумевает причинность». В следующем кадре он продолжает: «Потом я прошел курс статистики, и теперь я в этом не уверен». Другой персонаж говорит ему: «Похоже, курс помог», а первый отвечает: «Возможно, но не факт»[7]7
http://archive.defense.gov/Transcripts/Transcript.aspx?TranscriptID=2636, accessed 31 July 2018.
[Закрыть].
Корреляция просто показывает, что две вещи меняются синхронно, например положительная корреляция означает, что когда одно становится большим, то и другое увеличивается, а когда первое уменьшается, то и второе поступает точно так же. Это в корне отличается от причинно-следственной связи. Говорят, что одно становится причиной другого, если изменения первого приводят к изменениям второго. Но проблема в том, что две вещи могут изменяться вместе, но при этом изменения одной не являются причиной изменений другой. Например, наблюдения в начальной школе показывают, что дети с более значительным словарным запасом в среднем выше. Но вряд ли вам придет в голову, что причиной этого являются родители, которые, желая иметь более рослое потомство, нанимают репетиторов для расширения словарного запаса своих детей. Намного вероятнее, что существуют какие-то темные данные, третий фактор, который объясняет корреляцию, например разный возраст детей. Когда персонаж на моей майке говорит «Возможно, но не факт», он признает, что пройденный курс статистики мог изменить его понимание, но при этом допускает наличие и других причин. Далее в книге мы еще столкнемся с поразительными примерами темных данных этого типа, а именно с DD-типом 5: неизвестный определяющий фактор.
Существуют и другие типы темных данных, о которых мы будем говорить. Напомню, что цель этой книги – рассказать о существующей на сегодня классификации темных данных, объяснить способы их идентификации, наглядно продемонстрировать оказываемое ими влияние и показать пути решения проблем, которые они вызывают, а также то, как темные данные можно использовать. Список типов темных данных приводится в конце этой главы, а краткое описание каждого из них вы найдете в главе 10.
Не было ничего необычного, поэтому мы не придали этому значенияСледующий пример служит иллюстрацией того, что темные данные могут иметь катастрофические последствия и что они не являются специфической проблемой больших наборов данных.
28 января 1986 г. на 73-й секунде полета на высоте около 15 км космический челнок Challenger превратился в гигантский огненный шар в результате неисправности ракеты-носителя. Отсек с экипажем какое-то время еще продолжал двигаться по восходящей траектории, достиг отметки 19 км и рухнул в Атлантику. Все семь членов экипажа погибли.
Впоследствии президентская комиссия установила, что руководители среднего звена NASA нарушили правила безопасности, требующие передачи данных по цепочке управления. Все объяснялось экономическими причинами: необходимо было уложиться в график, ведь дата старта уже переносилась с 22-го на 23-е, потом на 25-е, а затем и на 26 января. Поскольку прогноз погоды на этот день обещал неприемлемо низкую температуру, запуск снова отложили на день. Обратный отсчет прошел нормально, индикаторы показали, что замок люка закрылся должным образом. Однако к тому моменту поднялся сильный ветер, и запуск шаттла вновь пришлось отложить.
В ночь на 27 января состоялась трехчасовая телеконференция между представителями компании Morton Thiokol, построившей разгонные ступени, сотрудниками NASA в Центре космических полетов Маршалла и людьми из Космического центра Кеннеди. Ларри Уир из Центра космических полетов Маршалла попросил представителей Morton Thiokol проверить возможное влияние низких температур на твердотопливные ракетные двигатели. В ответ команда Morton Thiokol указала на то, что при низких температурах уплотнительные кольца становятся более жесткими.
Уплотнительные кольца представляли собой манжеты из резиноподобного материала с диаметром поперечного сечения около 6 мм, которые устанавливались по окружности в стыки между четырьмя сегментами ракетного двигателя. Твердотопливные ракетные ускорители имели 45 м в высоту и 11 м в диаметре. Во время запуска зазор величиной 0,1 мм, который в обычных условиях полностью герметизировался уплотнительными кольцами, открывался максимум до 1,5 мм и оставался открытым в течение каких-то 0,6 секунды.
Роберта Эбелинга из Morton Thiokol беспокоило то, что при низких температурах повышение жесткости уплотнительных колец может привести к потере способности герметизировать зазоры между сегментами, пока они будут в течение 0,6 секунды оставаться увеличенными на 1,4 мм. На телеконференции Роберт Лунд, вице-президент Morton Thiokol, заявил, что рабочая температура уплотнительного кольца не должна быть ниже границы подтвержденной температуры запуска 53 ºF (около 12 ºC). За этим последовала довольно горячая дискуссия, продолжавшаяся и после окончания конференции на уровне личных бесед. По ее итогам Morton Thiokol пересмотрела свою позицию и согласилась рекомендовать запуск.
Ровно через 58,79 секунды с момента старта из правого ракетного двигателя в районе последнего стыка вырвалось пламя. Оно быстро превратилось в мощную струю, которая выломала стойки, соединяющие ракетный двигатель с внешним топливным баком. Двигатель развернуло и ударило сначала о крыло орбитального аппарата, а затем о топливный бак, в результате чего этот резервуар, наполненный жидкими водородом и кислородом, попал в струю пламени. На 64-й секунде полета поверхность бака получила повреждения, а еще через 9 секунд огромный огненный шар поглотил Challenger, и он разлетелся на несколько больших частей[8]8
https://er.jsc.nasa.gov/seh/explode.html.
[Закрыть].
Мы не должны ни на секунду забывать, что космические полеты всегда связаны с риском. Ни одна миссия, даже при самых хороших условиях, не является безопасным предприятием – риск просто не может быть сведен к нулю. И всегда существуют противоречивые требования.
Кроме того, как и в любом другом подобном инциденте, установить какую-то одну причину произошедшего бывает довольно сложно. Было ли это вызвано нарушением правил безопасности, неоправданным давлением на менеджеров по экономическим соображениям, следствием ужесточения бюджета или, возможно, влиянием СМИ, которые после семикратного откладывания запуска предыдущего челнока Columbia встречали каждую новую задержку саркастическими насмешками? Вот что сказал, например, известный журналист Дэн Ратер в выпуске вечерних новостей в понедельник, 27 января, после того, как старт Challenger был отложен в четвертый раз: «Еще одна дорогостоящая и позорная задержка запуска космического челнока. На этот раз виноватыми оказались плохой болт на крышке люка и гром среди ясного неба». А может быть, причина кроется в политическом давлении? В конце концов, интерес к этому запуску был значительно выше, чем к предшествующим, потому что в число экипажа впервые вошел рядовой гражданин США, учительница Криста Макалиф и на вечер 28 января было запланировано выступление президента.
В таких ситуациях обычно переплетаются несколько факторов. Их запутанные и неопределенные взаимодействия могут привести к неожиданным последствиям. Но в нашем случае был еще один фактор: темные данные.
После катастрофы комиссия, возглавляемая бывшим госсекретарем Уильямом Роджерсом, обратила внимание на то, что не все результаты полетов, которые показывали опасное состояние уплотнительных колец, были включены в диаграмму, обсуждаемую на телеконференции (темные данные DD-тип 3: выборочные факты, а также DD-тип 2: данные, о которых мы не знаем, что они отсутствуют). На с. 146 отчета сказано следующее: «Менеджеры сопоставляли с температурой окружающей среды лишь те полеты, во время которых были зафиксированы критические состояния уплотнительных колец, но не рассматривали частоту их возникновения на основе данных всех полетов»[9]9
https://xkcd.com/552/; отчет комиссии Роджерса см. https://forum.nasaspaceflight.com/index.php?topic=8535.0.
[Закрыть]. Именно в этом и заключается истинная причина трагедии: данные некоторых полетов не были включены в анализ. Ранее я уже показал, к каким проблемам может привести такое игнорирование данных.
Далее в докладе говорится: «При таком сопоставлении [то есть с использованием ограниченного набора данных] не было заметно отклонений от нормы в распределении критических состояний уплотнительного кольца по всему диапазону температур при запуске от 53 до 75 ºF [от 12 до 24 ºC}». Это означает, что нет очевидной зависимости между температурой воздуха и числом уплотнительных колец, показывающих критическое состояние. Тем не менее «если рассматривать всю историю полетов, включая “нормальные” полеты без каких-либо разрушений или прорывов газа, результаты сопоставления существенно отличаются». Иначе говоря, если вы включите все данные, то получите другую картину. Фактически не включенные в анализ полеты, которые осуществлялись при более высоких температурах, с гораздо большей вероятностью не имели проблем, и это были те самые темные данные, не учтенные на графике. Ведь если вывод о том, что, чем выше температура, тем меньше вероятность возникновения проблемы, верен, то верно и обратное: чем температура ниже, тем выше вероятность возникновения этой проблемы. А согласно прогнозу температура воздуха на момент запуска была 31 ºF или около 0 ºC.
В этом же разделе доклада сделан следующий вывод: «Анализ полной истории температур при запуске указывает на то, что критическое состояние уплотнительного кольца становится почти неизбежным, если температура стыка меньше 65 ºF [18 ºC]» (курсив мой).
Ситуация проиллюстрирована ниже на двух диаграммах. На рис. 1, а показана диаграмма, которая обсуждалась на телеконференции. Это график зависимости количества поврежденных уплотнительных колец при каждом запуске от температуры в градусах Фаренгейта. Так, при 53 ºF – самой низкой температуре воздуха при запусках в прошлом – три уплотнительных кольца достигали критического состояния, а при 75 ºF, что было самой высокой температурой, при которой осуществлялся запуск, критического состояния достигли два уплотнительных кольца. Мы видим, что нет устойчивой связи между температурой при запуске и числом поврежденных уплотнительных колец.
Однако если мы добавим отсутствующие данные по запускам, при которых не наблюдалось критических состояний уплотнительных колец, то получим совсем иную картину, изображенную на рис. 1, b. И закономерность становится очевидной. Фактически все запуски, которые произошли при температуре ниже 65 ºF, приводили к критическому состоянию уплотнительных колец, и лишь 4 из 21 запуска, осуществленных при более высоких температурах, дали подобный результат. На диаграмме четко видна закономерность – чем ниже температура, тем выше риск. И что еще хуже, прогнозируемая температура была намного ниже минимальной, при которой ранее проводились запуски (DD-тип 15: экстраполяция за пределы ваших данных).
Отсутствующие данные имеют решающее значение для понимания происходящего.
В истории Challenger, однако, остался один загадочный момент. Хотя официальному расследованию потребовался не один месяц, чтобы сделать выводы о причинах аварии, цена акций Morton Thiokol упала на 11,86 % прямо в день катастрофы. При этом изменения цены акций компании даже на 4 % были редкостью. Котировки акций других компаний, принимавших участие в создании ракеты-носителя, также упали, но существенно меньше. Такое ощущение, что рынок знал о настоящей причине аварии. Неужели снова темные данные?
Сила темных данныхЭтот последний пример показывает, насколько катастрофическими могут стать ситуации, когда не обращают внимания на темные данные. А они, по всей видимости, представляют реальную опасность. Однако картина все же не настолько мрачная. Оказывается, само осознание факта существования темных данных уже может дать нам преимущество. Что-то вроде принципа дзюдо для науки о данных; и в этом дзюдо есть конкретные приемы, которые я опишу в части II книги, а пока просто назову несколько из них.
В главе 2 пойдет речь о так называемых рандомизированных контролируемых исследованиях. В главе 9 мы вновь вернемся к ним, но рассмотрим с иного ракурса. Для примера возьмем медицинские исследования, когда сравнивают два метода лечения и при этом назначают их двум группам пациентов. Однако просто разделить людей на группы недостаточно. Если известно, кому какое лечение назначено, это может повлиять на результаты – исследователи могут относиться к одной из групп более внимательно, чем к другой. Например, когда сравнивают новый непроверенный метод лечения со стандартным, исследователи, порой даже не осознавая этого, склонны тщательнее отслеживать побочные эффекты и проводить измерения в первой группе. Чтобы преодолеть эту потенциальную необъективность, в подобных исследованиях распределение методов лечения скрывают от исследователей (DD-тип 13: намеренно затемненные данные). В таких случаях говорят о слепом исследовании, чтобы указать на темные данные.
Другой хорошо известный метод, использующий темные данные, – выборочные опросы. Возможно, мы захотим узнать мнение горожан или покупателей конкретной продукции, но выяснять мнение всех без исключения слишком затратно. К тому же это занимает много времени, и мнения могут измениться. Альтернативой тотальному опросу является опрос отдельных представителей группы. Мнения тех, кто не попадает в наш опрос, и будут темными данными. Вроде бы такая стратегия выглядит рискованно – она явно напоминает историю с базой данных TARN. Но оказывается, что, используя продуманные методы отбора людей для опроса, мы можем получить точные и достоверные ответы, при этом быстрее и дешевле, чем если бы обращались к каждому.
Третий способ заставить темные данные работать на нас заключается в так называемом сглаживании данных. В главе 9 мы увидим, что этот метод сродни выявлению незамеченных и не поддающихся наблюдению видов темных данных (DD-тип 14: фальшивые и синтетические данные) и позволяет получить более точные оценки и прогнозы.
Другие способы использования темных данных, которые носят весьма экзотические названия, мы также рассмотрим в главе 9. Некоторые из них широко применяются в таких областях, как машинное обучение и искусственный интеллект.