Текст книги "Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим"
Автор книги: Виктор Майер-Шенбергер
Соавторы: Кеннет Кукьер
сообщить о нарушении
Текущая страница: 5 (всего у книги 18 страниц) [доступный отрывок для чтения: 5 страниц]
Глава 4
Корреляция
В 1997 году 24-летний Грег Линден на время отложил свою докторскую диссертацию в области искусственного интеллекта в Вашингтонском университете, чтобы поработать над местным стартапом по продаже книг в интернете. Этот онлайн-магазин появился всего два года назад, но уже вел оживленную торговлю. «Мне очень понравилась идея продавать книги, продавать знания, а еще помогать людям находить следующий источник знаний, с которым они с удовольствием бы ознакомились», – вспоминает Грег. Этим магазином был Amazon.com, и Линден был нанят в качестве инженера-программиста для обеспечения бесперебойной работы сайта.
Среди сотрудников компании Amazon были не только технари. В то время там работала дюжина литературных критиков и редакторов, которые писали отзывы и предлагали новые наименования. Хотя история сайта Amazon хорошо знакома большинству людей, мало кто помнит о том, что его контент первоначально создавался вручную. Редакторы выбирали наименования, которые рекомендовались на веб-страницах Amazon. Редакторский отдел отвечал за так называемый «голос Amazon», который по праву считался гордостью компании и источником ее конкурентного преимущества. Примерно в то же время вышла статья в Wall Street Journal, в которой сотрудников отдела чествовали как самых влиятельных литературных критиков страны, поскольку им удавалось стимулировать высокий уровень продаж.
Затем Джефф Безос, основатель и СЕО[53]53
Chief Executive Officer – главный исполнительный директор.
[Закрыть] Amazon, начал экспериментировать с многообещающей идеей: что если рекомендовать конкретные книги отдельным клиентам в зависимости от их предыдущих покупок? С момента начала деятельности Amazon компания накопила массу данных о каждом клиенте: о покупках, о просмотренных, но не приобретенных книгах и времени, затраченном на их просмотр, а также о книгах, приобретенных одновременно.
Объем данных был настолько внушительным, что поначалу Amazon приходилось обрабатывать их обычным способом – путем отбора выборки и ее анализа с целью выявить сходство между клиентами. Рекомендации выходили приблизительными. Купив книгу о Польше, вы получили бы массу предложений по Восточной Европе, а купив книгу о детях – завалены подобной литературой. «Как правило, вам предлагались небольшие вариации на тему вашей предыдущей покупки. И так до бесконечности, – вспоминает Маркус Джеймс, литературный критик Amazon в 1996–2001 годах, в своих мемуарах Amazonia. – Создавалось ощущение, что вы отправились за покупками с бестолковым советчиком».[54]54
Цитата Маркуса: Marcus, James. Amazonia: Five Years at the Epicenter of the Dot.Com Juggernaut // The New Press. – June, 2004. – P. 199.
[Закрыть]
Грег Линден нашел решение. Он понял, что рекомендательной системе, по сути, не нужно сравнивать одних людей с другими, что к тому же было технически обременительно. Нужно всего лишь найти ассоциации среди самих продуктов. В 1998 году Линден и его коллеги заявили патент на метод совместной фильтрации «предмет-предмет». Изменение подхода принесло большую пользу.
Поскольку расчеты проводились заранее, рекомендации выдавались молниеносно. К тому же они были универсальными и включали товары из разных категорий. Поэтому, когда компания Amazon расширила ассортимент, рекомендательная система могла предлагать не только книги, но и фильмы или, скажем, тостеры. Кроме того, рекомендации стали намного точнее, поскольку система использовала все данные. «В отделе шутили, что, если система отлично себя зарекомендует, на сайте Amazon достаточно будет показывать только одну книгу – ту, которую вы купите следующей», – вспоминает Линден.[55]55
Линден: интервью Кукьеру (март 2012 года).
[Закрыть]
Теперь перед компанией стоял выбор, что отображать: отзывы, написанные штатными литературными критиками Amazon, или контент, созданный компьютером (личные рекомендации, списки бестселлеров и пр.); то, что говорят критики, или то, на что указывают действия клиентов? Это в буквальном смысле была борьба человека против компьютера.
Линден сравнил продажи, которые последовали за отзывами литературных критиков, и контент, созданный компьютером. Разница оказалась внушительной. По словам Линдена, материалы, полученные на основе данных, принесли практически в сто раз больше продаж. Возможно, компьютеру и было неизвестно, почему клиент, читающий Хемингуэя, пожелает приобрести Фрэнсиса Скотта Фицджеральда. Но, похоже, это не имело значения. Продажи текли рекой. Редакторам озвучили точный процент продаж, которые компания Amazon недополучала при каждой публикации их отзывов в интернете, и отдел распустили. «Мне было очень жаль, что результат редакторского отдела оказался ниже, – вспоминает Линден. – Но данные не лгут, а цена была очень высока».
Сегодня считается, что третью всех своих продаж компания Amazon обязана своим рекомендательным системам, а также системам персонализации. С их помощью компания не только вытеснила с рынка большие книжные и музыкальные магазины, но и сотни местных книготорговцев, которые думали, что их личный подход укроет их от ветра перемен. Работа Линдена поистине произвела революцию в сфере электронной коммерции, поскольку этот метод был подхвачен практически всеми. Компания Netflix, которая занимается сдачей фильмов напрокат в интернете, три четверти новых заказов получает благодаря рекомендациям.[56]56
Информация о ценах Netflix: Amatriain, Xavier. Netflix Recommendations: Beyond the 5 stars (Part 1) / Xavier Amatriain and Justin Basilico // Блог Netflix. – 6.04.2012.
[Закрыть] Следуя примеру Amazon, тысячи сайтов могут рекомендовать продукты, контент, друзей и группы для подписки, не зная толком, чем это все может заинтересовать их пользователей.
Для рассматриваемой задачи знание почему может быть полезно, но не столь важно. А вот знание что приводит к конкретным действиям. Эта истина способна изменить помимо электронной коммерции многие отрасли. Продавцам из разных сегментов рынка долгое время твердили, что им нужно понять, что заставляет клиентов совершить покупку, понять причины их решений. Высоко ценились профессиональные навыки и многолетний опыт работы. Но большие данные показывают, что есть и другой, в некотором смысле более эффективный подход. Рекомендательным системам Amazon удалось выявить любопытные корреляции, не зная их первопричины. Так что знания что, а не почему вполне достаточно.
Прогнозы и предрасположенности
Корреляции полезны в области малых данных. Но по-настоящему они раскрывают свой потенциал в контексте больших данных. С их помощью мы можем рассматривать явления проще, быстрее и отчетливее, чем раньше.
По сути, корреляция – количественное выражение статистической связи между двумя значениями. Сильная корреляция означает, что при увеличении одних значений данных другие значения, вероятнее всего, тоже увеличатся. Такие корреляции мы наблюдали, когда описывали Google Flu Trends: чем больше людей в конкретном географическом регионе ищут определенные ключевые слова в поисковой системе Google, тем выше заболеваемость гриппом в этом регионе. С другой стороны, слабая корреляция означает, что при увеличении одних значений данных другие значения практически не изменятся. Так, если провести корреляцию между размером обуви людей и тем, насколько они счастливы, мы обнаружим, что размер обуви мало что может рассказать о счастье человека.
Корреляции помогают анализировать объекты, выявляя не принципы их работы, а полезные закономерности. Безусловно, даже сильные корреляции не идеальны. Вполне возможно, что похожее поведение двух объектов – не более чем совпадение. Нет никаких гарантий, что даже сильные корреляции сумеют объяснить каждый случай. Не каждая рекомендация книг на сайте Amazon безошибочна. Корреляции дают не определенность, а лишь вероятность. Но в случае сильной корреляции между явлениями высока вероятность, что они взаимосвязаны. Многие могут подтвердить это, указав на полку, уставленную книгами по рекомендациям Amazon.
Корреляции дают возможность определять ценные закономерности явлений, чтобы подмечать их в настоящем и прогнозировать в будущем. Например, если событие А часто сопровождается событием B, нужно следить за B, чтобы спрогнозировать А. Такой подход позволяет уловить, чего вероятнее всего ожидать от события А, даже если мы не можем измерить или проследить его напрямую. Более того, это позволяет нам спрогнозировать дальнейшие события. Конечно, корреляции не могут предсказывать будущее – они лишь могут спрогнозировать его с определенной вероятностью. Но и это чрезвычайно ценно.
Walmart – крупнейшая в мире сеть розничной торговли, которая насчитывает более двух миллионов сотрудников. Ее объем продаж составляет около 400 миллиардов долларов – больше, чем ВВП большинства стран. Перед наплывом огромных массивов данных, порожденных интернетом, компания Walmart располагала, пожалуй, самым большим хранилищем данных среди коммерческих компаний в США. В 1990-х годах она произвела переворот в розничной торговле, внедрив учет всей продукции в виде данных с помощью сети Retail Link. Компания Walmart предоставила поставщикам возможность самим контролировать темпы и объемы продаж и запасов. Благодаря такой прозрачности Walmart удалось вынудить поставщиков самостоятельно заботиться о своей логистике. В большинстве случаев Walmart не выступает «собственником» продукта до момента продажи, тем самым снимая с себя риск обесценения запасов и снижая затраты. По сути, с помощью данных Walmart удалось стать крупнейшим комиссионным магазином.
О чем могут рассказать все эти накопленные данные, если их проанализировать должным образом? В сотрудничестве с экспертом в области обработки чисел Teradata (ранее – почитаемая корпорация NCR) компания Walmart стремилась выявить интересные корреляции. В 2004 году она взялась за изучение своих гигантских баз данных прошлых операций, которые включали не только информацию о товарах, приобретенных каждым клиентом, и общей сумме покупки, но и об остальных товарах в корзине, о времени суток и даже о погоде. Это дало компании возможность заметить, что перед ураганом росли объемы продаж не только фонариков, но и печенья PopTarts, а также сладких сухих американских завтраков. Поэтому, как только надвигалась буря, в магазинах Walmart поближе к витрине выкладывались коробки Pop-Tarts и припасы на случай урагана для удобства клиентов, снующих снаружи и внутри магазина, и, разумеется, для увеличения продаж.[57]57
Walmart и Pop-Tarts: Hays, Constance L. What Wal-Mart Knows About Customers’ Habits // NYT. – November 14, 2004.
[Закрыть]
В прошлом специалистам из главного офиса пришлось бы заранее собрать данные и проверить идею. Теперь же, имея столько данных и улучшенные инструменты работы с ними, выявлять корреляции стало куда быстрее и дешевле.
Корреляционный анализ показал свою высокую эффективность задолго до больших данных. Эту концепцию в 1888 году выдвинул сэр Фрэнсис Гальтон, двоюродный брат Чарльза Дарвина, заметив взаимосвязь между ростом мужчин и длиной их предплечий. Математические расчеты, лежащие в основе корреляционного анализа, относительно просты и надежны. Благодаря этим характерным особенностям анализ стал одним из наиболее широко используемых статистических показателей. Но до перехода на большие данные корреляции имели ограниченную эффективность. Поскольку данные были скудными, а их сбор – дорогостоящим, специалисты по сбору статистики нередко интуитивно определяли вероятную закономерность, а затем собирали соответствующие данные и проводили корреляционный анализ, чтобы выяснить, насколько эта закономерность соответствовала действительности. В контексте службы Google Flu Trends это означало бы, что нужно предположить условия поиска, которые коррелируют с распространением гриппа, а затем провести корреляционный анализ, чтобы убедиться в правильности этих предположений. Учитывая набор данных Google из 50 миллионов различных условий поиска и более трех миллиардов запросов в день, интуитивно выбрать наиболее подходящие из них для тестирования не представляется возможным.
Таким образом, в эпоху малых данных корреляционный анализ утратил свою первостепенность. Даже сегодня термин «интеллектуальный анализ данных» в научных кругах звучит неодобрительно. Его противники острят: «Поиздевайтесь над данными достаточно долго – и они будут готовы признать что угодно».
Вместо того чтобы полагаться на простые корреляции, эксперты пытались интуитивно нащупать подходящие закономерности, исходя из гипотез в рамках определенных теорий – абстрактных представлений о принципах работы чего-либо. Затем эксперты получали соответствующие данные и проводили корреляционный анализ для проверки этих закономерностей. Если они оказывались ошибочными, эксперты, как правило, упрямо пробовали еще раз (на случай, если данные были собраны неправильно), пока, наконец, не признавали, что исходная гипотеза (или даже теория, на которой она основана) требует доработки. Знания совершенствовались путем проб и ошибок, связанных с гипотезами. Процесс был очень медленным, поскольку личные и общие предубеждения мешали объективно оценить разработанные гипотезы, их применение и выбранные в итоге закономерности. И все это для того, чтобы в большинстве случаев в итоге узнать, что мы ошибались. Это был трудоемкий процесс, зато он годился для работы с малыми данными.
В эпоху больших данных невозможно определить переменные, которые следует рассматривать, лишь на основе личных предположений. Наборы данных слишком велики, а рассматриваемые области, пожалуй, слишком сложны. К счастью, многие ограничения, которые вынуждали нас применять подход на основе гипотез, уже не столь существенны. Теперь у нас настолько много данных и вычислительной мощности, что не приходится вручную выбирать одну закономерность или небольшую горстку наиболее вероятных, а затем изучать их по отдельности. Теперь сложные вычислительные процессы сами выбирают лучшую закономерность, как это было в службе Flu Trends, которая легко и точно обнаруживала лучшие условия поиска из 50 миллионов самых популярных запросов, протестировав 450 миллионов математических моделей.
Для того чтобы понимать окружающий мир, теперь не обязательно изучать рабочие гипотезы о том или ином явлении. А значит, не нужно развивать гипотезу о возможных поисковых запросах людей, чтобы узнать время и территорию распространения гриппа. Не нужно вдаваться в подробности того, как авиакомпании назначают цены на билеты. Не нужно заботиться о кулинарных вкусах покупателей Walmart. Вместо этого достаточно провести корреляционный анализ на основе больших данных, чтобы узнать, какие поисковые запросы наиболее характерны для гриппа, грядет ли рост цен на авиабилеты или чем обеспокоенные домоседы запасаются на время бури. Вместо подверженного ошибкам подхода на основе гипотез благодаря корреляциям между большими данными у нас есть подход, построенный на данных. И он может быть менее предвзятым, более точным и наверняка менее трудоемким.
В основе больших данных лежат прогнозы на основе корреляций. Они используются все чаще, и мы порой недооцениваем их новизну. Практическое применение прогнозов со временем будет только расширяться.
Для прогнозирования поведения отдельных лиц существует кредитная оценка заемщика. Компания Fair Isaac Company, известная как FICO, ввела это понятие в 1950-х годах. В 2011-м FICO ввела еще одно понятие – «оценка приверженности лечению». Она анализирует множество переменных, в том числе тех, которые, казалось бы, не имеют отношения к делу (например, как долго люди не меняли место жительства или работы, состоят ли они в браке и имеют ли собственный автомобиль), для того чтобы определить вероятность того, примет ли пациент назначенное лекарство. Оценка помогла бы медицинским сотрудникам экономить средства: они знали бы, кому следует делать напоминания. Между владением автомобилем и приемом антибиотиков нет причинно-следственных связей. Это чистой воды корреляция. Но она вдохновила исполнительного директора компании FICO гордо заявить на встрече инвесторов в 2011 году: «Мы знаем, что вы собираетесь делать завтра».[58]58
Примеры прогнозных моделей FICO, Experian и Equifax: Thurm, Scott. Next Frontier in Credit Scores: Predicting Personal Behavior // Wall Street Journal. – October 27, 2011. URL: http://online.wsj.com/article/SB10001424052970203687504576655182086300912.html.
[Закрыть]
Крупное кредитное бюро Experian предлагает продукт Income Insight, который прогнозирует уровень доходов людей на основе их кредитной истории. Проанализировав огромную базу данных кредитных историй в сравнении с анонимными данными о налогах, полученными из налоговой службы Америки, эта программа подготовила соответствующую оценку. В то время как проверка доходов определенного лица стоит около 10 долларов, Experian продает свою оценку менее чем за 1 доллар. Таким образом, в некоторых случаях использование закономерностей экономически выгоднее, чем волокита с получением нужных данных. Тем временем другое кредитное бюро, Equifax, продает «индекс платежеспособности» и «индекс дискреционных расходов», которые сулят прогноз благосостояния отдельных лиц.[59]59
Прогнозные модели Aviva: Scism, Leslie. Insurers Test Data Profiles to Identify Risky Clients / Leslie Scism and Mark Maremont // Wall Street Journal. – November 19, 2010. URL: http://online.wsj.com/article/SB10001424052748704648604575620750998072986.html. См. также: Scism, Leslie. Inside Deloitte’s Life-Insurance Assessment Technology / Leslie Scism and Mark Maremont // Wall Street Journal. – November 19, 2010.
[Закрыть]
Поиск корреляций находит все более широкое применение. Изучив идею использования кредитных отчетов и данных потребительского маркетинга, крупная страховая компания Aviva внедрила ее вместо анализа образцов крови и мочи для определенных заявителей. Полученная информация помогала выявлять лиц, наиболее подверженных риску развития высокого артериального давления, диабета или депрессии. Этот метод основывался на данных об образе жизни, включая сотни переменных (таких как хобби, посещаемые сайты и время, затрачиваемое на просмотр телевизора), а также смете поступлений.
Прогнозная модель компании Aviva, разработанная компанией «Делойт», по праву считалась полезной для выявления рисков для здоровья. Свое намерение внедрить аналогичные проекты подтвердили страховые компании Prudential и AIG. Преимущество подхода заключалось в том, что он позволял заявителям избежать неприятных анализов. Этот подход экономил страховым компаниям по 125 долларов с человека, в то время как стоимость самого подхода на основе данных составляла около пяти долларов.[60]60
Там же.
[Закрыть] Некоторые ужаснутся, словно компании станут использовать кибердоносчиков, которые шпионят за каждым щелчком мыши. Возможно, люди подумали бы дважды, прежде чем посетить сайт экстремальных видов спорта или посмотреть комедийное шоу, прославляющее домоседов, если бы знали, что это может привести к повышению их страховых взносов. Это было бы страшным нарушением свободы взаимодействия с информацией. С другой стороны, польза системы состояла в том, что она способствовала бы увеличению количества застрахованных лиц. А это хорошо как для общества, так и для страховых компаний.
Корреляции между большими данными применялись и в американском розничном магазине сниженных цен Target, пример которого достоин подражания. Уже не первый год Target опирается на прогнозы, основанные на корреляциях между большими данными. В своем непривычно кратком отчете Чарльз Дахигг, бизнес-корреспондент New York Times, рассказал, откуда Target узнает, что женщина беременна, если она явно об этом не сообщала. Если коротко, нужно принимать в расчет все возможные данные и позволить корреляциям выявить нужные закономерности.
Знать о том, что в семье клиента ожидается пополнение, очень важно для магазинов розничной торговли, поскольку в этот переломный момент в жизни пары ее торговое поведение открыто для перемен – разведки новых магазинов и новых брендов. Розничные продавцы сети Target обратились в свой отдел аналитики, чтобы узнать, возможно ли по модели покупок определенного человека судить о том, что он ожидает пополнение.
В первую очередь отдел аналитики обратил внимание на историю покупок женщин, которые зарегистрировались в реестре Target на получение подарка к рождению ребенка. Специалисты Target заметили, что популярной покупкой среди зарегистрировавшихся женщин примерно на третьем месяце беременности был лосьон без запаха. Спустя несколько месяцев женщины, как правило, покупали пищевые добавки (магний, кальций, цинк и пр.). В итоге компания выявила около двух десятков характерных продуктов, по которым каждому клиенту можно было присвоить оценку «прогнозируемой беременности». С помощью корреляций розничным магазинам даже удавалось определять дату родов с небольшой погрешностью, и они стали отправлять соответствующие купоны на каждом этапе беременности. Такое нацеливание рекламных кампаний и впрямь соответствовало названию компании – Target (англ. цель).
Поиск закономерностей в социальном контексте – лишь один из способов применения методов работы с большими данными. Не менее эффективны корреляции при работе с новыми типами данных, которые используются для решения повседневных задач.
В бизнесе все шире применяется метод прогностической аналитики для определения предстоящих событий. Это может быть алгоритм для выявления музыкальных хитов, который популярен в музыкальной сфере и позволяет звукозаписывающим лейблам лучше ориентироваться, на кого стоит делать ставки. Или же алгоритм предотвращения больших механических неисправностей и разрушений конструкции: все чаще на машинах, двигателях и элементах инфраструктуры, таких как мосты, размещают датчики для отслеживания получаемых данных (показателей тепла, вибрации, нагрузки, звука и пр.).
Если речь идет о поломке, она, как правило, происходит не сразу, а развивается постепенно, с течением времени. Собрав все данные, можно заметить явные признаки, предшествующие поломке: жужжание и перегрев двигателя. Система сравнивает эту модель поведения с обычной и выявляет несоответствия. Обнаружив отклонения на ранней стадии, система отправляет предупреждение. Таким образом, вы успеете заблаговременно заменить поврежденную часть на новую и предупредить проблему. Система определяет, а затем отслеживает закономерности, тем самым прогнозируя будущие события.
Транспортная компания UPS с середины 2000-х годов использует прогнозный анализ для контроля своего 60-тысячного автопарка в США и выполнения своевременного профилактического обслуживания. Поломка на дороге причиняет массу неудобств, включая отправку запасного грузового автомобиля, задержки поставок и погрузок, а также привлечение дополнительных сотрудников. Поэтому в компании UPS существовало правило заменять отдельные части раз в два-три года. Но это было неэффективно, поскольку некоторые части оставались в хорошем состоянии. Благодаря измерению и отслеживанию деталей транспортного средства компания UPS сэкономила миллионы долларов, заменив только те части, которые нуждались в замене. Однажды компании даже удалось определить, что группа новых транспортных средств содержала бракованную деталь, которая неминуемо привела бы к неприятностям, не будь вовремя замечена.[61]61
Аналитическая работа UPS: интервью Кукьера Джеку Левису (март, апрель и июль 2012 года).
[Закрыть]
Подобным образом к мостам и зданиям крепят датчики, чтобы отслеживать признаки износа. Такие же датчики внедряются на крупных химических и нефтеперерабатывающих заводах, где поломанная деталь оборудования может остановить все производство до момента ее замены. Стоимость сбора и анализа данных для принятия своевременных мер экономит средства по сравнению с тем, во что обходятся простои. Отметим, что прогностическая аналитика не в состоянии объяснить причину проблемы (из-за чего перегрелся двигатель – из-за потертого ремня вентилятора или плохо закрученного винта) – она только выявляет саму проблему. Корреляции показывают что, а не почему. Но, как видно, в большинстве случаев этого достаточно.
С помощью подобных методов обеспечивается нормальное функционирование человеческого организма. Когда к пациенту в больнице прикрепляют массу трубок, проводов и инструментов, формируется большой поток данных. Одна только ЭКГ выдает 1000 показателей в секунду. В настоящее время используется или хранится только часть получаемых данных. Большинство данных попросту выбрасывается, хотя и несет в себе важную информацию о состоянии пациента и его реакции на лечение. А в совокупности с аналогичными данными других пациентов эти сведения могли бы составить уникальную аналитическую картину того, какое лечение эффективно, а какое – нет.
Возможно, отсеивание данных было рациональным в то время, когда их сбор, хранение и анализ были дорогостоящими и трудоемкими. Но ситуация изменилась. Теперь Кэролин Макгрегор вместе с командой исследователей из Технологического института университета провинции Онтарио и компании IBM сотрудничает с рядом больниц для разработки программного обеспечения, которое получает и обрабатывает данные о состоянии пациента в режиме реального времени. Затем они используются для принятия более взвешенных диагностических решений в отношении преждевременно рожденных («недоношенных») младенцев. Система отслеживает 16 различных потоков данных, таких как частота сердечных сокращений, частота дыхания, температура, артериальное давление и уровень кислорода в крови, что вместе составляет около 1260 точек данных в секунду.[62]62
Недоношенные младенцы (на основе интервью с Макгрегор в январе 2010-го и апреле 2012 гг.). См. также: McGregor, Carolyn. Next Generation Neonatal Health Informatics with Artemis / Carolyn McGregor, Christina Catley, Andrew James, James Padbury // User Centered Networked Health Care, European Federation for Medical Informatics. 115 / A. Moen et al. (eds.). – IOS Press, 2011. – P. 117. Некоторые материалы взяты из специального отчета The Economist (2010 год).
[Закрыть]
Система способна обнаружить едва уловимые изменения в состоянии недоношенных детей, которые сигнализируют о начале развития инфекции за сутки до появления явных симптомов. «Вы не можете увидеть их невооруженным глазом, но компьютеру это под силу», – поясняет доктор Макгрегор. Система полагается не на причинно-следственные связи, а на корреляции. Она сообщает, что происходит, а не почему. И это вполне отвечает ее назначению. Заблаговременное предупреждение позволяет врачам раньше и к тому же с более щадящим медицинским вмешательством приступить к лечению инфекции или же раньше узнать, что лечение неэффективно. И то и другое благотворно сказывается на результатах лечения пациентов. В будущем эта технология наверняка будет реализована для всех пациентов и условий. И пусть алгоритм не принимает решения, зато компьютеры делают все от них зависящее, чтобы помочь медикам как можно лучше выполнять свои обязанности.
Поразительно, как с помощью анализа больших данных доктору Макгрегор удалось выявить корреляции, которые в известном смысле бросают вызов традиционным представлениям врачей. Она обнаружила, что выраженное постоянство жизненно важных показателей, как правило, служит предвестником серьезной инфекции. Звучит странно, ведь мы полагаем, что именно ухудшение этих показателей должно предшествовать полномасштабной инфекции. Можете представить себе поколения врачей, которые по окончании рабочего дня проверяют состояние пациента и, убедившись, что оно стабилизировалось, решают, что все в порядке и можно идти домой. И только безумный звонок медсестры посреди ночи разбудит их и сообщит, что, вопреки их предположению, состояние пациента резко пошло на ухудшение.
Полученные данные свидетельствуют о том, что стабильность состояния недоношенных детей не служит признаком улучшения, а скорее больше похожа на затишье перед бурей: тело как будто велит крошечным органам мобилизовать все силы и приготовиться к предстоящим трудностям. Но мы не можем быть абсолютно уверены, ведь это лишь корреляция – здесь нет места причинно-следственным связям. Чтобы выявить эти скрытые взаимосвязи среди множества составляющих, понадобилось непостижимое количество данных. Вне всякого сомнения, большие данные спасают жизни.