Текст книги "Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики"
Автор книги: Билл Фрэнкс
Жанры:
Деловая литература
,сообщить о нарушении
Текущая страница: 6 (всего у книги 29 страниц) [доступный отрывок для чтения: 11 страниц]
Глава 2
Больше данных… Еще больше данных… Большие данные!
В этой главе мы рассмотрим важный тренд, связанный с большими данными. Читатели должны в нем разбираться, если в их организациях планируется использовать большие данные для поддержки операционной аналитики. Разумеется, организации всегда собирали данные о своей деятельности, однако в последние годы темпы накопления возросли. И не только потому, что увеличились и источники данных. Дело в том, что зачастую данные поступают в новых форматах и содержат информацию, требующую различных аналитических технологий. Таким образом, «большие данные» – это общий термин, который применяется ко всему тренду, приведшему к проблемам в виде увеличения объемов данных, количества их источников и разнообразия форматов.
Когда организация приступает к рассмотрению больших данных и пытается понять, как они повлияют на ее аналитические процессы, она должна учесть ряд важных моментов. В этой главе мы рассмотрим несколько рекламных трюков, сопровождающих большие данные (на эти трюки иногда попадаются организации), а также разберем способы подготовки к внедрению технологий больших данных с учетом перспективы. Большие данные вовсе не так страшны, как может показаться вначале. Понимание того, как большие данные вписываются в общую картину, позволит вам успешно включить их в операционную аналитику.
Разбираемся с обманамиНет никаких сомнений в том, что большие данные окружены столь же большой рекламной шумихой. Организации должны разобраться с обманами и сосредоточиться на действительно важном, чему может способствовать ряд методов, предложенных в этом разделе. Ни в коем случае мы не намерены преуменьшать важность или ценность больших данных. Наша цель – вернуть большие данные к реальности. Формирование реалистичных ожиданий должно стать первым шагом в процессе работы с большими данными.
Один из первых вопросов, который мне часто задают клиенты: «Что такое большие данные, Билл? Вы можете дать им определение?» По-видимому, оно очень заботит людей{9}9
На основе статьи в моем блоге для Международного института аналитики от 14 июня 2012 г., озаглавленной «Определение больших данных? Не нужно!» (“What’s the Definition of Big Data? Who Cares?”). См. http://iianalytics.com/2012/06/whats‐the‐definition‐big‐data‐who‐cares/
[Закрыть]. Чтобы убедиться в этом воочию, посетите некоторые группы на LinkedIn, посвященные большим данным. В каждой группе вы столкнетесь с вопросом определения больших данных, который задается в той или иной форме на протяжении последних нескольких лет. На одном из форумов, где я был вовлечен в дискуссию, размещались не то что десятки, а сотни ответов на вопрос: «Каково определение больших данных?» И это на форуме, где любой пост собирал в лучшем случае пару откликов. По мере развертывания дискуссии ее участники пытались превзойти друг друга, добавляя всё новые нюансы, подходящие или не подходящие к определению. Мне это занятие показалось глупым и заумным.
Люди чересчур озабочены определением больших данных. Лично я всегда предпочитал самое короткое из всех существующих определений. Пусть оно противоречит остальным, зато состоит всего из двух слов: «Не нужно!» Поначалу такой ответ может показаться вам экстремальным. С чего я это взял? Позвольте объясниться.
Если главная задача организации – решить некую бизнес-проблему путем внедрения операционной аналитики, ее не должно волновать определение больших данных. И вот почему. Схема действий, которой должна следовать организация и которой она, вероятно, следовала много лет в прошлом, очень проста. Если у вас есть проблема, требующая решения, вы должны посмотреть вокруг и задать себе вопрос: «Какие данные, если их собрать, организовать и использовать для аналитического процесса, помогут нам решить эту проблему?» Когда вы определите, что это за данные, вы должны придумать, как их собрать, организовать и включить в аналитику. Но тут возникает ключевой момент. Вопрос «Полезны ли эти данные для моего бизнеса?» не имеет абсолютно никакого отношения к определению больших данных. Полезными для бизнеса могут оказаться большие данные, малые данные или же ряд электронных таблиц.
Если же организация придет к пониманию, что ей необходимо использовать нечто похожее на большие данные, то беспокоиться насчет определения будет уже поздно: нужны будут данные как таковые. Они могут быть не очень хорошо структурированными и в переизбытке. Они могут просто соответствовать знаменитой концепции «трех V»: Volume, Variety, Velocity (объем, многообразие, скорость), выведенной исследовательской компанией Gartner{10}10
См.: “Gartner IT Glossary”, www.gartner.com/it-glossary/big-data/. Также см.: Svetlana Sicular, “Gartner’s Big Data Definition Consists of Three Parts, Not to Be Confused with Three ‘V’s,” Forbes, 27 марта 2013 г., на www.forbes.com/sites/gartnergroup/2013/03/27/gartners‐big‐data‐definition‐consists‐of‐three‐partsnot‐to‐be‐confused‐with‐three‐vs/
[Закрыть]. Однако знание того, что нужные вам данные соответствуют концепции «трех V», бесполезно, поскольку в момент, когда данные вам понадобятся, не останется иного выбора, кроме как придумать способ их использования, – и совершенно не важно, являются ли они большими данными. Я всегда считал, что в концепции не хватает самой важной V, которая часто упускается из виду, а именно Value, т. е. ценности больших данных{11}11
См. мою статью «Определение больших данных: пропущенное “V” (“Defining Big Data: The Missing ‘V’”), IT Briefcase, 2 августа 2012 г., www.itbriefcase.net/defining-big-data-the-missing-v
[Закрыть]. Можно добавить и прочие характеристики, если веришь, что в данных есть ценность, и считаешь, что усилия по их сбору и анализу того стоят.
Важно не определение, а результат
Даже если бы существовало общепринятое и единственное определение больших данных, это ничем бы не способствовало решению проблем бизнеса. Попытка дать определение большим данным – занятное теоретическое упражнение, но если вы узнáете, что конкретный источник данных официально относится (или нет) к категории больших данных, то в этом не будет никакого проку. Когда потребуется проанализировать источник данных, вам придется найти для этого способ вне зависимости от того, какой ярлык вы к нему прикрепите.
Поймите мои слова правильно. Если организация имеет дело с данными, подпадающими под типичные определения больших данных, это, безусловно, будет влиять на выбор тех методов и инструментов, которые она должна использовать для включения больших данных в аналитические процессы. Однако выбор методов и инструментов относится уже к области тактики, и в этом важное отличие. В первую очередь нужно ответить на стратегический вопрос: «Содержат ли эти данные важную для нас информацию?» Только получив на него положительный ответ, организация может приступить к запуску данных в работу.
Не тратьте силы на попытки понять, относятся ли нужные вам данные к категории больших данных или нет. Лучше сосредоточьтесь на включении выявленных вами значимых источников данных в аналитические процессы организации.
Как следует из вышесказанного, важно начать с правильного подхода. Нет смысла собирать данные и хранить их в надежде на то, что однажды им будет найдено полезное применение. Как показано на рис. 2.1, организация должна для начала определить бизнес-проблему, а затем подобрать для нее необходимые данные. Сделайте усилие и примите на себя расходы по приобретению и использованию источника данных, когда это станет необходимо. В мире больших данных очень легко удариться в собирательство всех данных подряд с прицелом на то, что когда-нибудь они пригодятся. В результате организация может настолько увлечься сбором данных, что никогда ими и не воспользуется.
Хотя и кажется очевидным, что нужно начинать с бизнес-проблемы, а не со сбора данных, я знаю множество случаев, когда очень умные и расчетливые в иных отношениях организации полностью забывают про этот принцип, когда дело доходит до больших данных. Поначалу меня очень удивляла подобная склонность, но потом я понял что к чему. К началу 2014 г., когда я пишу эту книгу, вокруг больших данных поднялось столько шумихи, что никто не хочет остаться от них в стороне. Каждый совет директоров спрашивает у своего генерального директора: «А вы используете большие данные?» В свою очередь, каждый генеральный директор спрашивает у своих директоров по информационным технологиям, маркетингу и финансам: «А вы используете большие данные?» И каждый из этих директоров спрашивает у членов своей команды: «А вы используете большие данные?»
Не поддавайтесь давлению!
Не поддавайтесь давлению и не используйте большие данные только ради того, чтобы показать, что вы их используете! Ваша задача – создать системы и наладить сбор данных для поддержки только обоснованных возможностей бизнеса. Многие сильные организации поддались всеобщей лихорадке вокруг больших данных, что грозит обернуться для них весьма поучительными и дорогостоящими уроками.
Никто не хочет отвечать на этот вопрос так: «Еще нет» или так: «Мы планируем их использовать, но сначала хотим выяснить, как лучше это сделать». В обстановке всеобщей лихорадки такие ответы считаются неприемлемыми. В результате организации очертя голову набрасываются на большие данные. Некоторые запускают масштабные, дорогостоящие проекты, не имея продуманного плана насчет того, как извлечь пользу из инвестиций. Они просто собирают множество данных и покупают множество места для их хранения в надежде на то, что когда-нибудь придумают, как их использовать.
В этом и заключается главная проблема такого подхода. В текущем году вы бодро отвечаете на вопросы руководства, а оно вас гладит по головке за то, что вы идете в ногу со временем и «что-то делаете» с большими данными. Но через год-полтора то же начальство обращается к вам уже с другим вопросом: «Вы потратили столько ресурсов на этот проект и что же теперь можете продемонстрировать?» Если вы изначально не знали, для чего вам нужны большие данные, вам потребуется немало усилий, чтобы доказать, что ресурсы потрачены не зря. Я бы не хотел оказаться на месте человека, который вынужден отвечать: «Мы активно занимались большими данными, как от нас того требовали, но пока не получили никаких результатов».
Убедитесь, что ваша организация дисциплинированно подходит к внедрению больших данных. Потратьте еще немного времени на то, чтобы начать с реальной бизнес-проблемы и разработайте для ее решения план. Определите, какую конкретно аналитику можно будет выполнить на основе данных. Это займет не так уж много времени, однако существенно повысит ваши шансы на успех. Не поддавайтесь давлению рекламной шумихи и не отказывайтесь от основных принципов ведения бизнеса.
На фоне сегодняшнего ажиотажа вокруг больших данных часто возникает вопрос о том, а не превращаются ли большие данные в очередной пузырь?{12}12
На основе статьи в моем блоге для Международного института аналитики от 12 декабря 2012 г., озаглавленной «Лопнет ли пузырь больших данных в 2013 году?» (“Will the Big Data Bubble Burst in 2013?”). См. http://iianalytics.com/2012/12/will‐the‐big‐data‐bubble‐burst‐in‐2013/
[Закрыть] В январе 2013 г. исследовательская компания Gartner высказала официальное мнение, что большие данные прошли пик цикла ажиотажа и вступили в этап избавления от иллюзий{13}13
См.: Svetlana Sicular, “Big Data Is Falling into the Trough of Disillusionment,” Gartner, 22 января 2013 г., на http://blogs.gartner.com/svetlana‐sicular/bigdata‐is‐falling‐into‐the‐trough‐of‐disillusionment/
[Закрыть]. После публикации этой статьи мне позвонил журналист и спросил, что я думаю по поводу заката больших данных и пузыря, который вот-вот лопнет. Мой ответ сначала может показаться противоречивым, но после моего объяснения вы поймете, в чем дело. Я ответил, что в некоторых отношениях угроза пузыря больших данных действительно существует. Но с других более важных, точек зрения, такого пузыря нет. Мой ответ кратко изложен в тексте и в таблице 2.1.
Я считаю, что в определенном смысле пузырь больших данных действительно скоро лопнет. Породили же проблему нереалистичные ожидания рынка. Похоже, многие люди считают, что большие данные – это легкий и дешевый способ добыть своего рода «волшебную кнопку», нажав на которую, можно получить ответы на любые вопросы. Это всегда было смешным предположением для любого аналитического начинания. И остается смешным в мире больших данных.
Никакой волшебной кнопки не существует! Для того чтобы успешно разработать и внедрить аналитические процессы для больших данных, требуется ничуть не меньше времени и сил, чем для любых других видов данных. А поначалу может потребовать даже больше времени, поскольку большие данные являются новшеством. Следствием ошибочных предположений, безусловно, станут крайне показательные неудачи с большими данными на рынке. Я уже вижу первые признаки таких провалов. Но, поскольку эти первоначальные неудачи поспособствуют взрыву раздутого пузыря нереалистичных ожиданий, они пойдут всем нам на благо. Ведь добиться успеха при помощи больших данных и сделать их операционными вполне возможно. Но для этого организации необходимо отнестись к большим данным с реалистичными ожиданиями по части затрат, сроков и усилий.
Для больших данных нет «волшебной кнопки»
Совершенно очевидно, что сегодня на преуспевание с большими данными возлагаются необоснованные надежды. В этом смысле пузырь существует. Тем не менее воздействие больших данных и их анализа со временем намного превзойдет сегодняшние раздутые ожидания. Как пузырь доткомов не уничтожил потенциал Интернета, так и пузырь больших данных не уничтожит их потенциала.
Теперь давайте рассмотрим, почему пузырь больших данных не лопнет. Люди часто считают, что взрыв пузыря свидетельствует о том, что его основа была фальшивой. Но вы можете быть уверены в том, что большие данные строятся не на ложной посылке. Большие данные будут оказывать очень сильное влияние на наше будущее. Я воспользуюсь аналогией, чтобы объяснить, почему так произойдет.
Вспомните интернет-пузырь конца 1990-х гг. Из-за этого гигантского пузыря, раздутого интернет-компаниями, многие люди потеряли много денег. Но вот что важно понять. Если вернуться в 1999 или 2000 г., на самый пик ажиотажа вокруг Интернета, и почитать тогдашние статьи о том, как Сеть изменит наши личные жизни и способы ведения бизнеса, то, уверен, вы подметите, что Интернет уже превзошел самые смелые мечты той эпохи.
Видите ли, интернет-пузырь был обусловлен отнюдь не мошеннической природой Сети или ее неспособностью воплотить в жизнь все раздутые обещания того времени. На деле же пузырь возник из-за того, что люди посчитали, что реализовать преимущества Интернета будет очень дешево, быстро и легко. Тогда, для того чтобы привлечь финансирование, компании было достаточно вставить в начале своего названия букву «i» или «e». Это сильно напоминает мне сегодняшнюю ситуацию с большими данными. Если бы в 2013 г. я заявил, что создал компанию в облаке и она будет заниматься большими данными, машинным обучением и предоставлять аналитические услуги, то, вероятно, достаточно быстро собрал бы наличные.
В ближайшие несколько лет произойдут как банкротства, так и консолидация рынка в пространстве больших данных. Неизбежны и разочарования, по мере того как компании, без достаточных на то оснований поспешившие ринуться в большие данные, начнут осознавать свою ошибку. Тем не менее через пять – десять лет большие данные с лихвой воплотят в жизнь все ожидания, с ними связанные. Влияние операционной аналитики на основе больших данных намного превзойдет все сегодняшние предположения. Несмотря на все предостережения, высказанные мной в начале этого раздела, ваша организация не должна оставаться на обочине и буквально обязана войти в мир больших данных. Просто это нужно делать грамотно и рационально.
Готовимся к внедрению больших данныхПосле того как организация сформирует реалистичные ожидания в отношении больших данных, как ей подготовиться к их внедрению? Какие ключевые моменты необходимо учесть при разработке стратегии? В этом разделе мы сосредоточимся на темах, которые помогут организации подготовиться к внедрению больших данных, после того как она избавится от ажиотажа вокруг них.
Нет никаких сомнений в том, что сегодня на нас обрушивается приливная волна больших данных и что любая организация должна ее укротить, дабы добиться успеха. Этой теме и посвящена моя книга «Укрощение больших данных» (Taming the Big Data Tidal Wave){14}14
Bill Franks, Taming the Big Data Tidal Wave (Hoboken, NJ: John Wiley & Sons, 2012).
[Закрыть]. Я выбрал такое название, поскольку считаю, что океан является очень хорошей аналогией для пространства данных. Представьте себе накатывающие на берег волны. Если вы сидите на резиновой камере в том месте, где волны разбиваются, то узнаете, что волна даже чуть выше талии вполне способна опрокинуть вас на спину. Когда же волны наберут силу, они могут причинить вам осязаемый вред, если вы позволите им обрушиться на вас. Точно так же происходит и с данными. Вырастая в объемах, данные могут вас подавить, и справиться с ними будет нелегко. Если вы позволите волне данных ударить вас, она отправит вас в нокаут и не позволит довести дело до конца.
Вы должны придумать, как оседлать волну. В океане можно использовать доски для серфинга. Те, кто ничего не знает о серфинге, могут подумать, что все доски для него одинаковы. Но это не так. Зайдите в спортивный магазин и увидите, что существуют доски длинные и короткие, разной формы, с плавниками и без них. Серфер выбирает доску в зависимости от того, на каком виде волны он собирается кататься, и в зависимости от своих опыта и целей – гонки на скорость или выполнения трюков.
Аналогичным образом, когда речь идет о данных и аналитике, неосведомленные люди часто предполагают – только и нужно, что нагрести данные, складировать их, а потом проанализировать каким-нибудь инструментом. Но любой специалист знает, что существует огромное разнообразие платформ и инструментов, которые дают доступ к данным и обеспечивают их анализ. Большие данные, несомненно, могут потребовать добавления новых инструментов в уже имеющийся набор, подобно тому как серферу со временем могут понадобиться новые доски. И подобно тому как между использованием различных досок для серфинга существует больше сходства, чем различий, то же верно для применения различных аналитических платформ и инструментов к различным типам данных и аналитики.
Вы готовы оседлать волну больших данных
Если в штате организации имеются опытные специалисты, которые обеспечивали эффективное использование данных в прошлом, они же вполне способны справиться и с большими данными, приложив некоторые усилия. Подобно тому как профессиональный серфер может кататься где угодно и на любой доске, так и профессиональные аналитики могут проанализировать любые данные при помощи любых платформ и инструментов.
Когда организация встает перед необходимостью внедрения новых инструментов для больших данных, ей потребуются и люди, способные пользоваться этими инструментами. Если вы дадите мне лучшую доску для серфинга и отправите меня по самым пологим волнам, я не прокачусь и метра, потому что не умею этого делать. В то же время опытные серферы проявят свое умение, даже если дать им новую доску и отправить на новый пляж, где катят другие по размеру и типу волны, отличающиеся от привычных для них. Поначалу они могут держаться на доске чуть неуклюже, но спустя пару часов будут серфинговать, как обычно, уверенно. Каждая новая доска, каждый новый пляж и каждая непривычная волна представляют собой не квантовый скачок, который невозможно одолеть, а пошаговое изменение. Точно так же опытные аналитики уже имеют базовые навыки, чтобы работать с большими данными, и им просто нужно немного времени, чтобы подстроиться к требованиям других типов данных и анализа. Подобно тому как опытные серферы могут приспособиться к любой доске на любом пляже, так и опытные аналитики могут адаптироваться к любому типу данных и любому типу анализа, поскольку для них это будет пошаговым изменением, а не непреодолимым квантовым скачком.
Что же делает большие данные настолько мощными и захватывающими? Почему я прогнозирую, что они будут оказывать огромное воздействие на наше будущее? Причина – в той новой информации, которую они могут предоставить{15}15
На основе статьи в моем блоге для Международного института аналитики от 11 января 2013 г., озаглавленной «Извлечение аналитической ценности из новых данных» (“Driving Analytic Value from New Data”). См. http://iianalytics.com/2013/01/driving‐analytic‐value‐from‐new‐data/. Эта тема также рассматривается в моей книге «Укрощение больших данных».
[Закрыть]. Большие данные часто снабжают организации информацией, которая является оригинальной в одном или сразу в двух аспектах. Во-первых, с небывалым уровнем детализации. Во-вторых, зачастую недоступной ранее.
Давайте рассмотрим, как производители автомобилей в настоящее время используют большие данные для целей предупредительного техобслуживания. На протяжении многих лет в прошлом, когда происходила поломка автомобиля, производитель прилагал усилия, стараясь выяснить, почему она случилась, а затем проследить путь вплоть до коренного изъяна, вызвавшего проблему. Сегодня встроенные датчики обеспечивают интенсивные потоки данных в процессе разработки и испытания двигателей, а также двигателей уже проданных автомобилей. Благодаря этому автопроизводители часто могут выявлять опасные шаблоны до того, как те приведут к поломке. Это и называется предупредительным техобслуживанием.
С получением информации от датчиков двигателей теперь стало возможным идентифицировать первые признаки надвигающихся проблем. Ведет ли перегрев детали к ее отказу? Предшествует ли небольшое падение напряжения в аккумуляторе распространенной проблеме с электричеством? Ломаются ли некие детали обычно в паре, в наборе или по отдельности? Ответы на эти вопросы невозможно было получить ранее, до появления доступных ныне данных.
Сильной стороной сенсорных данных в этом случае является не увеличение информации, а предоставление совершенно новой информации, не доступной ранее. Возможность прогнозировать и устранять проблемы до того, как произойдет поломка, позволяет значительно повысить удовлетворенность потребителей и снизить расходы на гарантийное обслуживание, поскольку автомобили меньше времени находятся в автомастерской и, как правило, гораздо дешевле принять профилактические меры и устранить проблему, чем ремонтировать уже сломавшийся автомобиль.
Традиционно профессиональные аналитики тратили много времени на совершенствование аналитических моделей, использующих существующие наборы источников данных. Они старались внедрять новейшие методики моделирования и добавлять новые метрики, извлеченные из данных. Эти усилия оправдывали себя, поскольку позволяли понемногу повышать эффективность моделей.
Новая информация почти всегда побеждает новые алгоритмы
Причина, обязывающая организацию активно использовать большие данные, заключается в той совершенно новой информации, которую они часто предоставляют. Да, необходимо корректировать существующие аналитические процессы, использующие имеющиеся данные. Но добавление новой информации может привести к настоящим прорывам. Всегда отдавайте приоритет тестированию новой информации перед тестированием новых методологий или новых метрик, основанных на имеющейся информации.
Между тем существует простой способ значительно повысить мощность аналитического процесса. Организации следует отказаться от традиционного подхода в виде подстройки имеющихся моделей, как только обнаруживается новая информация, относящаяся к проблеме. Эта новая информация может оказаться настолько значимой, что профессиональным аналитикам придется заняться не улучшением существующих моделей, а немедленно приступить к включению в них и тестированию новых данных.
Даже упрощенное использование новой информации может оказать воздействие на качество аналитического процесса, причем намного сильнее, чем при подстройке процесса, использующего имеющуюся информацию. Включайте новую информацию в процесс как можно быстрее, пусть даже поначалу в черновом варианте. Как только это будет сделано, возвращайтесь к пошаговым отладке и улучшению аналитики. И почти всякий раз новая информация будет побеждать новые алгоритмы и новые метрики, основанные на старой информации.