Пособие по журналистике данных

Текст добавлен: 26 сентября 2016, 16:16

Текст книги "Пособие по журналистике данных"

Автор книги: Д. Грей

Жанр:

Справочники

сообщить о нарушении

Текущая страница: 8 (всего у книги 21 страниц)

Назад к карточке книги

9–месячное расследование в отношении Европейских структурных фондов

Рис 28. Расследование в отношении Европейских структурных фондов(Бюро расследовательской журналистики)

В 2010 году газета Financial TimesБюро расследовательской журналистики ( Bureau of Investigative Journalism (BIJ)объединили усилия, чтобы заняться расследованием Европейских структурных фондов. В их намерения входило исследовать то, кем являются бенефициары Европейских структурных фондов, и проверить, должным ли образом используются финансовые средства. Структурные фонды, объем поступлений в которые за 7 лет составил 347 миллиардов долларов, являются второй по величине программой субсидий в Евросоюзе. Программа существовала десятилетиями, но не беря в расчет широкие, очень общие по содержанию обзоры, не было практически никакой прозрачности относительно того, кто же является бенефициаром этих фондов. В рамках смены правил игры в текущем раунде финансирования власти обязаны обнародовать список бенефициаров, включая описания спонсируемых проектов и суммы, полученные по каналам финансирования на национальном уровне и на уровне ЕС.

Команда проекта состояла из 12 журналистов и одного штатного программиста. Сотрудничество длилось 9 месяцев. Только один лишь сбор данных занял несколько месяцев.

Результатом проекта стали пять дней освещения темы в Financial Times и в BIJ, а также документальный фильм на ВВС и еще несколько телевизионных документальных фильмов.

Прежде чем приступить к проекту, требующему подобного уровня усилий, необходимо удостовериться, что все выводы – оригинальны, свежи и подлинны, и что результатом станут сюжеты и материалы, которых не будет больше ни у кого.

Процесс был разбит на ряд отчетливых, обособленных шагов:

1. Определить, кто хранит данные и как они хранятся.

У Генерального директората Европейской комиссии по вопросам региональной политики есть порталс выходом на сайты региональных властей, которые публикуют данные. Мы были уверены, что у комиссии должна быть всеобъемлющая база данных для проекта, к которой мы могли бы либо получить прямой доступ, либо добиться его при помощи запроса на предоставление данных согласно нормам свободы информации. Однако никакой подобной базы, как оказалось, не существует, по крайней мере, настолько подробной, насколько нам требовалось. Мы быстро поняли, что многие из гиперссылок, предоставленных Еврокомиссией, были битыми, неработающими, а также что большинство органов власти публикуют данные в формате PDF, а не в легко поддающихся анализу форматах типа CSV или XML.

Команда из 12 человек работала над решением задачи определения самых свежих данных и превращения ссылок в одну большую таблицу, которую мы использовали для совместной работы. Так как графы и столбцы с данными не были однообразными (например, заголовки часто были на разных языках, в некоторых наборах данных использовалась разная валюта, а в какие–то данные была включена разбивка на европейское и национальное финансирование), нам нужно было быть очень точными при переводе и переформатировании, как и при описании групп данных, имевшихся в каждом из источников.

2. Загрузить и подготовить данные.

Следующий шаг представлял собой загрузку всех таблиц, PDF–файлов, и, в некоторых случаях, результатов вэб–скрэпинга исходных данных.

Потом каждый набор данных требовалось стандартизировать, привести к единому формату. Самой большой проблемой стало извлечь данные из PDF–файлов, длиной по несколько сотен страниц. Большая часть этой работы была выполнена при помощи программ UnPDF и ABBYY FineReader, которые позволяют извлекать данные, создавая файлы форматов CSV или Excel.

Также на этом этапе проводилась проверка и перепроверка – чтобы убедиться, что инструменты по извлечению информации из PDF–файлов провели захват информации правильно и корректно, без ошибок и пропусков. Это было сделано посредством использования фильтрации, сортировки и подсчета итоговых результатов (чтобы убедиться, что они совпадают с тем, что напечатано в PDF–файлах).

3. Создать базу данных.

Программист команды сделал базу данных в SQL. Каждый из предварительно подготовленных файлов потом был использован как один из кирпичиков для общей SQL–базы. Потом пошел процесс загрузки всех индивидуальных файлов данных в одну большую SQL–базу данных, к которой сразу можно было начинать направлять поисковые запросы.

4. Дважды перепроверить и проанализировать.

Команда анализировала данные двумя основными способами:

Через интерфейс базы данных

Можно было вводить определенные ключевые слова (например, «табак», «гостиница», «компания А») в строку поиска. При помощи Google Translate, который был встроен в функционал поиска нашей базы данных, эти ключевые слова переводились на 21 язык и выдавали соответствующие результаты. Эти результаты можно было загрузить, и журналисты могли начинать проводить дальнейшие исследования уже по индивидуальным проектам, по конкретным интересующих их моментам.

Через макроанализ с использованием всей базы данных

Время от времени мы могли загружать полный набор данных, который затем можно было анализировать, например, с использованием ключевых слов, или группируя данные по стране, району, типу расходов, количеству проектов у бенефициара, и т.п.

Наши сюжетные линии получали информацию как из результатов этих двух анализов, так и посредством полевых и кабинетных исследований.

Двойная проверка полноты и целостности данных (путем суммирования и сверки с тем, что, по словам властей, было выделено и распределено) заняла значительное время. Одной из основных проблем было то, что власти по большей части обнародовали лишь суммарное «финансирование на едином европейском и на национальном уровнях». По правилам ЕС, каждая программа на определенный процент может финансироваться из общих средств ЕС. Уровень финансирования ЕС определяется, на программном уровне, так называемой ставкой софинансирования. Каждая программа (например, в области региональной конкуренции), состоит из многочисленных проектов. На проектном уровне технически один проект может получить стопроцентное европейское финансирование, а другой – не получить денег от Европы вовсе, но если все эти проекты сгруппировать вместе, сумма финансирования по линии ЕС на программном уровне не должна быть выше одобренного уровня софинансирования.

Это означало, что нам надо было проверить каждую конкретную сумму финансирования со стороны ЕС, которую мы приводили и на которую ссылались в материалах о предположительных компаниях–бенефициарах.

– Синтия О'Мурчу, Financial Times

Мелтдаун Еврозоны

Итак, мы освещаем мелтдаун еврозоны. Во всех подробностях. Драму, которая разворачивается, когда правительства приходят в столкновение, а спасательные средства утрачены; реакцию со стороны мировых лидеров, меры жесткой экономии и протесты против мер жесткой экономии. Каждый день в Wall Street Journal появляются графики, схемы и таблицы по потерям рабочих мест, снижению ВВП, процентным ставкам, стремительно падающим мировым рынкам. И все это постепенно нарастает. И все это ошеломляет и поражает.

Редакторы передовиц созывают совещание, чтобы обсудить идеи для освещения конца года, и когда мы выходим с этого совещания, я ловлю себя на том, что задумываюсь: на что это должно быть похоже – пережить это?

Похоже ли это на 2008 год, когда меня уволили, а мрачные новости шли непрерывным потоком? Мы говорили о работе, о рабочих местах и о деньгах каждый вечер за ужином, практически забыв о том, как это может расстраивать мою дочь. А выходные – это было самое худшее. Я пыталась не поддаваться страху, который, казалось, постоянно хватал меня за шею. А беспокойство стягивало мне грудную клетку. И испытывает ли такие же или похожие ощущения, что я испытывала тогда, какая–нибудь семья в Греции сейчас? А в Испании?

Я развернулась и пошла за Майком Алленом, редактором передовицы, в его кабинет, и высказала идею рассказать о кризисе посредством семей в еврозоне, взглянув сначала на данные, найдя демографические особенности, чтобы понять, кто составлял семью, и потом выдав эту информацию читателям с фотографиями и интервью, аудиозаписями разных поколений. Мы бы использовали красочные изображения, голоса… и данные. Вернувшись на свое рабочее место, я кратко набросала концепцию и нарисовала логотип.

Рис 29. Мелтдаун Еврозоны: конспект (Wall Street Journal)

Следующие три недели я усердно искала цифры: статистика по бракам, по умершим, по размерам семей, и по расходам на здравоохранение. Я прочла кучу информации по тратам на проживание, по расходам на обустройство, и по числу разводов, изучила исследования об уровнях благосостояния и накоплениям. Я просмотрела данные национальных статистических учреждений, позвонила в бюро по вопросам народонаселения ООН, в МВФ, в Евростат и в ОЭСР, пока не нашла экономиста, который активно занимался отслеживанием семей на протяжении всей своей карьеры. Он привел меня к специалисту по вопросам состава семей. И она показала мне экспертные доклады и информационные документы по моей теме.

Вместе с моим редактором Сэмом Энрикесом (Sam Enriquez) мы попытались сузить список стран. Мы собрали группу, чтобы обсудить визуальный подход, и решить, какие журналисты могут обеспечить текст, какие – аудио, и какие – найти героев сюжетов. Мэтт Крэйг (Matt Craig), фоторедактор первой страницы, начал работать над поиском фотографов. Мэтт Мюррей (Matt Murray), заместитель ответственного редактора международного отдела, отправил записку шефам бюро с просьбой о помощи репортерами. (Это было критически важным моментом: просьба сверху).

Но прежде всего данные. По утрам я экспортировала их в таблицы и составляла графики и диаграммы, чтобы рассмотреть тенденции: уменьшение накоплений, исчезновение пенсий, возвращение на работу матерей, рост затрат на здравоохранение вкупе с ростом долговых обязательств правительства и безработицы. Днем я изучала эти данные в совокупности, сравнивая страны друг с другом, чтобы найти в этом что–то интересное, темы для сюжетов.

Неделю я занималась этим, после чего совершенно запуталась во всей этой информации и начала сомневаться в себе. Возможно, выбранный мной подход был неверен. Возможно, дело было не в странах, а в отцах и матерях, и детях и бабушках и дедушках. Объемы данных тем временем росли.

И одновременно сокращались. Порой я проводила часы, собирая информацию, лишь с тем, чтобы в конце концов обнаружить, что она, эта информация, не дает мне ничего. Что я откопала совершенно неправильный набор цифр. А порой данные просто были слишком устаревшими.

Рис 30. Оценка полезности набора данных может быть очень затратной в плане времени задачей (Сара Слобин)

А потом массив данных снова начал расти, когда я поняла, что у меня по–прежнему есть вопросы, и я не понимаю семьи, не ориентируюсь в их составе и структуре. Мне нужно было увидеть их и придать им форму. Поэтому я сделала быструю серию графических моделей в Illustrator и начала приводить их в порядок, классифицировать и редактировать.

Рис 31. Графическая визуализация: извлечение смысла из тенденций и примеров, спрятанных в наборах данных (Сара Слобин)

Когда возникли графики и диаграммы, тогда появилась и целостная картина семей, полноценное представление о них.

Мы запустили проект. Я позвонила каждому журналисту. Я отправила им графики, диаграммы, общую информацию, и постоянно действующее приглашение поискать сюжеты, которые, по их мнению, могли бы быть важными, выразительными и показательными, которые помогут, условно говоря, «подвести кризис ближе к нашим читателям», побудить их не только понять, но и почувствовать его. Нам нужна была небольшая семья в Амстердаме и семьи побольше в Испании и Италии. Мы хотели услышать от представителей одной семьи разных поколений, как их личная история повлияла на их реакцию на экономические события.

С этого момента я вставала с ранья, чтобы проверить электронную почту, памятуя о разнице во времени. Журналисты прислали мне в ответ данные о прекрасных объектах, резюме по ним, и даже сделали сюрпризы, которых я не ожидала.

Что касается фотографий, то мы знали, что мы хотим сделать портреты поколений. По мнению Мэтта, фотографы должны были повсюду следовать за каждой семьей в течение одного целого дня их жизни. Он выбрал фотожурналистов, которые освещали мировые события, последние новости и даже войны. Мэтт хотел, чтобы каждая съемка заканчивалась за обеденным столом. Сэм предложил, чтобы мы включили меню.

Отсюда появилась необходимость подождать, чтобы посмотреть, какую историю расскажут фотографии. Подождать, чтобы узнать, что сказали семьи. Мы покамест разработали внешний вид интерактива. Я утащила палитру из «Приключений Тинтина», и мы проработали взаимодействие. И когда все было собрано вместе, и у нас уже была полная раскадровка, мы добавили обратно несколько, не очень много, но несколько изначальных графиков и диаграмм. Ровно столько, чтобы хватило для того, чтобы подчеркнуть и акцентировать каждую историю, ровно столько, чтобы хватило для придания темам твердости и основательности. Данные стали обеспечивать паузу в историях, они были призваны дать возможность немного отвлечься и переключиться.

Рис 32. Цифры это люди: ценность данных кроется в индивидуальных сюжетах, которые они представляют (Wall Street Journal)

В конце концов данными было все – и люди, и фотографии, и сюжеты. Они были тем, что придавало форму каждому повествованию, тем, что обуславливало напряженность между странами.

К тому времени, как мы опубликовали наш материал, прямо перед новым годом, когда мы все думали о том, что ждет нас на горизонте, я уже знала всех членов семей по именам. Я до сих пор интересуюсь, как они там сейчас. И если это не выглядит как проект из области журналистики данных, то ну и пускай. Потому что эти моменты, которые задокументированы в проекте «Жизнь в еврозоне» (Life in the Eurozone), эти истории о том, как люди сидят за столом и разговаривают о работе и о жизни, – они стали тем, чем мы смогли поделиться с нашими читателями. Умение понимать и видеть данные сделало этот проект возможным.

Рис 33. Жизнь в Еврозоне (Wall Street Journal)

– Сара Слобин, Wall Street Journal

Освещение темы госбюджета при помощи OpenSpending.org

Рис 34. Куда идут деньги?(Фонд Open Knowledge)

В 2007 году Джонатан пришел в Фонд Open Knowledge с уместившимся на одной страничке предложением проекта под названием Куда идут мои деньги? , целью которого было облегчить британским гражданам задачу понять, как тратятся государственные средства. Предполагалось, что это будет решающий эксперимент перед началом реализации более крупного проекта по визуальному представлению открытой, публичной информации, на базе ставшей первопроходческой в этой области работы Отто и Мари Нейрат – системы пиктограмм Isotype, символического способа представления количественной информации при помощи легко поддающихся толкованию изображений.

Проект «Куда идут мои деньги?» позволяет пользователям изучать общедоступные данные из самых разнообразных источников, используя бесплатные, открытые, интуитивно понятные инструменты. Мы помогли разработать прототип проекта, а потом программа 4IP Четвертого канала попросила нас превратить его в полноценное веб–приложение. Гуру информационного дизайна Дэвид Маккендлесс из Information is Beautifulсоздал несколько разных изображений данных, которые помогли людям соотнести их с большими числами – включая проекты «Страновой и региональный анализ», который демонстрирует, как расходуются деньги в разных частях страны, и ‘Хлеб насущный’, который показывает гражданам разбивку их налоговых выплат по разным статьям с точностью до фунтов и пенсов.

Рис 35. Куда идут мои деньги?Налоговый калькулятор «Хлеб насущный» (Фонд Open Knowledge)

В то время недостижимой мечтой для проекта была ловким образом сокращенная в названии «Единая онлайн информационная система» ( Combined Online Information System– COINS) и ее данные. Это была самая всеобъемлющая и подробная база данных (из числа доступных) о британских государственных финансах. Работая вместе с Лайзой Эванс (до того, как она присоединилась к команде Guardian Datablog), Джулианом Тоддом и Фрэнсисом Ирвингом (ныне известном благодаря Scraperwiki), Мартином Розенбаумом (ВВС) и другими, мы подали многочисленные запросы на предоставление данных – многие из них безуспешно.

Когда данные были, наконец, выданы в середине 2010 года, многими сторонниками прозрачности это было воспринято как переворот. Нам дали расширенный доступ к данным, позволив загружать их в наше веб–приложение, и мы удостоились широкого внимания прессы, когда этот факт был обнародован. В день релиза на нашем канале связи появились десятки журналистов, которые хотели обсудить факт публикации или задать вопросы, а также узнать, как открывать и использовать полученные данные (файлы были размером в десятки гигабайт). И хотя некоторые эксперты жаловались, что это массовое обнародование данных было настолько сложным, что фактически добавило не прозрачности, а наоборот, непонятности и неизвестности, множество смелых журналистов зациклились на этих данных, чтобы представить своим читателям беспрецедентную картину того, как тратятся государственные средства. Guardian вел живую трансляциюв блоге об этом релизе, процесс освещали и многие другие средства массовой информации, они также давали анализ выводов из этих данных.

Это было незадолго до того, как мы начали получать запросы об осуществлении аналогичных проектов в других странах по всему миру. Вскоре после запуска OffenerHaushalt – версии нашего проекта для немецкого государственного бюджета, созданной Фридрихом Линденбергом – мы запустили OpenSpending, международную версию проекта, целью которой было помочь пользователям составить карту государственных расходов по всему миру, немного похожую на то, как OpenStreetMap помогает составить карту географическую. Мы применили новые решения в области дизайна с помощью талантливого Грегора Айша, и частично использовали оригинальный дизайн Дэвида Маккендлесса.

Рис 36. OffenerHaushalt, немецкая версия материала Куда идут мои деньги Go?(Фонд Open Knowledge)

Реализуя проект OpenSpending, мы активно работали с журналистами над решением задач получения, осмысливания, интерпретации и представления данных о расходах общественности. OpenSpending – это в первую очередь огромная база данных о государственных расходах с функцией поиска – база содержит как информацию бюджетного характера, т.е. о запланированных расходах, так и информацию на уровне транзакций – о реально осуществленных расходах. На базе этого построена серия креативных, нестандартных визуализаций, на основе методов Treemap и Bubbletree. Причем каждый мог загрузить свои местные данные и сделать на их основе визуализацию.

Хотя изначально мы думали, что наши более сложные визуализации будут пользоваться большой популярностью, поговорив с информационными организациями мы осознали, что были более базовые потребности, которые следовало удовлетворить в первую очередь, например, возможность встраивать динамические таблицы данных в посты в блогах. Будучи склонными к тому, чтобы побудить новостные организации предоставлять общий доступ к данным вместе с их сюжетами и материалами, мы и для этого создали виджет.

Наш первый крупный релиз совпал по времени с проведением первого Международного фестиваля журналистики в Перудже. Группа разработчиков, журналистов и государственных служащих сотрудничала в вопросе загрузки итальянских данных в платформу OpenSpending, что дало возможность получить широкий и разносторонний взгляд на то, как осуществляются расходы на уровне центральной, региональных и местных администраций. Тема получила освещение в Il Fatto Quotidiano, Il Post, La Stampa, Repubblica, и Wired Italia, а так же в Guardian.

Рис 37. Итальянская версия материала «Куда идут мои деньги?»(La Stampa)

В 2011 году мы работали с организацией Publish What You Fundи британским независимым аналитическим центром «Институт иностранного развития» ( Overseas Development Institute) над составлением карты финансирования и предоставления помощи Уганде в период 2003–2006 годов. Это было новой темой, потому что впервые вы могли увидеть потоки финансирования в рамках финансовой помощи вместе с национальным бюджетом – это давало возможность увидеть, до какой степени приоритеты доноров соответствовали приоритетам правительства. Было сделано несколько интересных заключений, например, оказалось, что программы по борьбе с распространением ВИЧ и программы в области планирования семьи практически полностью финансировались внешними донорами. Эту тему осветила и Guardian.

Мы также работали вместе с неправительственными организациями, инициативными группами и организациями, выступающими в защиту разных интересов, над обеспечением перекрестного сравнения данных о расходах с другими источниками информации. Например, Privacy International вышла на нас с большим списком компаний–разработчиков технических средств наблюдения и списком агентств и служб, присутствовавших на хорошо известной международной торговой выставке этих самых технических средств, известной как «бал перехватчиков». Систематически привязывая названия компаний к наборам данных по расходам стало возможным распознать, у каких компаний были правительственные контракты – а за этим могли уже последовать запросы в рамках норм свободы информации. Данную тему осветили Guardianи the Wall Street Journal.

Мы сейчас работаем над решением задачи увеличения степени финансовой грамотности среди журналистов и общественности, в рамках части проекта под названием «Истории о тратах и расходах», который позволяет пользователям связать между собой данные о государственных расходах и связанные с государственными расходами истории, чтобы увидеть, грубо говоря, «цифры за новостями и новости вокруг цифр».

Благодаря нашей работе в этой области, мы узнали, что:

 Журналисты зачастую не привыкли работать с исходными данными, и не считают это необходимой основой своей журналистской работы. Использование в качестве источников для сюжетов, репортажей и материалов исходных данных – по–прежнему воспринимается как сравнительно новая, оригинальная идея.

 Анализ и понимание данных – это процесс, занимающий много времени, даже при наличии всех необходимых инструментов. Подогнать его под новостной цикл, который, как известно, очень короткий, сложно, поэтому журналистика данных часто используется в долгосрочных, долгоиграющих исследовательских и расследовательских проектах.

 Данные, публикуемые властями, зачастую бывают неполными или устаревшими. Очень часто публично доступные базы данных не могут быть использованы в расследовательских целях без добавления к ним более конкретных наборов информации, запрашиваемых согласно правилам свободы информации.

 Организации, выступающие в защиту чего–либо, ученые и исследователи зачастую имеют больше и времени, и возможностей, чтобы проводить более обширные, более масштабные исследования в области данных, чем журналисты. Было бы очень выгодным, полезным и продуктивным объединяться с ними и работать в команде.

– Люси Чемберс и Джонатан Грэй, Фонд Open Knowledge

Назад к карточке книги "Пособие по журналистике данных"