Пособие по журналистике данных

Текст добавлен: 26 сентября 2016, 16:16

Текст книги "Пособие по журналистике данных"

Автор книги: Д. Грей

Жанр:

Справочники

сообщить о нарушении

Текущая страница: 10 (всего у книги 21 страниц)

Назад к карточке книги

Хакатон Mapa76

Рис 41. Mapa76(Hacks/Hackers Buenos Aires)

Мы открыли буэнос–айресскую главу истории Hacks/Hackersв апреле 2011 года. Мы провели две первоначальных встречи для того, чтобы предать гласности идею более тесного сотрудничества между журналистами и разработчиками программного обеспечения, на каждом из мероприятий присутствовало от 120 до 150 человек. На третью встречу мы организовали 30–часовой хакатон в составе восьми человек на конференции по цифровой журналистике в городе Розарио в 300 километрах от Буэнос–Айреса.

Повторяющейся темой на этих встречах было желание выкопать огромные объемы данных из интернета, а потом представить их визуально. Чтобы содействовать решению этой задачи, родился проект Mapa76.info, который помогает пользователям извлекать данные, а потом отображать их, используя карты и графики. Непростая задача.

Почему Mapa76? 24 марта 1976 года в Аргентине произошел переворот, который длился до 1983 года. В этот период примерно 30 000 человек бесследно исчезли, тысячи погибли, и около пятисот детей родилось в неволе из–за действий военной диктатуры. Более тридцати лет спустя число людей в Аргентине, осужденных за преступления против человечности, совершенные в годы диктатуры, достигло 262 человек (по состоянию на сентябрь 2011 года). Сейчас идет 14 судебных процессов, и еще в отношении 7 определены даты начала рассмотрения дел. В различных открытых судебных делах фигурируют 802 человека.

Эти процессы генерируют огромное количество данных, которые весьма сложны в обработке и для исследователей, и для журналистов, и для правозащитных организаций, и даже для судей, прокуроров и всех остальных. Данные появляются совершенно разным образом, и следователи и исследователи зачастую не могут воспользоваться преимуществами обработки их программными средствами при их интерпретации. В конечном итоге, это означает, что факты зачастую упускаются из виду, а гипотезы часто получаются ограниченными. Mapa76 – это расследовательский инструмент, предоставляющий открытый доступ к этой информации в журналистских, юридических, судебных и исторических целях.

Чтобы подготовиться к хакатону, мы создали платформу, которую разработчики и журналисты могли использовать для общения и взаимодействия в день мероприятия. Мартин Сарсале разработал несколько базовых алгоритмов для извлечения структурированных данных из простых текстовых документов. Некоторые библиотеки также были взяты с DocumentCloud.org и использованы в проекте, но таковых было немного. Платформа позволяла автоматически анализировать и извлекать имена и фамилии, даты и места из текстов – и давала возможность пользователям изучать ключевые факты о различных случаях (даты рождения, места арестов, предполагаемые места исчезновения, и так далее).

Нашей целью было предоставить платформу для автоматического извлечения данных по приговорам и решениям судов времен военной диктатуры в Аргентине. Мы хотели найти способ автоматически (или, по крайней мере, полуавтоматически) показывать ключевые данные, связанные с делами 1976–1983 годов, основанными на письменных свидетельствах, аргументах и приговорах. Извлеченные данные (имена, фамилии, места и даты) собираются, хранятся и могут быть проанализированы, просеяны и улучшены исследователем. Также их можно использовать при помощи карт, графиков и инструментов сетевого анализа.

Проект позволяет журналистам и следователям, работникам прокуратуры и свидетелям отслеживать историю жизни человека, включая ход их пленения, и последующего исчезновения или освобождения. Там, где информация отсутствует, пользователи имеют возможность прошерстить огромное количество документов в поисках информации, которая, возможно, может иметь отношение к делу.

Для того, чтобы собрать хакатон, мы сделали публичное объявление через Hacks/Hackers Buenos Aires, в котором тогда было около 200 членов (на момент написания главы их уже 540). Мы также вступили в контакт со многими ассоциациями защиты прав человека. На встрече присутствовали около сорока человек, включая журналистов, представителей правозащитных организаций, разработчиков и дизайнеров.

Во время хакатона мы определили задачи, которые разные типы участников могли бы пытаться решать независимо, чтобы способствовать тому, чтобы процесс шел мягко и безболезненно. Например, мы попросили дизайнеров поработать над интерфейсом, который сочетал бы карты и графики и временные шкалы, мы попросили разработчиков поискать способы извлечения структурированных данных и алгоритмы для устранения возможности различного толкования названий, а журналистов мы попросили посмотреть, что произошло с конкретными людьми, сравнить разные версии материалов и прошерстить документы, чтобы рассказать истории о конкретных случаях.

Возможно, основной проблемой, которая у нас была после хакатона, было то, что наш проект был очень уж амбициозным, наши краткосрочные цели требовали больших затрат и усилий, а скоординировать слабо соединенную сеть добровольцев довольно сложно. Практически у каждого вовлеченного в проект была основная отнимающая время работа, многие также участвовали в других эвентах и проектах. У Hacks/Hackers Buenos Aires было 9 встреч в 2011 году.

Сейчас проект активно развивается. Существует ядро команды в виде четырех человек, работающих с более чем десятью сотрудниками, участниками коллективной работы. У нас имеется открытый список рассылки, список постоянных адресатови хранилище кодов, посредством которых абсолютно любой может участвовать в проекте.

– Мариано Блейман, Hacks/Hackers Buenos Aires

Освещение волнений в Великобритании в Guardian Datablog

Рис 42. Волнения в Великобритании: каждый подтвержденный инцидент(The Guardian)

Летом 2011 года Великобританию охватила волна беспорядков. В то время политики полагали, что эти события категорически не связаны с проблемами бедности и нищеты, а те, кто грабили, были просто преступниками. Более того, премьер–министр вместе с ведущими политиками из числа консерваторов обвинил социальные сети в том, что они становятся причиной беспорядков, предположив, что на этих платформах имело место подстрекательство, и что эти волнения организовывались через Facebook, Twitter и Blackberry Messenger (BBM). Раздавались даже призывы временно закрыть социальные сети. И так как правительство не инициировало расследование причин беспорядков, газета Guardian в сотрудничестве с Лондонской школой экономики реализовала ставший прорывом проект «Истолковывая беспорядки»(Reading the Riots), чтобы ответить на этот вопрос.

Газета вовсю использовала журналистику данных, чтобы дать возможность общественности лучше понять, кто занимался грабежами и почему. Более того, они также работали с другой группой ученых, возглавляемой профессором Робом Проктером в Университете Манчестера, чтобы лучше понять роль социальных медиа, которые сама Guardian активно использовала для своих материалов во время беспорядков. Команду создателей проекта Reading the Riots возглавлял Пол Льюис (Paul Lewis), редактор спецпроектов Guardian. Во время самих беспорядков Пол вел репортажи с мест событий в городах по всей Англии (в том числе через аккаунт в Твиттере, @paullewis). Эта вторая команда обработала более чем 2,6 миллиона твитов о беспорядках. Основной целью работы с этой социальной сетью было посмотреть, как в Твиттере циркулировали слухи, определить ту функцию, которую выполняли разные пользователи в распространении информационных потоков, чтобы увидеть, использовалась ли эта платформа для подстрекательств, и изучить другие формы организации.

В плане использования журналистики данных и визуализации данных полезно различать два ключевых периода: период собственно самих беспорядков и те способы, которыми данные помогали создавать сюжеты и материалы тогда, когда разворачивались волнения; и потом второй период гораздо более интенсивных исследований двух групп ученых, работающих с Guardian, по сбору данных, их анализу и глубокому изучению выводов. Результаты первой фазы проекта «Истолковывание беспорядков» были опубликованы в неделю активного освещения темы в начале декабря 2011 года. Ниже приведен ряд ключевых примеров того, как в оба этих периода использовался метод журналистики данных.

Фаза один: Беспорядки как они произошли

Посредством использования простых карт команда Guardian показала места, в отношении которых имелась подтвержденная информация о том, что там зарождались беспорядки, и за счет смешения и наложения данных о терпимых гражданами лишениях на данные о том, где зарождались беспорядки, газета смогла начать развенчивать основной политический посыл о том, что никакой связи с бедностью и нищетой не было. В обоих этих примерах использовались готовые, имеющиеся в наличии стандартные инструменты для составления карт, а во втором примере объединение данных о местоположениях с другим набором данных позволило начать устанавливать новые связи и проводить новые параллели.

Что же касается использования социальных медиа во время беспорядков, в данном случае, Твиттера, газета сделала визуализацию связанных с беспорядками и использовавшихся в тот период хэштегов, которая показала, что Твиттер использовался в основном для того, чтобы реагировать на беспорядки, а не для того, чтобы организовывать людей для занятия грабежами, и что активность под хэштегом #riotcleanup, спонтанно возникшей кампании по уборке улиц после беспорядков, продемонстрировала наиболее значительный всплеск во время периода беспорядков.

Фаза два: Прочтение/толкование беспорядков

Когда газета сообщила о своих выводах по результатам месяцев интенсивных исследований и тесной работы с двумя командами ученых, были сделаны две визуализации, которые начали широко обсуждаться. Первая, короткое видео, показывает результаты объединения данных об известных местах, где люди устраивали беспорядки, с их домашними адресами, и демонстрирующая так называемое «расстояние от места жительства до мест бунта». Тут газета поработала вместе со специалистом по транспортному картографированию, компанией ITO World, чтобы смоделировать наиболее вероятные маршруты, проезжаемые или проходимые участниками беспорядков, когда они отправлялись на грабежи, выделив различные образцы таких маршрутов для разных городов. Заодно выяснилось, что некоторым пришлось преодолеть изрядное расстояние.

Вторая визуализация показывает, каким образом распространялись слухи в Твиттере. После обсуждения с командой ученых было решено проанализировать семь различных слухов. Научная группа потом собрала все данные, имеющие отношение к каждому из слухов, и разработала график кодировки, по которому всем соответствующим твитам был присвоен один из четырех вариантов кода: когда люди просто повторяли, ретранслировали слух (заявление), отклоняли его (контр–заявление), ставили его под вопрос (сомнение) или просто комментировали (комментарий). Все твиты получили тройные коды и результаты были визуализированыгруппой Guardian по интерактивам. Guardian написала о том, как она конструировала эту визуализацию.

Что особенно примечательно и поразительно в этой визуализации, так это то, насколько мощно она показывает то, что очень трудно описать, и то, что касается вирусной природы слухов, и способов, которыми их жизненный цикл со временем выдыхается. Роль ведущих средств массовой информации очевидна в некоторых из этих слухов (например, в случаях прямого их разоблачения, или быстрого подтверждения их в виде новостей), как очевидна и корректирующая природа самого Твиттера в плане работы с такими слухами. Эта визуализация не только здорово помогла в создании сюжетов и материалов на тему, но также дала правильное понимание того, как работают слухи в Твиттере, что дает информацию, которая будет полезной при работе с будущими событиями.

Что становится совершенно ясно из последнего примера, так это мощная синергия между газетой и научной командой, способной осуществить глубокий анализ 2,6 миллиона посвященных беспорядкам твитов. Хотя команда ученых и создала набор сделанных на заказ инструментов, чтобы провести свой анализ, сейчас они работают над тем, чтобы сделать эти инструменты широко доступными любому желающему, кто захочет использовать ихдолжным образом, предоставляя своего рода верстак, рабочую поверхность, инструментальные средства для анализа. В сочетании с практическим руководством от команды Guardian получилось полезное ситуационное исследование того, как подобный анализ социальных медиа и визуализация могут быть использованы другими при создании сюжетов и материалов на столь важные темы.

– Фарида Вис, Университет Лестера

Сводные таблицы школ Иллинойса

Рис 43. Сводные таблицы школ Иллинойса 2011 года(Chicago Tribune)

Каждый год управление по делам образования штата Иллинойс публикует так называемые школьные «табели успеваемости», данные о демографическом составе и о результатах работы всех государственных школ Иллинойса. Это огромный набор данных, в этом году итоговый документ состоял более чем из 9 500 столбцов. Обычной проблемой со столь гигантскими наборами данных является проблема выбрать, что из этих данных показать (как с любым софтверным проектом, самое сложное – это не создать собственно программу, а сделать правильную программу).

Мы работали вместе с журналистами и редактором из отдела образования над выбором наиболее интересных данных (там полно данных, которые кажутся интересными, но про которые опытный журналист вам легко скажет, что они на самом деле неполноценны, небезупречны или вводят в заблуждение).

Мы также опросили и проинтервьюировали тех коллег по ньюсруму, у которых есть дети школьного возраста. Мы сделали это из–за того, что в нашей команде поставить себя в положение другого в этом смысле было сложно – в отделе, занимающемся новостными приложениями, ни у кого не было детей школьного возраста. По ходу дела мы многое узнали о наших пользователях и об удобстве и простоте использования, юзабилити (или отсутствии таковой) предыдущей версии нашего школьного сайта.

Нашей целью было сделать дизайн, предназначенный для пары конкретных типов пользователей в конкретных ситуациях: наш проект был призван служить интересам (1) родителей, чьи дети ходят в школу, и которые хотят знать, насколько их школа удовлетворяет требованиям, и (2) родителей, которые пытаются выбрать место жительства, так как качество школ часто в значительной степени влияет на это решение.

В первый раз работа над школьным сайтом заняла шесть недель, и работали над ним два разработчика. Обновленная версия 2011 года потребовала четырех недель и тоже труда двух разработчиков (на самом деле активно над последним проектом работали три человека, но никто не работал на полную ставку, так что в итоге можно сказать, что их было два).

Ключевым моментом этого проекта стал информационный дизайн. Хотя мы демонстрировали значительно меньше данных, если сравнивать со всем тем объемом оных, что был доступен, их, этих самых данных, было по–прежнему много, и задача сделать их удобоваримыми и легко усваиваемыми была не такой уж простой. К счастью, нам удалось одолжить специалиста из нашего графического отдела – дизайнера, который специализируется на представлении сложной информации. Он многому научил нас в том, что касается построения карт, схем, таблиц и графиков, и, в общем и целом, задал нам направление на пути к созданию такой презентации, которая была бы читаемой, но и не недооценивала способность или желание читателя понимать и анализировать цифры.

Сайт был создано в Python и Django. Данные хранились в MongoDB – школьные данные неоднородны и иерархичны, поэтому они плохо подходят для реляционной базы данных (в противном случае мы, возможно, воспользовались бы PostgreSQL).

Мы также впервые в этом проекте экспериментировали со стандартами твиттеровского пользовательского интерфейса Bootstrap, и были довольны результатами. Схемы и графики чертились при помощи Flot.

В приложении также содержатся многочисленные материалы о работе школ, которые мы сами написали. То есть оно, приложение, играет некоторым образом роль портала – когда появляется новая история, новый материал о школьном образовании, мы поднимаем его наверх приложения и помещаем рядом со списком школ, имеющих отношение к этому материалу (а когда этот сюжет становится популярным и набирает много «хитов», читателей chicagotribune.com начинают перенаправлять уже на само приложение, а не на материал).

Согласно первым отзывам, читателям понравилось школьное приложение. Информация, которую мы получили в ходе обратной связи, носила и носит, в основном, позитивный характер (или, по крайней мере, конструктивный!), а количество просмотров страниц – зашкаливает просто выше крыши. В качестве бонуса стоит отметить то, что эти данные будут оставаться представляющими интерес целый год, так что хотя мы и ожидаем падения числа «хитов» на школьных сюжетах по мере того, как они будут исчезать с главной страницы, наш прошлый опыт показывает, что читатели возвращались к этому приложению в течение всего года.

Вот несколько ключевых идей, которые мы извлекли из этого проекта:

 Графический отдел – ваш друг. У них хорошо получается делать сложную информацию удобоваримой и доступной для понимания.

 Просите помощь ньюсрума, помощь всей редакции. Это уже второй проект, для которого мы проводим исследования и интервью в рамках всего ньюсрума, это отличный способ собрать мнения думающих людей, которые, как и наша аудитория, очень сильно различаются по своим исходным данным, по уровню и типу образования, и т.п., и обычно далеко не «на ты» с компьютером.

 Показывайте вашу работу! Большую часть ответной реакции для нас составили запросы на данные, а не на приложение. Мы сделали большую часть данных публично доступными через прикладной программный интерфейс, и вскоре мы выпустим материал, который изначально вообще не планировали включать в проект.

– Брайан Бойер, Chicago Tribune

Выставление счетов в больницах

Рис 44. Kwashiorkor(California Watch)

Журналисты, занимающиеся расследовательской журналистикой в CaliforniaWatch, получили сведения о том, что крупная сеть больниц в Калифорнии, возможно, систематически обманывает федеральную программу Medicare, которая оплачивает медицинское лечение американцев в возрасте 65 лет и старше. Конкретно в том случае, о котором шла речь, говорилось о предполагаемой схеме под названием «завышение, проставление преувеличенных кодов», что означало, что в федеральную программу сообщалось, что у пациентов более серьезные случаи, и нужно более серьезное лечение, требующее более высокой материальной компенсации, чем это было на самом деле. Но главным источником этой информации был профсоюз, который боролся с руководством этой сети клиник, и команда CaliforniaWatch знала, что для того, чтобы сюжет вызывал доверие, необходимо независимое подтверждение информации из иных источников.

К счастью, у департамента здравоохранения Калифорнии были публично доступные записи, которые давали очень подробную информацию о каждом случае лечения во всех государственных больницах. Выборка из 128 случаев содержала 25 вариантов кодов диагноза из руководства под названием «Международная статистическая классификация болезней и проблем, связанных со здоровьем», известного также как ICD–9, который издает Всемирная организация здравоохранения (ВОЗ). И хотя пациентов в этих данных не указывали по имени, можно было узнать много косвенных данных, в том числе возраст пациента, как оплачивалось лечение и в какой конкретно больнице его или ее лечили. Журналисты поняли, что имея эти записи, они могут узнать, сообщали ли больницы, принадлежащие к вышеозначенной сети больниц, о случаях определенных заболеваний или диагнозах, значительно чаще, чем другие лечебные учреждения.

Объемы данных были большими; примерно по 4 миллиона записей в год, а журналисты хотели изучить и проанализировать временной период в 6 лет, чтобы увидеть, как ситуация менялась со временем (если менялась). Они затребовали данные у федеральной службы; данные поступили на СD, которые потом были легко скопированы в настольный компьютер. Журналист, который делал фактический анализ данных, воспользовался для работы с информацией системой под названием SASSAS – это очень мощный инструмент, позволяющий анализировать миллионы записей), он используется многими правительственными учреждениями, включая калифорнийский департамент здравоохранения, но этот инструмент дорог – такого же рода анализ можно было бы сделать при помощи любого другого инструмента по работе с базами данных, типа Microsoft Access или бесплатного MySQL.

Имея на руках данные, и программы, написанные для их изучения, мы могли легко начать искать похожие случаи. Например, в качестве одного из выдвинутых обвинений фигурировало то, что больницы сети сообщали о случаях выявления разной степени недоедания или неполноценного питания гораздо чаще, чем другие больницы. Используя SAS, специалист, занимавшийся анализом данных, извлек таблицы сравнения частоты встречаемости, которые показали, что в среднем в год каждая из калифорнийских больниц неотложной помощи и интенсивной терапии сообщала о более чем трехстах случаях недоедания или истощения. Таблицы частоты встречаемости были импортированы в Microsoft Excel для более пристального изучения записей по каждой из больниц; тут очень помогло умение Excel отсортировывать, фильтровать и считать исходные данные, что позволило легко обработать все данные.

Особенно бросались в глаза сообщения о состоянии пациентов, известном как квашиоркор (маразматический квашиоркор или детская пеллагра), синдром белковой недостаточности, который встречается практически исключительно у голодающих детей младшего возраста в охваченных проблемой голода развивающихся странах. А больницы из указанной сети сообщали о случаях диагностирования квашиоркора у пожилых калифорнийцев примерно в 70 раз чаще, чем в среднем все больницы штата.

По другим случаям мы использовали аналогичную технику анализа для изучения случаев сообщения о диагнозахтипа общей гнойной инфекции, энцефалопатии, злокачественной гипертензии и нарушения работы автономных нервных волокон. И в рамках еще одного анализа мы изучили обвинения в том, что больницы сети переводили необычайно высокий процент пациентов, обслуживавшихся по Medicare, из палат отделения интенсивной терапии в стационары – учитывая, что источники финансирования таких пациентов для больницы были более надежными, чем источники финансирования других больных, лежавших в интенсивной терапии.

Подводя итоги, можно сказать, что материалы, подобные вышеозначенным, стали возможны, когда мы начали использовать данные для предоставления доказательств, для того, чтобы независимым путем проверить обвинения, сделанные источниками, которые могут считаться заинтересованной стороной. Эти сюжеты также являются хорошим примером необходимости наличия сильных законов о публичном доступе к документам; причина, по которой властям нужно, чтобы больницы сообщали эти данные, заключается именно в том, чтобы можно было провести подобный анализ, и чтобы провести его мог кто угодно – и сами власти, и ученые, и следователи, и даже гражданские журналисты. Тема этих сюжетов очень важна, потому что в них изучается то, должным ли образом тратятся миллионы долларов государственных денег.

– Стив Дойг, Школа журналистики Уолтера Кронкайта, Университет штата Аризона

Назад к карточке книги "Пособие по журналистике данных"