355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Д. Грей » Пособие по журналистике данных » Текст книги (страница 11)
Пособие по журналистике данных
  • Текст добавлен: 26 сентября 2016, 16:16

Текст книги "Пособие по журналистике данных"


Автор книги: Д. Грей


Жанр:

   

Справочники


сообщить о нарушении

Текущая страница: 11 (всего у книги 21 страниц)

Кризис домов престарелых

Рис 45. Частному уходу грозит кризис(Financial Times)

Расследование Financial Timesотрасли частных домов престарелых позволило вскрыть информацию о том, как некоторые инвесторы, работающие на рынке частных инвестиций, превратили уход за пожилыми людьми в машину для извлечения прибыли, и осветить проблему человеческих потерь в результате бизнес–модели, которая ставила во главу угла прибыль от инвестиций в ущерб хорошему и качественному уходу.

Анализ оказался очень своевременным, потому что финансовые проблемы организации «Южный Крест» (Southern Cross), тогда являвшейся крупнейшим в стране оператором домов престарелых, достигли критической стадии. Правительство десятилетиями продвигало курс на приватизацию в секторе заботы о пожилых людях, и продолжало расхваливать частный сектор в связи с его умелой бизнес–практикой.

Наше расследование началось с анализа данных, которые мы получили от британского регулятора, отвечающего за инспекции и проверки домов престарелых. Информация была публично доступной, но требовала большой настойчивости и упорства, чтобы получить данные в такой форме, которая будет пригодна для нормального использования.

Данные включали в себя рейтинги (ныне уже несуществующие) качества работы конкретных домов престарелых, и указание на то, являлись ли они частными, государственными или были под контролем некоммерческих организаций. Комиссия по качеству ухода (Care Quality Commission – CQC) вплоть до июня 2010 года присваивала домам престарелых тот или иной рейтинг по качеству их работы (от нуля, что соответствовало плохому качеству, до трех звездочек, что соответствовало отличному качеству).

Первый шаг потребовал масштабной очистки данных, так как данные, представленные Комиссией по качеству ухода, например, содержали распределение по категориям, которое не было универсальным. Эту часть работы мы делали, в основном, при помощи Excel. Мы также определили – при помощи кабинетного и телефонного исследований – владели ли теми или иными домами престарелых группы частных инвесторов. До финансового кризиса сектор ухода за пожилыми людьми служил мощным магнитом для инвесторов, но некоторые из них, такие как «Южный крест» – начали испытывать серьезные финансовые затруднения. Мы хотели установить, какое воздействие факт частного владения домом престарелых оказывал на качество ухода в нем.

Относительно незатейливый и не очень сложный набор подсчетов в Excel позволил нам установить, что дома престарелых, находившиеся в собственности государства или под управлением некоммерческих организаций, в среднем демонстрировали значительно лучшие результаты деятельности, чем аналогичные организации частного сектора. Некоторые группы частных инвесторов, владеющие домами престарелых, в среднем тоже показывали неплохие результаты, а остальные были значительно ниже среднего.

Вкупе с материалами с мест событий, конкретными примерами небрежного отношения к своим обязанностям и глубоким анализом ошибок в политике регулирующих органов, а также другими данными по уровню оплаты услуг, по обороту и т.п., наш анализ смог нарисовать картину подлинного положения дел в сфере ухода за пожилыми людьми.

Подсказки и практические советы:

 Убедитесь, что вы храните записи о том, что вы делаете с оригинальными данными.

 Сохраняйте копию оригинальных данных и никогда не вносите изменений в оригинал.

 Проверяйте и перепроверяйте данные. Осуществляйте анализ несколько раз (если нужно, то перепроверяйте с самого начала).

 Если вы упоминаете конкретные компании или конкретных частных лиц в своих материалах, дайте им право на ответную реакцию.

Синтия О'Мурчу, Financial Times

Откровенный телефон

Рис 46. Откровенный телефон(Zeit Online)

Большинство людей лишь чисто теоретически в курсе, что на самом деле можно сделать с данными, которые предоставляют наши мобильные телефоны; слишком мало было примеров из реального мира. Вот почему Мальте Спитц (Malte Spitz) из германской Партии зеленых решил опубликовать свои собственные данные. Чтобы получить доступ к информации, ему пришлось подать судебный иск против телекоммуникационного гиганта Deutsche Telekom. Эти данные стали основой для сопроводительной интерактивной карты ZEIT Online, содержались же они в массивном документе Excel. Каждая из 35 831 строчки файла представляла собой случай, когда мобильный телефон Спитца передавал информацию – это были данные за полугодовой период.

Если взглянуть на каждую из них в отдельности, то поодиночке они практически безвредны. Но если их взять все в совокупности, то получится, что все вместе они представляют собой то, что следователи называют профайлом, описанием, досье – четкую картину привычек и предпочтений конкретного лица, да и в целом, его или ее жизни. Этот профайл позволяет узнать все – когда Спитц шел вниз по улице, когда он сел на поезд, когда он был в самолете. Эта информация показывает, что в основном он работает в Берлине, а также рассказывает о том, какие города он посетил. Она рассказывает о том, когда он проснулся и когда заснул.

Чтобы проиллюстрировать то, сколь много подробности из чьей–то жизни можно извлечь из этих сохраненных данных, ZEIT Online «дополнил» информацию Спитца записями, к которым может получить доступ любой – твитами политика и его записями в блоге. В общем, прибавил все это к данным о его передвижениях. Это процесс такого рода, какой любой хороший следователь, вероятно, использует в отношении человека, находящегося под наблюдением. ZEIT Online решил не публиковать только одну часть записей Спитца, а именно, поименный список тех, кому звонил он и кто звонил ему. Такого рода информация не только нарушит тайну частной жизни многих людей, она также раскроет слишком много информации о Спитце, даже если номера телефонов зашифровать (но агенты спецслужб в реальном мире имели бы доступ к этой информации).

Нам было очень приятно работать с Лоренцом Матцатом (Lorenz Matzat) и Михаэлем Крейлем (Michael Kreil) из Open Data City над поиском решения, как понять и извлечь геолокационную информацию из набора данных. Для каждого соединения мобильного телефона Спитца мы произвели триангуляцию в зависимости от положения полюса антенны. У каждой антенны имеется три полюса, каждый из которых охватывает угол в 120 градусов. Два программиста выяснили, что сохраненное положение указывало направление от мачты, через которую мобильный телефон Спитца производил соединение.

Сопоставляя эти данные с положениями антенн, взятых с сайта государственного агентства, мы получили возможность узнать информацию о его положении в каждую из 260 640 минут того 181 дня, за которые у Спитца был отчет, и нанести эти данные через API на карту Google Map. Вместе с нашей собственной графическо–дизайнерской командой мы создали великолепный интерфейс для навигации: нажимая кнопку «play», можно было отправиться в путешествие по жизни Мальте Спитца.

После очень успешного запуска проекта в Германии, мы отметили, что он генерирует очень большой трафик из–за границы, и решили создать заодно и английскую версию приложения. Получив немецкую награду Grimme Online Award, проект был удостоен еще и награды ONA Award в сентябре 2011 года, это был первый подобный случай для немецкого новостного вебсайта.

Смотретьданные.

Читатьматериал.

Саша Венор, Zeit Online

Какой автомобиль выбрать? Рейтинг поломок от Минтранса

Рис 47. Рейтинг поломок от Министерства транспорта(BBC)

В январе 2010 года ВВС получила данных об автомобилях, прошедших и не прошедших тесты Министерства транспорта, для разных марок и моделей машин. Это тест, который проводится для того, чтобы оценить, является ли автомобиль безопасным и пригодным для эксплуатации. Любой автомобиль в возрасте старше трех лет обязан проходить проверку Минтранса ежегодно.

Мы получили данные согласно правилу свободы информации после 18–месячной битвы с VOSA, агентством Министерства транспорта, которое отвечает за систему проверок Минтранса. Агентство VOSA поначалу отклонило наш запрос на предоставление данных по правилу свободы информации под предлогом, что это нарушит коммерческую конфиденциальность. Агентство заявило, что это может принести коммерческий ущерб производителям автотранспортных средств, у которых высокий рейтинг поломок. Однако мы подали апелляцию Комиссару по информации, который вынес решение о том, что раскрытие информации будет в интересах общественности. И только тогда VOSA предоставило данные, через 18 месяцев после того, как мы направили запрос об их предоставлении.

Мы проанализировали цифры, сконцентрировав внимание на наиболее популярных моделях и сравнив машины того же возраста. И тут были выявлены серьезные расхождения. Например, среди всех машин трехлетнего возраста 28% автомобилей Renault Mégane не прошли свои тесты Минтранса, по сравнению с всего 11% машин марки Toyota Corolla. Цифры были озвучены по телевидению, радио и в онлайне.

Данные были предоставлены нам в форме 1200–страничного PDF–документа, который нам потом пришлось конвертировать в таблицу, чтобы провести анализ. Вместе с нашими выводами мы опубликовали эту таблицу в Excel (с более чем 14 000 строками данных) на сайте ВВС News вместе с нашим сюжетом. Это дало всем остальным доступ к данным в приемлемой для обработки форме.

Результатом стало то, что другие потом использовали эти данные для своего собственного анализа, который у нас не было времени провести, так как мы спешили выдать сюжет побыстрее, или когда в некоторых случаях такой анализ превышал наши технические возможности на тот момент. Сюда входило и изучение рейтинга поломок для машин других возрастов, сравнение по производителям, а не по конкретным моделям, и создание удобных для поиска баз данных, в которых можно было просмотреть результаты по конкретным моделям. Мы добавили ссылки на эти сайты в наш онлайн–текст, так что наши читатели могли воспользоваться плодами этой дополнительной работы.

Это продемонстрировало ряд преимуществ публикации исходных данных вместе с построенным на этих данных сюжетом. Тут могут быть исключения (например, если вы планируете использовать данные для других последующих сюжетов позднее и хотите сохранить исходники для собственного использования на какое–то время), но в целом публикация исходных данных дает некоторые важные преимущества.

 Ваша работа заключается в том, чтобы найти информацию и рассказать о ней людям. Если вы столкнулись с проблемами в получении всех необходимых данных, это часть вашей работы, которую можно передать дальше.

 Другие люди могут найти и выделить определенные интересные моменты, которые вы упустили, или просто найти детали и подробности, которые имеют значение для них, даже если они оказались недостаточно важными для того, чтобы удостоиться освещения в вашем собственном сюжете.

 Другие могут построить на основе вашей работы дальнейшие изыскания, провести более подробный анализ данных или применить другую технику для предоставления и визуализации цифр, используя свои собственные идеи или технические навыки, которые могут дать возможность продуктивным образом обработать данные иными способами.

 Это часть процесса встраивания подотчетности и прозрачности в журналистский процесс. Другие могут при желании понять ваши методы и проверить вашу работу.

Мартин Розенбаум, BBC

Субсидирование автобусных перевозок в Аргентине

Начиная с 2002 года субсидирование общественного автобусного транспорта в Аргентине росло по экспоненте, каждый год ставя новые рекорды. Но в 2011 году, после победы на выборах, новое правительство Аргентины объявило о сокращении субсидирования коммунальных услуг начиная с декабря того же года.

В то же самое время национальное правительство решило передать управление и администрирование местных автобусных маршрутов и линий метро властям города Буэнос–Айреса. А так как вопрос с переводом субсидий этому местному правительству не был четко разрешен, а соответствующих местных фондов было недостаточно, чтобы гарантировать безопасность транспортной системы, власти города Буэнос–Айрес отклонили это решение.

Когда происходил этот процесс, мои коллеги в La Nación и я в первый раз встречались для того, чтобы обсудить, как нам начать работать в области журналистики данных. Наш редактор финансового отдела предложил начать с данных о субсидиях, публикуемых Министерством транспорта  – это стало бы хорошей проблемой, с изучения которой можно было бы начать, так как из этих данных очень сложно было извлечь смысл – из–за неудобного формата и непонятной терминологии.

Плохое состояние системы общественного транспорта влияет на жизнь более чем 5 800 000 пассажиров каждый день. Опоздания, задержки, забастовки, поломки транспорта и аварии происходят все чаще и чаще. Поэтому мы решили взглянуть на то, куда уходят деньги, выделяемые в Аргентине на субсидирование общественного транспорта, и сделать полученную информацию легко доступной для всех граждан Аргентины посредством нашего проекта «Исследователь транспортных субсидий» (Transport Subsidies Explorer), который сейчас продолжает наполняться информацией.

Рис 48. The «Исследователь транспортных субсидий» (Transport Subsidies Explorer)(La Nación)

Начали мы с того, что подсчитали, сколько автобусные компании получают каждый месяц от государства. Чтобы сделать это, мы просмотрели все данные, публикуемые на вебсайте Министерства транспорта, где мы нашли больше 400 PDF–файлов, содержащих информацию о ежемесячных денежных выплатах более чем тысяче тремстам компаний начиная с 2006 года.

Рис 49. Рейтинг субсидируемых транспортных компаний (La Nación)

Мы объединились со старшим программистом, чтобы разработать программу для автоматизации процесса регулярного скачивания и преобразования этих PDF–файлов в файлы Excel и баз данных. Получившийся в результате набор данных из более чем 285 000 записей мы используем в наших исследованиях и для визуализации информации, как в печатном виде, так и в режиме онлайн. Вдобавок, мы делаем эти данные доступными в машиночитаемом формате для каждого аргентинца, который может сам их использовать или поделиться ими с кем–то.

Следующим шагом было определить, в какую сумму обходилось властям ежемесячное содержание единицы общественного транспорта в среднем. Чтобы выяснить это, мы направились на другой правительственный вебсайт, сайт Национальной комиссии по транспортному регулированию ( Comisión Nacional de Regulación del Transporte  – CNRT), которая отвечает за регулирование транспортной отрасли в Аргентине. На этом сайте мы нашли список автобусных компаний, которые все вместе в совокупности владели 9 000 транспортных средств. Мы разработали нормализатор, чтобы сверить и согласовать между собой названия автобусных компаний и сделать перекрестные ссылки между двумя наборами данных.

Чтобы идти дальше, нам требовался регистрационный номер каждого транспортного средств. Мы нашли на сайте CNRT список автобусов каждой компании с их номерами. Регистрационные номера в Аргентине состоят из букв и цифр, которые соответствуют «возрасту» транспортного средства. Например, номер моей машины – IDF234, где I соответствует марту–апрелю 2011 года. Мы декомпилировали номера автобусов, принадлежащих всем компаниям из списка, чтобы выяснить средний возраст автобусов в той или иной компании, и тем самым показать, сколько денег идет каждой компании, и сравнить суммы со средним возрастом их парка транспортных средств.

Рис. 50. Сравнение возраста автобусного парка с суммами, которые соответствующие компании получают от властей. (La Nación)

В разгар этого процесса содержание выпущенных властями PDF–файлов с данными, которые были нам нужны, таинственным образом изменилось, хотя URL–ы и названия файлов остались теми же самыми. Что именно изменилось? А изменилось то, что в некоторых PDF–файлах исчезли вертикальные графы «всего», что сделало невозможным перекрестные проверки по всему исследуемому временному периоду, с 2002 по 2011 годы.

Мы вынесли этот вопрос на хакатон, организованный группой Hacks/Hackers в Бостоне, где разработчик Мэтт Перри (Matt Perry) щедро создал и поделился с нами приложением, которое мы назвали «PDF–шпион» (PDF Spy). Это приложение было отмечено в номинации «Самое интригующее» на этом мероприятии. «PDF–шпион» ( PDF Spy) обрабатывает веб–страницу с PDF–файлами и проверяет, изменилось ли содержание этих PDF–файлов. «Никого больше не обманет и не оставит в дураках «правительственная прозрачность», – отмечает Мэтт Перри.

Кто работал над проектом?

Команда из семи журналистов, программистов и интерактивного дизайнера трудилась над этим исследованием в течение 13 месяцев.

Опыт и навыки, которые нам требовались для этого проекта:

 Журналисты, знающие, как работает система субсидирования общественного транспорта, и каковы риски; журналисты, знакомые с рынком автобусных компаний.

 Программист, обладающий опытом в извлечении данных из интернета, их разборе и нормализации, извлечении информации из PDF–файлов и переводе их в таблицы Excel.

 Статистик для проведения анализа данных и различных подсчетов.

 Дизайнер для создания решений в области интерактивной визуализации данных.

Какие инструменты мы использовали?

Мы использовали в нашем «Исследователе субсидий» VBasic для приложений, макросы в Excel, Tableau Public и Junar Open Data Platform, а также Ruby on Rails, инструмент Google Сhart API и Mysql.

Проект оказал большое влияние. У нас были зафиксированы десятки тысяч просмотров, и расследование было отмечено на первой странице печатной версии La Nación.

Успех этого первого проекта в области журналистики данных помог нам на внутреннем уровне создать прецедент такой работы с данными, которая охватывала бы область расследовательской журналистики и предоставляла новый сервис общественности. Результатом этого стало появление Data.lanacion.com.ar, платформы, где мы публикуем данные по различным представляющим интерес для общественности данным в машиночитаемом формате.

Ангелика Перальта Рамос, La Nación, Аргентина

Журналисты, занимающиеся данными о гражданах

Рис 50. Проект в области гражданской журналистики под названием «Друзья Януарии» (Friends of Januária) обучает ключевым навыкам, превращая граждан в журналистов данных (Friends of Januária)

Большие редакции и ньюсрумы – не единственные, кто может работать над сюжетами, создаваемыми на основе данных. Те же самые навыки, которые полезны для журналистов, занимающихся журналистикой данных, также могут помочь гражданским журналистам получить доступ к данным об их родной местности, об их районе, и превратить их в сюжеты.

Это было основной мотивацией проекта в области гражданской журналистики под названием «Друзья Януарии» ( Friends of Januária) в Бразилии, который получил грант от организации Rising Voices, подразделения Global Voices Online, и дополнительную поддержку от организации Article 19. В период с сентября по октябрь 2011 года группа молодых жителей небольшого городка, расположенного на севере штата Минас–Жерайс, который является одним из беднейших районов Бразилии, обучалась основам журналистской техники и училась заниматься мониторингом бюджета. Они также научились тому, как делать запросы в рамках свободного доступа к информации и как получать публично доступную информацию из официальных баз данных в интернете.

Януария, город с населением примерно в 65 000 жителей, также известен неудачами своих местных политиков. За три четырехлетних срока у него было семь разных мэров. Почти все из них были убраны со своих постов из–за злоупотреблений и правонарушений на государственной службе, включая обвинения в коррупции.

Маленькие городки, такие как Януария, часто остаются вне зоны внимания бразильских средств массовой информации, которые концентрируют свое внимание, в основном, на крупных городах и столицах штатов. Однако существует возможность для жителей маленьких городов стать потенциальными союзниками в деле мониторинга деятельности государственной администрации, потому что они знакомы с повседневными проблемами, которые встают перед их общинами, лучшем чем кто бы то ни было. А используя интернет в качестве еще одного важного союзника, жители теперь имеют возможность получать более качественный и легкий доступ к разной информации, такой как бюджет и иные местные данные.

Приняв участие в двенадцати семинарах, некоторые из новоявленных гражданских журналистов из Януарии начали демонстрировать, как эту концепцию использования публично доступных данных в небольших городках можно воплотить на практике. Например, Сорайя Аморим (Soraia Amorim), 22–летняя жительница города и гражданская журналистка, написала статью о количестве врачей, которые получают в городе государственную зарплату, согласно данным федерального правительства. Однако она раскопала, что официальное количество не совпадает с реальной ситуацией в городе. Чтобы написать эту статью, Сорайя воспользовалась доступом к данным о системе здравоохранения, которые доступны в режиме онлайн на вебсайте системы здравоохранения SUS ( Sistema Único de Saúde or Unique Health System, это федеральная программа, которая предоставляет бесплатную медицинскую помощь населению Бразилии. По данным SUS, в Януарии должен был быть 71 врач разных специальностей.

Количество докторов, которое указывала система SUS, не соответствовало тому, что Сорайя сама знала о врачах в своем районе: жители всегда жаловались на нехватку врачей, а некоторым пациентам приходилось для визита к врачу ездить в соседние города. Позднее она взяла интервью у женщины, которая недавно попала в мотоциклетную аварию, и не смогла найти помощь в больнице Януарии, потому что там не было врача. Она также пообщалась с местным министром здравоохранения, который признал, что в городе меньше врачей, чем должно быть по данным SUS.

Эти первоначальные открытия и выводы ставят много вопросов о причинах такой разницы между официальной информацией, публикуемой онлайн, и городской действительностью. Один из вариантов позволяет предполагать, что это может объясняться тем, что федеральные данные неверны, что может означать факт нехватки важной информации о системе здравоохранения в Бразилии. Или другая возможность – может быть, это Януария сообщает некорректную или неверную информацию в SUS. Обе эти вероятности требуют более глубокого расследования для поиска окончательного ответа. Однако, история Сорайи является важной частью данной цепочки, потому что она подчеркивает несоответствие и может также сподвигнуть других более пристально взглянуть на эту проблему.

«Я привыкла жить в сельской местности и закончила школу с большими трудностями», – говорит Сорайя. «Когда люди спрашивали меня, что я хочу делать в жизни, я всегда говорила им, что хочу быть журналисткой. Но я представляла себе, что это практически невозможно – из–за того мира, в котором я жила». После того, как она приняла участие в обучающей программе «Друзей Януарии», Сорайя теперь верит, что доступ к данным является важным инструментом, который может помочь изменить действительность в ее городе. «Я чувствую себя способной изменить мой город, мою страну, весь мир», – добавляет она.

Еще один гражданский журналист из проекта – 20–летний Элиссон Монтьеритон (Alysson Montiériton), который тоже использовал данные для статьи. Это было во время первого курса проекта, когда гражданские журналисты бродили по городу в поисках объектов, которые могли бы стать сюжетами, именно тогда Эллисон решил написать о сломанном светофоре, расположенном на очень важном перекрестке, который не работал уже с начала года. Узнав, как искать информацию в интернете, он нашел данные о количестве транспортных средств в городе, и о суммах налогов, уплачиваемых теми, кто владеет машинами. Он написал:

«Обстановка в Януарии становится хуже из–за большого числа транспортных средств в городе. По данным IBGE (самое важное статистическое исследовательское учреждение в Бразилии), в Януарии в 2010 году было 13 771 транспортное средство (из которых 7 979 – мотоциклы)… Жители города уверены, что задержка с починкой светофора не является результатом нехватки средств. По данным министра финансов штата Минас–Жерайс, в 2010 году город получил 470 000 реалов в виде транспортных налогов».

Имея доступ к данным, Эллисон смог показать, что в Януарии много транспорта (почти одно транспортное средство на каждые пять жителей), и что сломанный светофор может подвергнуть опасности многих людей. Более того, он смог рассказать своей аудитории о сумме финансовых средств, полученных городом в виде налогов, уплачиваемых владельцами транспортных средств, и на основании этого задаться вопросом, неужели этих средств недостаточно, чтобы починить светофор, чтобы создать безопасные условия для водителей и пешеходов.

Хотя эти две истории, описанные Сорайей и Эллисоном, очень простые, они показывают, что данные могут быть использованы гражданскими журналистами. Вам не нужно сидеть в большом ньюсруме с кучей специалистов, чтобы использовать данные в ваших статьях и иных материалах. После двенадцати семинаров Сорайя и Эллисон, а они оба никогда ранее не имели никакого отношения к журналистике, смогли начать работать над основанными на данных сюжетами и написать интересные статьи о ситуации на их местном уровне. Вдобавок, их статьи показывают, что сами данные могут быть полезны даже в малом масштабе. Другими словами, что ценная информация есть даже в небольших наборах данных и маленьких таблицах, а не только в огромных базах данных.

Аманда Росси, Friends of Januária


    Ваша оценка произведения:

Популярные книги за неделю