355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Д. Грей » Пособие по журналистике данных » Текст книги (страница 9)
Пособие по журналистике данных
  • Текст добавлен: 26 сентября 2016, 16:16

Текст книги "Пособие по журналистике данных"


Автор книги: Д. Грей


Жанр:

   

Справочники


сообщить о нарушении

Текущая страница: 9 (всего у книги 21 страниц)

Финские парламентские выборы и финансирование предвыборной кампании

Рис 38. Финансирование предвыборной кампании(Helsingin Sanomat)

В последние месяцы активно проходят судебные процессы, связанные с финансированием избирательной кампании во время всеобщих выборов в Финляндии 2007 года.

После выборов 2007 года пресса обнаружила, что законы о предаче гласности информации о финансировании подобных кампаний не оказали никакого воздействия на политиков. В основе своей финансирование кампаний использовалось для того, чтобы купить благосклонность политиков, которые потом не смогли гласно заявить о своем финансировании, как их обязывает финское законодательство.

После этих инцидентов законы стали жестче. После всеобщих выборов в марте 2011 Helsingin Sanomat решила внимательно изучить все доступные данные о финансировании предвыборных кампаний. Новый закон предусматривает, что финансирование предвыборных кампаний должно быть полностью открытым, и информация о нем должна раскрываться, и только взносы в размере до 1 500 евро могут быть анонимными.

1. Поиск данных и разработчиков.

Helsingin Sanomat начала организовывать собственные открытые хакатоны (так называемые HS Open) начиная с марта 2011 года. Мы приглашали и приглашаем финских программистов, кодеров, журналистов и графических дизайнеров на цокольный этаж нашего здания. Участников делим на группы по трое, и предлагали им разработать приложения и визуализации. В каждом из трех проведенных нами к настоящему моменту мероприятий приняли участие примерно по 60 человек. Мы решили, что данные о финансировании предвыборной кампании должны оказаться в центре внимания мероприятия HS Open №2, которое прошло в мае 2011 года.

Национальное аудиторское управление Финляндии является тем учреждением, которое хранит документы о финансировании кампаний. Это была легкая часть задачи. Руководитель информационной службы Яакко Хамунен (Jaakko Hamunen) создал вебсайт, который давал возможность доступа к базе данных о финансировании кампаний в режиме реального времени. Аудиторское управление сделало это всего через два месяца после нашего запроса.

Сайт Vaalirahoitus.fiбудет предоставлять средствам массовой информации и общественности данные о финансировании предвыборных кампаний по каждым выборам начиная с данного момента.

2. Мозговой штурм в поисках идей.

Участники хакатона HS Open 2 выработали 20 разных пилотных моделей, предлагая варианты того, что делать с данными. Все варианты можно найти на нашем вебсайте(текст на финском языке).

Исследователь в области биоинформатики по имени Яанне Пелтола (Janne Peltola) заметил, что данные о финансировании предвыборных кампаний выглядели похожими на генетические данные, которые они исследовали, в плане того, что они содержали множество взаимосвязей и взаимозависимостей. В биоинформатике есть один открытый, бесплатный инструмент под названием Cytoscape, который используется для составления карт таких взаимозависимостей. Поэтому мы прогнали наши данные через Cytoscape и получили очень интересный опытный образец.

3. Реализация идеи на бумаге и в сети.

Закон о финансировании избирательных кампаний обязывает избранных членов парламента задекларировать данные о финансировании своих кампаний в течение двух месяцев после выборов. На практике это означает, что мы получили реальные данные только в середине июня. На HS Open у нас были только данные от тех парламентариев, которые подали соответствующую информацию заранее, до истечения крайнего срока.

Также была проблема с форматом данных. Национальное аудиторское управление предоставило данные в виде двух CSV–файлов. Один содержал информацию об общем бюджете кампании, а во втором был список всех жертвователей и источников финансирования. Нам надо было объединить эти два набора данных, создав файл, который содержал бы три столбца: «жертвователь/источник финансирования», «получатель» и «сумма». Если бы политики использовали свои собственные деньги, то в нашем формате данных это выглядело бы так: Политик А пожертвовал сумму Х евро политику А. Возможно, парадоксально и не интуитивно понятно, но для Cytoscape это сработало.

Когда данные были очищены и переформатированы, мы просто пропустили их через Cytoscape. Потом наша графическая служба сделала из этого полностраничный график.

Наконец, мы создали отличную красивую визуализацию на нашем вебсайте. Это был не график сетевого анализа. Мы хотели дать людям легкий способ узнать, насколько велико было финансирование кампании и кто дает деньги. Первая картинка показывает распределение средств между парламентариями. Кликая на фамилию конкретного парламентария, вы получаете полную информацию о конкретно его или ее финансировании – кто и сколько выделил ему или ей денег. Также можно проголосовать, является ли тот или иной жертвователь, по вашему мнению, хорошим, качественным, или нет. Визуализация подготовили Юха Рувинен (Juha Rouvinen) и Юкка Кокко (Jukka Kokko) из агентства под названием Satumaa. В интернет–версии визуализации проекта финансирования избирательной кампании использованы те же данные, что и для сетевого анализа.

4. Публикация данных.

Конечно, Национальное аудиторское управление уже публикует данные, так что нет нужды в повторной публикации. Но когда мы очистили информацию и придали ей более удобную и качественную структуру, мы решили опубликовать ее. Мы выпустили наши данные с авторской лицензией Creative Commons Attribution licence. Впоследствии несколько независимых разработчиков сделали визуализации данных, и некоторые из этих визуализаций мы опубликовали.

Для реализации проекта мы использовали следующие инструменты: Excel и Google Refine для очистки данных и их анализа, Cytoscape для сетевого анализа, и Illustrator и Flash для создания визуализаций. На самом деле вместо Flash должен был использоваться HTML5, но нам не хватило времени.

Чему мы научились? Возможно, самым важным уроком было то, что структуры данных могут быть очень сложными. Если оригинальные данные существуют в неподходящем формате, переподсчет и конвертация их отнимут много времени.

Хакинг выборов (Electoral Hack) в режиме реального времени

Рис 39. Выборы 2011 года(Hacks/Hackers Buenos Aires)

«Хакинг выборов» ( Electoral Hack)  – это проект из области политического анализа, который визуализирует данные предварительного результата голосования 23 октября 2011 года на выборах в Аргентине. Система также содержит информацию с предыдущих выборов, и социально–демографическую статистику со всей страны. Проект обновлялся в режиме реального времени информацией, поступающей по ходу предварительного подсчета голосов на национальных выборах 2011 года в Аргентине, и представил итоговые результаты выборов. Это была инициатива группы Hacks/Hackers Buenos Aires, которую она осуществила совместно с политологом Энди Тоу (Andy Tow). Проект был осуществлен совместными усилиями журналистов, разработчиков, дизайнеров, аналитиков, политологов и других специалистов из местного отделения Hacks/Hackers.

Какие данные мы использовали?

Все данные поступали из официальных источников: Национальное избирательное бюро предоставило доступ к данным предварительного подсчета Indra; Министерство внутренних дел предоставило информацию о тех постах, на которые выбирались кандидаты, и о кандидатах от разных политических партий; университетский проектпредоставил биографическую информацию и информацию о политических платформах каждого кандидата в президенты; а социально–демографическая информация поступила от Национальной переписи населения и жилищных условий (INDEC) 2001 года и аналогичной переписи 2010 года, а также от Министерства здравоохранения.

Как проект развивался?

Приложение было задумано и начало создаваться во время предвыборного хакатона 2011 года, проводившегося Hacks/Hackers Buenos Aires за день до выборов 23 октября 2011. В хакатоне участвовали 30 добровольцев, представляющих самые разные области. Electoral Hack был разработан как открытая платформа, которая могла с течением времени улучшаться и дополняться. Что касается технологий, то мы использовали Google Fusion Tables, Google Maps и библиотеки векторной графики.

Мы работали над строительством векторных многоугольников для отображения географических карт и избирательных демографических данных. Объединяя векторные многоугольники в программном обеспечении для геоинформационных систем и геометрические таблицы в Google Fusion Tables мы создали таблицы с ключами, соответствующими избирательной базе данных Министерства внутренних дел, Indra и социодемографическим данным переписи INDEC. на этой основе мы сделали визуализации в Google Maps.

Используя интерфейс программирования приложений Google Maps, мы опубликовали несколько тематических карт, представляющих информацию о пространственном распределении голосовавших при помощи разных оттенков цвета, где насыщенность цвета показывала процент проголосовавших за разных президентских кандидатов в разных административных округах и на разных избирательных участках, с особым вниманием к крупным городским центрам – Буэнос–Айресу, 24 районам большого Буэнос–Айреса, Кордобе и Розарио.

Мы использовали такую же технику, чтобы сгенерировать тематические карты по предыдущим выборам, а именно президентским праймериз 2011 года и выборам 2007 года, а также по распределению социодемографических данных, таких как уровень бедности, детская смертность и условия жизни, что дало возможность провести сравнительный анализ. Проект также продемонстрировал пространственное распределение разницы в процентах голосов, набранных каждым кандидатом на всеобщих выборах в октябре, по сравнению с предварительными выборами в августе.

Позднее, используя часть данных предварительного подсчета голосов, мы создали анимированную карту, отображающую анатомию подсчета, в которой показан весь процесс подсчета голосов – начиная с момента закрытия избирательного участка и до следующего утра.

За

 Мы хотели найти и представить данные и мы смогли это сделать. Под рукой у нас была база социодемографических данных ЮНИСЕФ, a также база данных кандидатов, созданная группой yoquierosaber.org из Университета Торквато ди Тела. Во время хакатона мы собрали огромный объем дополнительных данных, которые мы так и не закончили включать в проект.

 Было ясно, что журналистская и программистская работа была сильно обогащена научными знаниями и вкладом исследователей. Без помощи Энди Тоу и Хиларио Морено Кампоса проект никогда бы не реализовался.

Против

 Социодемографические данные, которыми мы пользовались, были не самыми свежими (большинство было из переписи 2001 года), и к тому же они были не очень подробными. Например, они не включали в себя данные о среднем ВВП на местном уровне, об основной экономической активности, об уровне образования, о числе школ, о врачах на душу населения, и много другого, что было бы здорово иметь.

 Изначально система задумывалась как инструмент, который мог использоваться для объединения и отображения любых произвольно выбранных данных, чтобы журналисты могли легко демонстрировать интересующие их данные в сети. Но нам пришлось отложить это до лучших времен.

 Так как проект реализовывался добровольцами и в короткие сроки, было невозможно сделать все, что мы хотели сотворить. Тем не менее, мы добились значительного прогресса в нужном направлении.

 По той же причине вся работа сотрудничавших в проекте тридцати человек в конце концов сконцентрировалась в работу одного программиста, когда начали появляться правительственные данные, и у нас возникли определенные проблемы с импортированием данных в режиме реального времени. Эта проблема была решена за несколько часов.

Выводы

Платформа Electoral Hack оказала большое влияние и была активно замечена в прессе, на телевидении, радио, в печатных СМИ и на онлайн–ресурсах. Карты из проекта использовались несколькими медиа–платформами во время выборов и в последующие дни. С течением времени карты и визуализации обновлялись, что еще больше подстегнуло рост трафика. В день выборов сайт, созданный в этот самый день, набрал почти 20 000 уникальных посетителей, а представленные на нем карты были воспроизведены на главной странице газеты Página/12, и пребывали там последующие два дня. Также были и статьи в La Nación. Несколько карт появилось в печатной версии газеты Clarín. Это был первый случай в истории аргентинской журналистики, когда использовалось интерактивное отображение карт реального времени. На центральных картах можно легко увидеть победу Кристины Фернандес де Киршнер, которая набрала 54% голосов, и это отражается насыщенностью цвета. Проект также помог пользователям понять некоторые конкретные моменты, когда местные кандидаты одерживали внушительные победы в провинциях.

Данный раздел был написан Мариано Блейманом, Марианой Берруэзо, Серджио Сориным, Энди Тоу и Мартином Сарсале из Hacks/Hackers Buenos Aires

Данные в новостях: WikiLeaks

Рис 40. Военные отчеты от WikiLeaks(The Guardian)

Началось все с того, что один человек из группы, занимающейся расследовательской журналистикой, спросил: «Вы же хорошо умеете работать с электронными таблицами, не правда ли?» А это была просто чертовски большая таблица: 92 201 строка данных, и в каждой – подробности о каком–либо военном событии в Афганистане. Это были военные отчеты WikiLeaks. Мало того, только часть первая. За которой последуют еще две: посвященная Ираку и дипломатические депеши. Официальный термин для всего этого был такой – SIGACTS – база данных о значимых действиях американских военных.

Афганские военные отчеты – которые мы обрабатывали вместе с New York Times и Der Spiegel – были настоящей журналистикой данных в действии. Что мы хотели сделать, так это дать возможность нашей команде специалистов вытащить какие–то серьезные человеческие истории из этой информации – и мы также хотели проанализировать данные, чтобы получить картину в целом, и показать, как действительно шла и идет война.

Практически сразу мы пришли к важному решению, что мы не будем публиковать полную базу данных. WikiLeaks уже собиралась это сделать, а мы хотели убедиться в том, что мы не раскроем имена лиц, ставших источниками информации, или не будем без необходимости подвергать опасности войска НАТО. В то же время нам нужно было сделать данные более легкими для понимания, а также для использования нашей командой расследовательских журналистов, возглавляемой Дэвидом Леем (David Leigh) и Ником Дэвисом (Nick Davies) (которые вели переговоры с Джулианом Ассанжем о публикации данных). Мы также хотели упростить задачу извлечения ключевой информации, чтобы она стала доступной всему миру, была при этом ясной, понятной и открытой – в максимально возможной степени, насколько у нас это получится.

Данные поступили к нам в виде огромного «экселевского» файла – 92 201 строка данных, в некоторых не было вообще ничего или же они были плохо отформатированы. Это никоим образом не помогало журналистам, которые продирались сквозь эти данные в поисках сюжетов для материалов, и вдобавок сам файл был слишком велик, чтобы сделать по нему содержательный отчет.

Наша команда соорудила простую внутреннюю базу данных с использованием SQL. Журналисты теперь могли осуществлять поиск по ключевым словам или тем или иным событиям. Получилось, что внезапно набор данных стал доступным, и создавать материалы на его основе стало гораздо легче.

Данные были хорошо структурированы: каждое событие имело следующие ключевые характеристики: время, дату, описание, количество пострадавших, и – самое важное – точные данные долготы и широты места, где оно произошло.

Мы также начали фильтровать данные, что должно было помочь нам рассказать одну из ключевых историй войны: рост числа атак с использованием самодельных взрывных устройств – придорожных мин домашнего изготовления, которые совершенно непредсказуемы и с которыми очень трудно бороться. Но и этот набор данных по–прежнему оставался слишком массивным – однако управляться с ним стало легче. Всего было примерно 7 500 случаев применения самодельных взрывных устройств или внезапных нападений, засад (за таковую атаку мы считали нападение, сочетающееся с, допустим, небольшой перестрелкой или использованием реактивных гранат) за период с 2004 по 2009 годы. И еще 8 000 самодельных взрывных устройств были обнаружены и обезврежены. Мы хотели посмотреть, как эта ситуация менялась со временем – и сравнить. Эти данные дали нам возможность увидеть, что юг, территория, где базировались британские и канадские войска, был самым «горячим» в этом плане районом, там происходило больше всего подобных инцидентов – и эти данные только подкрепили то, что наши журналисты, освещавшие войну, уже знали.

Публикация военных отчетов об Ираке в октябре 2010 выставила на публичное обозрение еще 391 000 записей, на этот раз по иракской войне.

И это было уже кое–что иное по сравнению с утечкой по Афганистану – вполне можно было, воспользовавшись этим случаем, сказать, что эта война стала самой задокументированной войной в истории. Любая, даже самая мелкая, подробность теперь была доступна для нас для анализа, обработки и выводов. Но обращает на себя один фактор: большое количество смертей, причем большинство погибших – гражданские лица.

Как и в случае с Афганистаном, Guardian решил не перепубликовывать всю базу целиком, в значительной мере потому, что мы не могли быть уверены, что поля с описанием не содержат конфиденциальную информацию или данные о тех людях, кто был источником информации, и так далее.

Но мы дали возможность нашим пользователям скачать таблицу с записями о каждом инциденте, где кто–то погиб. Таковых набралось примерно 60 000. Мы удалили при этом поля с кратким описанием, так что остались только основные данные: военный заголовок, число погибших и географическая разбивка.

Мы также взяли все эти инциденты с жертвами, и нанесли их на карту при помощи таблиц Google Fusion. Вариант оказался не идеальный, но в любом случае это было начало процесса попытки составления карт для отображения всех примеров разрушений и уничтожений, которые опустошили Ирак.

В декабре 2010 года были опубликованы депеши. И это был еще более внушительный набор данных – огромное собрание официальных документов: 251 287 дипломатических донесений, из более чем 250 американских посольств и консульств по всему миру. Получилась уникальная картина американского дипломатического языка – она включала в себя более 50 000 документов, касающихся и нынешней американской администрации Барака Обамы. Но что именно включали в себя эти данные?

Сами депеши поступили через огромную безопасную сеть на базе интернет–маршрутизатора (Secret Internet Protocol Router Network – SIPRNet). SIPRNet – это всемирная интернет–система американских военных, которая существует отдельно от обычного гражданского интернета и управляется Министерством обороны в Вашингтоне. Со времен терактов 11 сентября 2001 года в США наблюдалось движение в сторону объединения архивов правительственной информации, в надежде, что ключевые разведданные больше не попадут в ловушку в информационных бункерах, не пострадают от противоречий между федеральными агентствами США. Все большее число американских посольств подключались к SIPRNet в последнее десятилетие, таким образом, становилось возможным обмениваться военной и дипломатической информацией. К 2002 году с SIPRNet работали 125 посольств, к 2005 это количество выросло до 180, а сейчас подавляющее большинство американских зарубежных дипмиссий подключены к этой системе. Вот почему большая часть опубликованных депеш датируется 2008–2009 годами. Как писал Дэвид Лей:

«Посольская депеша, помеченная тегом SIPDIS, автоматически загружается на секретный сайт посольства. Оттуда к ней может получить доступ не только любой человек в Госдепартаменте, но также и любой в американской военной структуре, у кого есть доступ к закрытой информации уровня «секретно», пароль и компьютер, подсоединенный к SIPRNet»

что удивительным образом охватывает более 3 миллионов человек. Тут есть несколько уровней данных; вплоть до SECRET NOFORN, тэга, который означает, что эта информация никогда и ни в коем случае не может быть показана иностранному гражданину. Такие документы, как предполагается, должны читаться чиновниками в Вашингтоне вплоть до уровня госсекретаря Хиллари Клинтон. Депеши обычно составляются местным послом или его подчиненными. К документам, на которых стоит гриф «совершенно секретно», или указание еще более высокого уровня сохранения тайны, не может быть получен доступ через SIPRNet.

В отличие от предыдущих релизов, тут, в случае с депешами, это был преимущественно текст, не выраженный в количественной форме и не содержавший идентичных данных. Вот что включали в себя депеши:

Источник

Посольство или орган, направивший депешу.

Список получателей

Обычно депеши отправлялись в ряд других посольств и организаций.

Поле «Тема»

Обычно краткое содержание депеши.

Тэги

Каждая депеша была снабжена рядом ключевых аббревиатур.

Основной текст

Собственно сама депеша. Мы решили не публиковать эту часть полностью по причинам безопасности объективного характера.

Один интересный нюанс этой истории заключается в том, как депеши смогли создать фактически утечки по заказу, в самый нужный момент. Они фигурировали в главных новостях в течение нескольких недель с момента публикации – а сейчас, когда бы ни возникал сюжет о том или ином коррумпированном режиме или международном скандале – доступ к депешам дает нам и доступ к новым новостным сюжетам и новым материалам.

Анализ депеш – огромная, масштабная задача, которая, возможно, никогда не будет завершена.

Это неотредактированная версия главы, которая впервые была опубликована в проекте «Факты священны» (Facts are Sacred): данные – Саймон Роджерс, The Guardian


    Ваша оценка произведения:

Популярные книги за неделю