Текст книги "Пособие по журналистике данных"
Автор книги: Д. Грей
Жанр:
Справочники
сообщить о нарушении
Текущая страница: 16 (всего у книги 21 страниц)
Основные этапы работы с данными
Перед запуском проекта с данными вам необходимо усвоить три основные идеи:
Запрос данных должен начинаться со списка вопросов, на которые вы хотите получить ответ.
Данные зачастую приходят запутанными и требуют сортировки.
Данные могут включать незафиксированные элементы
Рис 67. Messy Data
Понимайте вопросы, на которые хотите получить ответВо многом работа с данными напоминает интервью в прямом эфире. Вы задаете вопросы и пытаетесь выудить ответы. Но точно так же, как каждый источник может ответить только на те вопросы, в которых он сведущ, массив данных может только ответить на вопросы о том, о чем в нем имеются достоверные данные и необходимые переменные. Это означает, что вы должны как следует продумать вопросы, прежде чем собирать данные. По сути, вы работаете в обратном порядке. Сначала составьте список утверждений для вашей статьи, которые вы хотите подкрепить данными. Затем определите, какие переменные и данные необходимо собрать и проанализировать, чтобы получить такие утверждения.
Рассмотрим это на примере репортажей из местной криминальной хроники. Скажем, вы хотите написать статью о статистике преступлений, которые произошли в вашем городе. Вы хотите включить в репортаж время суток и дни недели, в которые чаще всего случаются разные виды преступлений, а также в каких частях города чаще всего случаются те или иные преступления.
Вы увидите, что запрос данных должен включать дату и время, когда о преступлении было заявлено в полицию, а также вид преступления (убийство, кража, ограбление и т.д.) и место совершения преступления. Таким образом, дата, время, вид преступления и место – минимальный набор данных, которые нужны, чтобы ответить на поставленные вопросы.
Но будьте внимательны. Есть множество потенциально интересных вопросов, ответы на которые не даст этот набор данных из четырех переменных. Это, например, раса и пол жертвы, полная стоимость украденных ценностей или кто из полицейских производит больше арестов. Вы также сможете получить данные только за определенный период (например, за последние три года), а это значит, что вы не сможете сказать, изменилась ли статистика преступлений за более долгий период времени. Эти вопросы могут выходить за планируемые рамки репортажа, и это нормально. Но будьте предусмотрительны: если вы уже начали анализировать данные, а потом решили, что хотите узнать процент преступлений, закончившихся арестом, будет уже поздно.
Хорошим советом здесь будет запросить ВСЕ переменные и данные из базы, а не только подмассив данных, который может дать информацию исключительно для текущего репортажа. На самом деле получить все данные будет дешевле, чем их часть, так как во втором случае придется платить агентству за программирование фильтра. Вы всегда сможете вычленить данные самостоятельно, а имея доступ к более широкому набору данных, сможете получить ответы, возникающие в процессе работы над статьей, и даже написать дополнительный материал. Возможно, политика конфиденциальности не позволит вам получить некоторые переменные (например, имена жертв или конфиденциальных осведомителей). Но даже часть данных это лучше, чем ничего, если вы хорошо понимаете, на какие вопросы может и не может ответить отфильтрованная база данных.
Сортировка беспорядочных данныхСамая сложная проблема в работе с базами данных заключается в том, что зачастую вам придется анализировать данные, собранные с бюрократической целью. Проблема в том, что требования, предъявляемые к точности обоих типов данных, будут различаться.
Например, база данных системы уголовного правосудия существует главным образом для того, чтобы некий подзащитный Джонс был вовремя доставлен из тюрьмы на слушание к судье Смиту. Поэтому не так уж важно, точно ли указана в базе дата рождения Джонса, правильно ли написан его домашний адрес и даже вторая инициала его имени. Эти неточные данные не помешают доставить Джонса в зал суда к судье Смиту в назначенное время.
Но такие ошибки могут помешать журналисту, работающему с данными, обнаружить в базе данных закономерность. Поэтому первым делом после получения новых данных следует определить, насколько они беспорядочны, и устранить ошибки. Сделать это быстро можно, создав таблицы частоты категориальных переменных, т.е. такие таблицы, где разброс значений по идее должен быть сравнительно небольшой. (в Excel, например, это можно сделать через фильтр или сводные таблицы).
Простой пример – графа «пол». Может оказаться, что в этой графе встречаются различные варианты: «мужской», «женский», «М», «Ж», «1», «0», «МУЖСКОЙ», «ЖЕНСКИЙ» и т.д., включая варианты с ошибочным написанием («жнский»). Для толкового гендерного анализа вам придется стандартизировать эти данные и остановиться, например, на М и Ж, а затем подвести все значения под единый стандарт. Есть еще одна известная база данных с подобными проблемами – это база финансирования избирательных кампаний в США, где в графе «профессия» может стоять «адвокат», «юрист», «юрисконсульт», «юрконсульт», «адв.» и прочие варианты, в том числе с орфографическими ошибками. Опять же, фокус в том, чтобы привести названия профессий к единому стандарту и существенно сократить список вариантов.
Упорядочение данных может оказаться еще более сложным, когда дело доходит до личных имен. А вдруг Джозеф Т. Смит, Джозеф Смит, Д.Т. Смит, Джоз. Смит и Джо Смит – это один и тот же человек? Возможно, придется обратить внимание и на другие переменные – адрес, дату рождения – и даже копнуть глубже, чтобы узнать наверняка. Попробуйте Google Refine. С ним задача упорядочения и стандартизации данных будет не такой трудоемкой и утомительной.
Данные могут содержать незафиксированную информациюОбразцом для расшифровки любой базы данных является так называемый словарь базы данных. Как правило, этот файл (он может существовать в виде текста, PDF или даже таблицы) содержит информацию о формате файла с данными (текстовый файл с разделителями, текстовый файл с полями фиксированной ширины, файл Excel, dBase и т.д.), порядке переменных, названии каждой переменной и типе каждой переменной (текстовая строка, целое число, десятичная дробь и т.д.). Эта информация вам понадобится для правильного импортирования файла с данными в анализирующую программу (Excel, Access, SPSS, Fusion Tables, различные вариации SQL и т.д.)
Другой важный элемент словаря базы данных – описание кодов, которые используются для обозначения каких–либо переменных. Например, пол можно закодировать: «мужской» = 1, «женский» = 2. Преступления можно закодировать по номерам, зафиксированным в законодательных актах вашей юрисдикции. В историях болезни для обозначения диагноза врачи используют сотни пятизначных кодов. Без словаря эти массивы данных будет сложно и даже невозможно проанализировать.
Но даже вооружившись словарем данных, вы можете столкнуться с проблемой. Например, вот что случилось несколько лет назад с репортерами из «Майами Геральд» во Флориде, когда они анализировали наказания, назначенные нарушителям за вождение в нетрезвом виде. Репортеры получили данные о судимостях из судебной базы данных и проанализировали числа в трех разных категориях наказаний по словарю данных: количество длительных тюремных сроков, количество коротких тюремных сроков и количество назначенных штрафов. Среди судей количество наказаний несколько разнилось, что дало репортерам повод написать статью о суровых и снисходительных судьях.
Но статистика по каждому судье отдельно показала, что примерно в 1–2% случаев не было назначено ни срока, ни штрафа. Поэтому на графике, демонстрирующем закономерность наказаний, как будто бы добавленная в последний момент, появилась маленькая графа с теми случаями, где наказание отсутствовало. Когда статья вместе с графиком была опубликована, судьи в один голос возмутились: мол, «Геральд» пытается обвинить их в нарушении законов штата, требующих наказания любому нетрезвому водителю.
Тогда репортеры вновь обратились к секретарю суда, который составил для них файл с данными, с просьбой разъяснить причину ошибки. Секретарь объяснил, что в указанных делах ответчиками являлись люди неимущие, совершившие правонарушение впервые. По закону им был положен штраф, но они не могли его заплатить. Поэтому судьи приговаривали их к общественным работам (например, подметать улицы). Как выяснилось, закон, требующий наказания, был принят после создания базы данных. Поэтому все судебные секретари знали, что пропуск в графе «наказание» означал общественные работы. Но этого НЕ БЫЛО в словаре данных, поэтому «Геральд» пришлось опубликовать опровержение.
Поэтому никогда не забывайте уточнить у источника данных, существуют ли какие–то неучтенные данные, новые коды, изменения в структуре файла и прочее. Кроме того, внимательно изучайте результаты анализа на предмет адекватности. Репортерам «Геральд» пришлось строить график в очень сжатые сроки, поэтому их интересовала закономерность в наказаниях, назначенных каждым судьей. Та горстка дел, где наказание якобы отсутствовало, ускользнула от их внимания. Им следовало спросить себя: а не кажется ли странным, что все судьи допустили нарушение закона, даже если только в самой малой доле случаев?
– Стив Дойг, Школа журналистики им. Уолтера Кронкайта, Университет штата Аризона
Буханка хлеба за 32 фунта
Газета Wales on Sundayопубликовала статью о том, что уэльское правительство тратит уйму денег на рекомендации употреблять продукты, не содержащие глютен. В заголовке говорилось, что правительство платит 32 фунта стерлингов за буханку хлеба, хотя на самом деле речь шла об 11 буханках по цене 2,82 фунта каждая.
В данных, взятых из письменного комментария уэльского правительства и статистики службы здравоохранения Уэльса, цифра была обозначена как стоимость одного рецепта. Тем не менее, дополнительных разъяснений относительно того, что считать рецептом и как отдельная колонка может определять его стоимость, в словаре данных не было.
Предположили, что цифра относится к одному предмету, т.е. к буханке хлеба, а не к нескольким буханкам.
Ни один человек из тех, кто составлял комментарий, ни даже пресс–служба, не заметили нестыковки, пока в понедельник не вышла статья.
Поэтому не думайте, что комментарии к правительственным данным помогут объяснить, какая информация представляется, или что люди, ответственные за сбор данных, заметят нестыковку, даже если вы озвучите свое неверное предположение.
Обычно газетам нужна информация, из которой можно сделать громкий заголовок. Поэтому, как правило, журналистам проще работать с тем, что подойдет для такого заголовка. Они не всегда щепетильно проверяют данные из страха потерять историю, особенно перед сдачей статьи. Разве что данные серьезно расходятся с их интерпретацией.
Однако, журналисты обязаны проверять нелепые заявления, даже если в результате статья сильно потеряет в скандальности.
– Клэр Миллер, WalesOnline
Начали с данных, закончили статьей
Чтобы увлечь читателя, вы должны выдать в заголовке цифру, которая заставит читателя навострить уши. Статья должна читаться так, как будто она не основана на статистике. Сделайте ее увлекательной и на любом этапе не забывайте об аудитории.
Пример: проект Бюро журналистских расследований с использованием Системы финансовой прозрачности Комиссии Евросоюза. Статья была написана как результат применения специфических запросов к массиву данных.
Мы искали ключевые слова «коктейль», «гольф» и «выездное заседание». Таким образом, удалось определить, сколько Комиссия потратила на эти пункты бюджета. В результате возникло множество вопросов и сюжетных линий, по которым пришлось провести расследование.
Но ключевые слова не всегда могут дать вам нужную информацию. Иногда приходится сесть и поразмыслить, а что вы действительно ищите. Во время этого проекта мы также решили узнать, сколько члены комиссии тратят на частные перелеты, но так как данные не содержали фразу «частный самолет», пришлось выяснять названия авиакомпаний другим способом. Когда мы узнали, услугами какого частного перевозчика пользуется Комиссия (Abelag), мы задали вопрос и выяснили, сколько денег тратится на услуги Abelag.
Таким образом, мы четко определили задачу наших запросов: нам нужна цифра, которая сделает громкий заголовок и которую можно интерпретировать так или иначе.
Еще один возможный подход – начать с черного списка и искать исключения. Проще всего написать статью о той информации, которой быть не должно! Хороший пример: совместный проект Financial Times и Бюро журналистских расследований по изучению Структурных фондов ЕС.
Мы сделали запрос на основе правил самой Комиссии о том, каким видам компаний и ассоциаций должен быть закрыт доступ к структурным фондам. Пример: затраты на табак и производители табака.
Мы запросили у базы данных названия табачных компаний и производителей табака. Выяснилось, что компания British American Tobacco получает полтора миллиона евро за фабрику в Германии.
Так как правил затрат Комиссии исключают финансирование, мы очень быстро нашли повод для статьи.
Никогда не знаешь, какую информацию можно будет получить из массива данных, поэтому будьте внимательны. Нужно быть очень предприимчивым, так как лучше всего этот метод подходит для определения очевидных характеристик, которые выявятся в процессе сортировки (самые большие или предельные значения, наиболее часто встречающиеся и т.п.).
– Селейн Барр, Citywire
Данные в статье
Иногда складывается впечатление, что журналистика данных заключается исключительно в представлении данных – визуализации, которая быстро и наглядно передает содержание цифр, или интерактивных базах данных с функцией поиска, которые позволяют, скажем, найти улицу или больницу в районе. Все это, конечно, может быть полезно, но, как и другие виды журналистики, журналистика данных предполагает написание статьи. Так какие статьи можно написать о данных? На основе моего опыта работы в BBC, я составил «типологию» статей, представляющих данные.
Думаю, стоит иметь в виду этот список – не только в процессе анализа данных, но и на стадии их сбора (ищете ли вы данные в свободном доступе или компилируете широкий набор информационных запросов).
1. Измерение
Простейшая история ; подсчет или подведение итога: «В прошлом году муниципалитеты потратили на скрепки Х миллиардов фунтов».
Зачастую сложно понять, много это или мало. Нужен контекст, который можно дать при помощи:
2. Соотношения
«В прошлом году муниципалитеты закупили скрепок на две трети своего бюджета на канцтовары»
3. Внутреннего сравнения
«Муниципалитеты тратят больше денег на скрепки, чем на передвижную кухню для престарелых»
4. Внешнего сравнения
«Муниципальные затраты на скрепки в прошлом году в два раза превысили государственный бюджет помощи иностранным государствам»
5. Изменение во времени
«Муниципальные затраты на скрепки за последние четыре года выросли втрое»
6. Ранжирования
Ранжировать можно по географическому местоположению или по учреждениям, но убедитесь, что основание для сравнения справедливо (например, учитывает численность местного населения).
«Муниципалитет Борсетшира тратит на скрепки для сотрудников больше, чем другие органы власти, и в четыре раза выше, чем тратится в среднем по стране».
Вы также можете разделить субъекты данных по группам:
7. Анализа по категориям
«Муниципалитеты Красной партии тратят на скрепки в 1,5 раза больше, чем муниципалитеты Желтой партии».
Вы можете соотнести факторы с помощью цифр
8. Ассоциаций
«Муниципалитеты, возглавляемые политиками, получившими взносы от производителей канцтоваров, тратят на скрепки больше, и на каждый фунт взноса приходится в среднем сто фунтов затрат»
Разумеется, не забывайте, что корреляция и причинная зависимость – не одно и то же.
Поэтому, изучая затраты на скрепки, получаете ли вы следующие цифры?
Общие затраты для контекста
Сортировку по географическим/историческим/иным факторам, чтобы получить сравнительные данные
Дополнительные данные, чтобы обеспечить справедливость сравнения (например, численность населения)
Другие данные, которые могут стать основой любопытного анализа, и с которыми можно сравнить или соотнести затраты
– Мартин Розенбаум, ВВС
Журналисты, работающие с данными, обсуждают выбранные инструменты
Шршршр. Вот с таким звуком ваши данные сыплются из герметичной упаковки. Что теперь? Что вы ищите? Какие инструменты вы используете, чтобы начать работу? Мы попросили журналистов, работающих с данными, рассказать о том, как они работают. Вот что они ответили.
В блоге «Guardian Datablog» мы любим общаться с читателями. Мы позволяем им копировать наши исследования, а значит, они могут написать что–то на основе нашей работы и иногда подметить то, что от нас ускользнуло. Мы стараемся выбирать инструменты, которые может легко освоить любой без изучения языков программирования, без специального обучения или бьющей по карману лицензионной платы.
Именно по этой причине мы сейчас используем продукты Google. Все массивы данных, которые мы чистим и публикуем, доступны в формате Google Spreadsheet, а значит, пользователи, имеющие аккаунт в Google, смогут скачать данные, импортировать в свой аккаунт и составить собственные графики, отсортировать данные и создать сводные таблицы, либо импортировать данные в ту программу, которую они предпочитают использовать.
Для преобразования данных мы используем таблицы Google Fusion. Когда мы создаем теплокарты в Fusion, то расшариваем свои шейп–файлы KML, чтобы читатели смогли скачать их и создать свои теплокарты, может быть, добавив дополнительные слои данных на первоначальную карту Datablog. Еще одно преимущество инструментов Google – они работают на множестве платформ, с которых наши читатели заходят на наш блог (настольный компьютер, мобильные устройства, планшетники).
Помимо таблиц Google и Fusion мы используем в своей работе еще два инструмента. Первый – это планшет для визуализации многомерных массивов данных. Второй – это ManyEyes для быстрого анализа данных. Они, конечно, не совершенны, поэтому мы продолжаем искать более подходящие средства визуализации, которые понравятся нашим читателям.
The Guardian– Лиза Эванс
Буду ли я когда–нибудь программистом? Очень сомневаюсь! Не думаю, что журналистам обязательно уметь программировать. Но полезно представлять возможности программистов, чтобы уметь правильно поставить задачу.
На начальном этапе действуйте аккуратно. Сначала нужно убедить коллег и редакторов, что для работы над статьей вам необходимы данные и игра стоит свеч. Когда они поймут ценность такого подхода, вы можете расширить свою работу до более сложных статей и проектов.
Рекомендую научиться работать в Excel, чтобы сначала выполнять простые операции с данными. Постепенно переходите к анализу баз данных и созданию теплокарт. В Excel столько можно сделать. Это очень полезный инструмент, и большинство людей не знают и половины его возможностей. При случае пойдите на курс работы в Excel для журналистов (такой, например, предлагают в Центре журналистских расследований).
Что касается интерпретации данных: все не так просто. Будьте внимательны ко всем деталям, подвергайте сомнению результаты. Записывайте наблюдения по работе с данными, храните копию оригинальных данных. Очень просто совершить ошибку. Я всегда провожу анализ два или три раза, причем практически с начала. Еще лучше – привлеките редактора или другого коллегу проанализировать данные отдельно от вас и сравните результаты.
Financial Times– Синтия О’Мурчу
Раньше от журналиста не требовалось одновременно уметь писать и так же быстро использовать сложные программы. Раньше работа с данными отнимала у журналистов гораздо больше времени. Все изменилось благодаря развитию двух открытых и бесплатных фреймворков: Django и Ruby on Rails, которые были разработаны в 2000–е годы.
Django, написанный на языке Python, разработал Адриан Головатый и журналисты оперативных выпусков The Lawrence Journal–World в г. Лоуренс, штат Канзас. Ruby on Rails был разработан в Чикаго Дэвидом Хайнемайером Ханссоном и компанией–разработчиком веб–приложений 37Signals.
Хотя фреймворки используют разные подходы к модели MVC, они оба отлично подходят для быстрой разработки даже очень сложных веб–приложений. Они освобождают от самой первичной работы по созданию приложений. В них уже встроены функции создания и переноса данных из баз, сопоставление URL с кодами в приложении, поэтому у разработчиков нет необходимости писать код для таких элементарных вещей.
Хотя в США не проводили официального опроса среди групп, работающих с новостными приложениями, общепринятая точка зрения заключается в том, что большинство использует один из этих двух фреймворков для новостных приложений с базой данных. В ProPublica мы используем Ruby on Rails.
С появлением инфраструктуры веб–сервисов (например, Amazon Web Services) также решило проблему замедленного использования веб–приложений.
Помимо этого, мы используем и стандартные инструменты для работы с данными: Google Refine и Microsoft Excel для очистки данных; SPSS и R для создания статистики; ArcGIS и QGIS для создания геоинформационных систем; Git для работы с исходным кодом; TextMate, Vim и Sublime Text для написания кода; и сочетание MySQL, PostgreSQL и SQL Server для работы с базами данных. Мы разработали свой собственный фреймворк Glass на JavaScript, он помогает очень быстро создавать сложные приложения на JavaScript для внешнего интерфейса.
ProPublica– Скотт Кляйн
Зачастую простейший инструмент – лучший инструмент. Переоценить значение электронных таблиц сложно. Но когда все еще работали в DOS, электронные таблицы помогли мне понять сложную формулу партнерского соглашения для владельцев «Техасских рейнджеров» (тогда Джордж Буш еще был одним из них). С помощью электронной таблицы можно выявить резко отклоняющиеся значения или ошибки в вычислениях. Я могу написать скрипт для очистки данных – и многое другое. Для журналиста, работающего с данными, это основной инструмент. Мои любимые инструменты имеют еще больше возможностей: SPSS проводит статистический анализ, а программы для создания графиков позволяют увидеть географические закономерности.
Seattle Times– Шерил Филипс
Я очень люблю программировать на языке Python. Это отличный язык программирования с открытым исходным кодом, которым легко пользоваться (например, не нужно ставить точку с запятой в конце каждой строки). Более того, Python имеет огромный базовый контингент потребителей, поэтому есть плагины (расширения) практически для любых функций.
Мне кажется, журналисты редко пользуются Django. Это фреймворк для веб–приложений на языке Python, инструмент для создания больших приложений с базами данных. Для маленькой интерактивной инфографики это, конечно, чересчур.
Я также работал в QGis – это инструментарий в открытом доступе, который предлагает широкий набор функций для создания геоинформационных системы. Он будет полезен журналистам, которые периодически имеют дело с географическими данными. Если нужно преобразовать геопространственные данные из одного формата в другой, QGis – то что надо. Он может работать практически с любым существующим форматом геоданных (шейп–файлы, KML, GeoJSON и др.). Если нужно вырезать несколько регионов, с этим прекрасно справится QGis. К тому же, вокруг QGis сложилось огромное сообщество пользователей, поэтому в Сети вы найдете уйму ресурсов и рекомендацийпо работе с этой программой.
R создавался главным образом как инструмент визуализации научных данных. Вы вряд ли найдете метод визуализации или обработки данных, который не встроен в R. R содержит в себе все, это универсальное средство анализа визуальных данных. Единственный недостаток, о котором вам следует знать: вам придется выучить (еще один) язык программирования, так как R использует собственный язык. Но как только вы немного освоитесь, то поймете, что более мощного инструмента, чем R, нет. Подготовленные журналисты используют R для анализа огромных массивов данных, который выходит за пределы возможностей Excel (например, если вы работаете в таблице с миллионом строк).
Чем действительно хорош R, так это тем, что вы можете хранить точный «протокол» всех действий с данными на протяжении всего процесса, начиная с чтения CSV–файла до создания таблиц. В случае изменения данных, вы можете создать таблицу заново одним кликом мышки. Если кто–то усомнится в безошибочности вашей таблицы, вы сможете показать источник данных, который позволяет любому самостоятельно в точности воссоздать эту таблицу (или найти ваши ошибки, если они есть).
NumPy и MatPlotLib позволяют делать примерно то же самое, но на языке Python. Они подойдут вам, если вы уже хорошо программируете на Python. По сути NumPy и MatPlotLib – примеры ПО, созданного на Python. Их можно использовать для анализа и визуализации данных, но только для статической визуализации. В них нельзя создавать интерактивные графики с всплывающими подсказками и прочими наворотами.
Я не работаю в MapBox, но слышал, что в нем можно делать сложные диаграммы на основе OpenStreetMap. Например, можно настроить под пользователя стили диаграмм (цвета, легенды и т.д.). У MapBox есть дополнительное приложение, Leaflet. По сути это та же библиотека на JavaScript для составления диаграмм и графиков, но более высокого уровня. Leaflet позволяет с легкостью переключаться с одного поставщика карт на другого (OSM, MapBox, Google Maps, Bing…).
RaphaelJS – библиотека для визуализаций более низкого уровня, которая позволяет работать с базовыми элементами (круги, линии, тексты) и создавать на их основе анимацию, добавлять интерактивные элементы. Шаблонов для столбчатых диаграмм в нем нет, так что придется нарисовать пару прямоугольников самостоятельно.
Тем не менее, все графики Raphael будут открываться в Internet Explorer. Многие другие (даже очень хорошие) библиотеки для визуализации (например, d3) такого свойства не имеют. К сожалению, многие пользователи до сих пор работают в IE, а ни один ньюсрум не имеет права игнорировать 30% своей аудитории.
Помимо RaphaelJS, можно создавать резервный вариант флэш для IE. Именно так поступают в New York Times. Это значит, что каждое приложение придется создавать дважды.
Не уверен насчет полной совместимости визуализаций в RaphaelJS с IE и современными браузерами. Очень часто приложения RaphaelJS работают в IE очень медленно, почти в десять раз медленнее, чем в формате Flash в новых браузерах. Так что резервный вариант в формате Flash может быть хорошим решением, если вам нужна высококачественная визуализация для всех пользователей.
Open Knowledge Foundation– Грегор Эйш
Для меня самый надежный инструмент – Excel, который может справиться с большинством автоматизированных задач журналистики. Более того, он прост в использовании и доступен большинству журналистов. Для объединения таблиц я обычно использую Access, затем экспортирую объединенную таблицу обратно в Excel и работаю дальше. Для географических анализов я использую ArcMap от ESRI. Им пользуются многие агентства, которые собирают геокодированные данные.
TextWrangler отлично подходит для изучения текстовых данных в замысловатом формате и разделителями. Он также может выполнять сложный поиск и замену с распространенными выражениями. Когда мне нужны статистические методы (линейная регрессия), я использую SPSS. У него очень удобное и простое меню. Для мудреных заданий (например, массивов данных с миллионами записей, которые нуждаются в сортировке и программировании переменных трансформаций) я используют SAS.
Школа журналистики имени Уолтера Кронкайта– Стив Дойг
Мы используем Python и Django для обработки, очистки и переработки данных. PostGIS, QGIS и MapBox мы используем для создания навороченных веб–карт. R и NumPy + MatPlotLib сейчас борются за превосходство в анализе научных данных, хотя последнее время мы все чаще обращаемся к «доморощенному» инструменту, CSVKit. Практически все, что мы делаем, происходит в облаке.
Chicago Tribune– Брайан Бойер
В La Nacion мы используем: * Excel для очистки, структурирования и анализа данных; * Таблицы Google для публикации и объединения с сервисами типа Google Fusion Tables и Junar Open Data Platform; * Junar для расшаривания данных и внедрения их в статьи и блоги; * Tableau Public для интерактивной визуализации данных; * Qlikview – очень быстрый инструмент бизнес–аналитики для анализа и фильтрования больших массивов данных; * NitroPDF для конвертирования PDF в текстовые и Excel–файлы; * Google Fusion Tables для визулизации карт.
La Nacion (Аргентина)– Анхелика Перальта Рамос
Как стихийное сообщество без предубеждений относительно технических средств, мы в Transparency Hackers используем множество различных инструментов и языков программирования. У каждого из нас свой список предпочтений, и в этом разнообразии наша сила и слабость одновременно. Кто–то разрабатывает дистрибутив Linux от Transparency Hacker, который загружается где угодно и начинает вскрывать данные. Этот набор инструментов имеет несколько любопытных функций и библиотек для работы с данными (Refine, RStudio и OpenOffice Calc), о которых подкованные пользователи обычно забывают, но которые очень полезны для быстрых и мелких операций. Я также часто использую Scraperwiki, чтобы быстро смоделировать и сохранить результаты данных онлайн.
Для визуализации данных и создания схем есть много хороших инструментов. Например, очень много возможностей у Python и NumPy. Кое–кто из нашего сообщества балуется с R, но в конечном счете в большинстве проектов мы все равно используем библиотеки графиков на Javascript типа d3, Flot и RaphaelJS. Наконец, мы много экспериментировали с составлением диаграмм, и для этого нам очень интересным показался Tilemill.