355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Д. Грей » Пособие по журналистике данных » Текст книги (страница 5)
Пособие по журналистике данных
  • Текст добавлен: 26 сентября 2016, 16:16

Текст книги "Пособие по журналистике данных"


Автор книги: Д. Грей


Жанр:

   

Справочники


сообщить о нарушении

Текущая страница: 5 (всего у книги 21 страниц)

За кулисами в Guardian Datablog

Рис 17. Визуализированный производственный процесс Guardian Datablog (The Guardian)

Когда мы запустили проект Datablog, мы не имели понятия, кто будет интересоваться исходными данными, статистикой и визуализациями. Как сказал некто весьма высокопоставленный в моем офисе, «зачем это может кому–то понадобиться?»

Проект Guardian DatablogGuardian Datablog – который я редактирую – должен был стать небольшим блогом, предлагающим полные наборы данных, лежащих в основе наших материалов. Сейчас он состоит из первой страницы (guardian.co.uk/data); функции поиска по данным мирового правительства и глобального развития; решений в области визуализации данных из сети и от художников–графиков Guardian, и инструментов для изучения данных о государственных расходах. Каждый день мы используем таблицы Google, чтобы делиться с людьми данными, которые мы использовали в нашей работе; мы визуализируем и анализируем эти данные, потом используем их для создания сюжетов и материалов для газеты и интернет–сайта.

Для редактора новостей и журналиста, работающего с графикой, это было логическим продолжением и расширением работы, которую я уже делал, аккумулируя новые наборы данных и споря с ними в попытке разобраться и увидеть смысл в новостных сюжетах дня.

На вопрос, который мне задавали, уже был у нас ответ. Это были невероятные несколько лет для общедоступных данных. Обама своим первым законодательным актом открыл хранилища данных американского правительства, и за ним последовали сайты правительственных данных по всему миру – в Австралии, в Новой Зеландии, и британский портал правительственных данных Data.gov.uk.

У нас был скандал с расходами парламентариев – самый неожиданный пример журналистики данных в Британии – а его итогом стало то, что английский парламент стал приверженцем публикации огромных объемов данных каждый год.

У нас были всеобщие выборы, на которых каждая из ведущих политических партий была привержена идее прозрачности в том, что касается данных, открывая наши собственные хранилища данных для доступа всего мира. Наши газеты посвящали ценнейшие абзацы и места на полосах раскрытию информации из базы данных казначейства COINS.

В то же самое время, по мере того как интернет выдает все больше и больше данных, читатели со всего мира начинают гораздо больше, чем раньше, интересоваться исходными данными, которые лежат в основе тех или иных сюжетов и информационных материалов. Когда мы запускали Datablog, мы думали, что его основную аудиторию составят разработчики, конструирующие приложения. Но на самом деле основную аудиторию проекта составили простые люди, которые хотели больше знать о выбросах СО2 или о восточноевропейской иммиграции или о росте смертельных случаев в Афганистане, или даже о том, сколько раз группа Beatles использовала слово «любовь» (love) в своих песнях (613).

Постепенно работа Datablog’а дала результат и начала вносить свой вклад в сюжеты, которые мы готовили и с которыми сталкивались. Мы осуществили поиск по 485 000 документов, имеющих отношение к расходам парламентариев, и проанализировали подробную информацию о том, какие парламентарии что говорили и заявляли. Мы помогли нашим читателям исследовать и изучить подробные базы данных о расходах Министерства финансов и опубликовали данные в дополнение к новостям.

Но фактором, который без преувеличения стал переломным моментом для журналистики данных, стала одна таблица, появившаяся весной 2010 года: 92 201 строчка данных, каждая из которых содержала подробный расклад какого–то военного события в Афганистане. Это были документы о войне, раскрытые WikiLeaks. Часть первая, кстати говоря. За которой последовали еще две – документы о войне в Ираке и дипломатические депеши. Официальный термин для обозначения первых двух частей – SIGACTS: База данных американского военного ведомства о значимых действиях.

В информационных организациях очень важна география – и близость к редакции. Если вы близки к ней, легко предлагать сюжеты и быть частью процесса; и наоборот, если вы физически далеко, то и обо всем остальном в плане проявления активности можно забыть. До появления массивов документов от WikiLeaks мы сидели на разных этажах с графической службой. Со времен WikiLeaks мы поселились на одном этаже, и прямо рядом с редакционным блоком. Это означало, что нам стало легче предлагать и продвигать свои идеи, а журналистам в ньюсруме стало проще просить нас о помощи при подготовке сюжетов и материалов.

Еще не так давно журналисты были блюстителями и цензорами официальных данных. Мы писали сюжеты о цифрах и выдавали их благодарной публике, которая не интересовалась исходной статистикой. Идея о том, что мы можем поделиться с кем–то нашими исходными данными, выдать их для публикации в наших газетах, была просто кощунственной, по крайней мере, это казалось точно чем–то невообразимым.

Сейчас данная динамика изменилась до неузнаваемости. Наша роль начинает заключаться в том, чтобы служить переводчиками, помогая людям понимать данные – и даже просто публикуя их потому, что они интересны сами по себе.

Но цифры без анализа – это просто цифры, и тут нам стоит вмешаться. Когда британский премьер–министр заявил, что беспорядки августа 2011 года не были связаны с проблемой нищеты, мы смогли составить карту, нанеся на нее адреса участников беспорядков и наложив информацию об уровне бедности по этим адресам, чтобы продемонстрировать правду, стоящую за этим заявлением.

Ну и наконец, важно то, что сюжеты и материалы из области журналистики данных – это процесс. Наполнение в них все время меняется, по мере того, как мы используем новые методы, новую технику, новые инструменты. Некоторые говорят, что главной фигурой становится своего рода супер–программист, пишущий код и погружающийся в SQL. Можно решить использовать и такой подход. Но значительная часть работы, которую мы делаем, выполняется просто в Excel.

Прежде всего, мы определяем и дислоцируем данные, или получаем их из разных источников, из срочных новостей, из правительственных данных, из результатов журналистских поисков, и так далее. Затем мы начинаем анализировать, что мы можем сделать с данными – и нужно ли нам объединить их с другим массивом данных? Как мы можем продемонстрировать происходящие с течением времени изменения? Эти таблицы часто приходится серьезно отчищать – все эти посторонние столбцы и странным образом объединенные ячейки на самом деле не помогают. И это еще мы исходим из того, что это не PDF – наихудший формат представления данных из всех, известных человечеству.

Часто официальные данные поступают с добавленными к ним официальными кодами – каждая школа, больница, избирательный округ и местный орган власти имеют свой уникальный идентификационный код.

У стран они тоже есть (код Великобритании, например – GB). Они полезны, потому что вы можете захотеть начать смешивать базы данных, соединяя их, и тогда по–настоящему впечатляет – насколько же много различных вариантов произношения, написания и сочетания слов может встретиться вам на этом пути. Например, это Бирма и Мьянма, или округ Файетт в США – таковых округов, под одинаковым названием, в стране 11 – в самых разных штатах, от Джорджии до Западной Вирджинии. Коды позволяют нам сравнивать подобное с подобным.

В конце этого процесса получаем результат; будет ли это сюжет, или графический проект, или визуализация, и какие инструменты мы будем применять? Нашими основными инструментами являются бесплатные инструменты, с помощью которых мы можем что–то сделать быстро. Более сложную графику делает наша команда разработчиков.

Что означает, что чаще всего мы пользуемся Google Charts для небольших графиков и диаграмм или Google Fusion Tables для быстрого и легкого создания карт.

Все это может показаться новым, но на самом деле таковым не является.

В самом первом выпуске Manchester Guardian, который вышел в свет в субботу, 5 мая 1821 года, новости были на последней странице, как у всех газет в тот день. А первым номером на первой странице было большое объявление о пропавшем лабрадоре.

И, помимо сюжетов и поэтических отрывков, треть последней страницы занимают, ну, скажем так, факты. Всеобъемлющая таблица стоимости обучения в школах в районе никогда ранее «не выкладывалась на обозрение общественности», – пишет «NH».

NH хотел, чтобы его данные были опубликованы, потому что в противном случае факты будут оставлены на долю неподготовленных священнослужителей. Его мотивация заключалась в том, что «та информация, которая в них содержится, является ценной; потому что, без знаний о той степени, в которой образование… преобладает, даже самое лучшее мнение, которое можно будет составить о состоянии и будущем прогрессе общества, обязательно будет неверным». Другими словами, если люди не знают, что происходит, как может общество становиться лучше?

Я не могу представить себе лучшего разумного объяснения для того, чем мы пытаемся заниматься. Сейчас то, что когда–то было материалом для последней страницы, выходит на лучшие места на первых полосах.

Саймон Роджерс, The Guardian

Журналистика данных в Zeit Online

Рис 18. Сравнение благосостояния на основе PISA(Zeit Online)

Проект «Сравнение уровня благосостояния» ( PISA based Wealth Comparison) на основе данных Международной программы по оценке образовательных достижений учащихся (Programme for International Student Assessment – PISA) представляет собой интерактивную визуализацию, которая позволяет сравнивать стандарты жизни в разных странах. Данный интерактив использует данные из всеобъемлющего отчета ОЭСР по рейтингу образования в мире, PISA 2009, опубликованного в декабре 2010 года. Отчет основан на данных из опросника, в котором пятнадцатилетних школьников спрашивали об условиях проживания у них дома.

Идея заключалась в том, чтобы проанализировать и визуализировать эти данные, чтобы представить уникальный способ сравнения стандартов жизни в разных странах.

В первую очередь, наша внутренняя редакционная команда решила, какие факты кажутся полезными для того, чтобы сделать стандарты жизни сравнимыми, и какие факты должны быть визуализированы, включая:

 Богатство и благосостояние (количество телевизоров и автомобилей во владении, а также доступность ванных комнат в домах)

 Семейная ситуация (живут ли бабушки и дедушки вместе с семьей в одном доме, процентная доля семей с одним ребенком, безработица родителей и рабочий статус матерей)

 Доступ к источникам знаний (интернет в домах, частота использования электронной почты и количество книг во владении)

 Три дополнительных индикатора уровня развития каждой страны.

При помощи внутренней дизайнерской группы эти факты были переведены в формат очевидных и не требующих пояснений значков–иконок. Был создан внешний интерфейс, чтобы можно было делать сравнения между странами, словно в карточной игре.

Следующим шагом стало то, что мы связались с немецкой сетью Open Data Network, чтобы найти разработчиков, которые могли бы помочь нам с проектом. Это сообщество высоко мотивированных людей предложило кандидатуру Грегора Айша (Gregor Aisch), очень талантливого информационного дизайнера, который должен был написать программу, благодаря которой наши мечты должны были реализоваться (не используя Flash – это было для нас очень важно!). Грегор создал очень высококачественную и интерактивную визуализацию в прекрасном стиле кругов–пузырей, на основе библиотеки Raphaël–Javascript ( Raphaël–Javascript Library).

Результатом нашего сотрудничества стал очень успешный интерактив, который собрал хороший трафик. С его помощью легко сравнивать любые две страны, что делает его полезным в качестве информационно–поисковой системы. Это означает, что мы можем пользоваться им еще неоднократно в нашей каждодневной редакторской работе. Например, если мы освещаем какую–либо проблему, связанную с жизненной ситуацией в Индонезии, мы можем быстро и легко вставить графическую иллюстрацию со сравнением условий жизни в Индонезии и, скажем, в Германии. Переданное нашей команде ноу–хау стало отличной инвестицией в будущие проекты.

В Zeit Online мы выяснили, что наши проекты в сфере журналистики данныхобеспечили нам много трафика и помогли привлечь аудиторию новыми способами. Например, после цунами в Японии широко освещалась ситуация на атомной электростанции в Фукусиме. После того, как произошел выброс радиоактивных материалов со станции, были эвакуированы все люди в радиусе 30 километров от АЭС. Пользователи могли прочесть и посмотреть многое об эвакуации. Zeit Online нашла инновационный способ объяснить воздействие этой ситуации немецкой аудитории. Мы спросили: сколько людей живет рядом с атомной электростанцией в Германии? Сколько людей живет в радиусе 30 километров? Карта показывает, сколько людей было бы эвакуировано в подобной же ситуации в Германии. Результат: много–много трафика и проект с невероятной скоростью ушел в народ и распространился в социальных сетях. Проекты в сфере журналистики данных могут сравнительно легко быть адаптированы под другие языки. Мы создали англоязычную версию проекта по близости к АЭС и запустили ее в США, и она стала великолепным генератором трафика. Информационные организации хотят, чтобы их читатели признавали их авторитетным и заслуживающим доверия источником. Мы выяснили, что проекты в области журналистики данных в сочетании с предоставлением нашим читателям возможности просмотра и повторного использования исходных данных обеспечивают нам высокую степень доверия.

В течение двух лет научно–исследовательский департамент и главный редактор Zeit Online Вольфганг Блау (Wolfgang Blau) выступали в защиту журналистики данных как важного способа рассказывать истории и представлять материал. Прозрачность, достоверность и участие пользователей являются важными компонентами нашей философии. Вот почему журналистика данных является естественной частью нашей нынешней и будущей работы. Визуализация данных может придать ценность восприятию сюжета, а также является привлекательным способом для всей редакционной команды представить контент.

Например, 9 ноября 2011 года Deutsche Bank пообещал прекратить финансирование производителей кластерных бомб. Но, по данным исследования некоммерческой организации Facing Finance, банк продолжал одобрять кредиты производителям кластерных боеприпасов и после того, как данное обещание было дано. Наша визуализацияна основе имеющихся данных демонстрирует различные денежные потоки нашим читателям. Различные части и подразделения компании Deutsche Bank собраны наверху, а компании, обвиняемые в причастности к созданию кластерных боеприпасов, внизу. Посредине на временной шкале представлены индивидуальные кредиты. Прокручивая информацию, можно увидеть подробности относительно каждой транзакции. Конечно, эта история могла быть рассказана и при помощи печатной статьи. Но визуализация дает возможность нашим читателям понять и изучить финансовые зависимости более интуитивно понятным способом.

Рис 19. Бизнес бомб (Zeit Online)(Zeit Online)

Возьмем еще один пример: the Федеральная немецкая служба статистикиопубликовала большую базу данных по жизненно важным статистическим показателям Германии, включая моделирование различных демографических сценариев на период до 2060 года. Типичным способом представить такие данные является пирамида народонаселения – такая, как аналогичная пирамида от Федерального статистического агентства.

Вместе с нашими коллегами из научного департамента мы попытались предоставить нашим читателям лучший способ изучить прогнозируемые демографические данные о нашем будущем обществе. С нашей визуализациеймы представили статистически репрезентативную группу из сорока человек разного возраста в период с 1950 по 2060 годы. Они организованы в восемь разных групп. Это выглядит словно групповая фотография немецкого общества в разные моменты времени. Те же самые данные, визуализированные в виде традиционной пирамиды народонаселения, дают лишь очень абстрактное представление о ситуации, но группа с детьми, молодыми людьми, взрослыми и пожилыми гражданами означала, что наши читатели могут более легко работать с этими данными и понимать их. Достаточно было просто нажать кнопку «play», чтобы отправиться в путешествие через одиннадцать десятилетий. Вы также могли ввести свой собственный год рождения и пол, чтобы стать частью этой самой групповой фотографии: увидеть ваше собственное демографическое путешествие сквозь десятилетия и вашу собственную продолжительность жизни.

Саша Венор, Zeit Online

Рис 20. Визуализация демографических данных (Zeit Online)

Как нанять хакера/программиста

Один из вопросов, который мне регулярно задают журналисты, это вопрос о том, где я беру хорошего кодера, или программиста, который будет помогать мне с проектом? Не стоит обманываться, полагая, что это односторонний процесс; хакеры и специалисты в области данных с развитым чувством гражданского долга зачастую не менее склонны входить в контакт с журналистами.

Журналисты – опытные пользователи инструментов и услуг на основе данных. С точки зрения разработчиков: журналисты мыслят нестандартно и способны благодаря этому использовать инструменты работы с данным в таком контексте или в таком ключе, о которых разработчики раньше даже и не задумывались (обратная связь имеет неоценимое значение!), они также способствуют созданию фона, контекста и молвы, разговоров вокруг проектов, помогают делать их важными и значимыми. Это симбиотические отношения.

К счастью, по счастливой случайности, это означает, что пытаетесь ли вы нанять хакера или находитесь ли в поисках возможного сотрудничества в условиях ограниченного бюджета, с большой долей вероятности будет кто–то, кто будет заинтересован в том, чтобы помочь вам.

Так как же вам их искать? Говорит Арон Пилхофер из New York Times:

Вы можете обнаружить, что в вашей организации уже есть люди с теми навыками и тем опытом, который вам нужен, но они не обязательно сидят в вашем ньюсруме, в вашей редакции. Оглянитесь вокруг, сходите в технологический отдел, в IT–отдел, и вы, вполне вероятно, наткнетесь на золотую жилу. Также важно правильно оценить тип и степень увлеченности, общий уровень кодера/программиста, лучше всего найти такого, у которого компьютер будет выглядеть примерно так…

Рис 21. Знак почета: хакеров/кодеров зачастую достаточно легко обнаружить

…и тогда получится, что вы, вероятно, сделали ставку на победителя.

Вот еще несколько идей:

Запостите объявления на сайтах по поиску работы

Определите, что вам нужно, и запостите объявление на сайтах, ориентированных на разработчиков, которые работают с разными языками программирования. Например, на сайте Python Job Board.

Воспользуйтесь соответствующими списками рассылки

Например, списками рассылки NICAR–Lили списком рассылки «Журналистика данных» ( Data Driven Journalism).

Свяжитесь с соответствующими организациями

Например, если вы хотите привести в порядок или очистить данные из сети, вам стоит связаться с организацией типа Scraperwiki, у которой имеется большая адресная книга пользующихся доверием, старательных и готовых работать кодеров/программистов.

Присоединитесь к соответствующим группам или сетям

Обратите ваше внимание на инициативы, подобные Hacks/Hackers, которые сводят вместе журналистов и технарей–компьютерщиков. Группы Hacks/Hackers сейчас возникают по всему миру. Вы можете также попробовать опубликовать что–нибудь в их рассылку о работе.

Местные сообщества по интересам

Вы также можете попробовать провести быстрый поиск по ключевым словам, например, по нужному вам району и требующемуся опыту (например, ‘javascript’ + ‘лондон’). Отличным местом, с которого можно начать, также могут служить такие сайты, как, например, Meetup.com.

Хакатоны и соревнования/конкурсы

Вне зависимости от того, предполагается ли в них денежный приз или нет, но конкурсы различных приложений и вариантов визуализаций, а также различные семинары по профессиональному развитию (development days) часто могут стать благодатной почвой для сотрудничества и налаживания связей. Спросите компьютерщика: Компьютерщики общаются с другими компьютерщиками. Молва, сарафанное радио – это всегда хороший способ найти хороших людей, с кем будете работать.

Когда вы уже нашли хакера, как вам узнать, хорош ли он и насколько хорош? Мы попросили Алистера Данта (Alastair Dant), ведущего технолога по интерактивам в Guardian, поделиться своим взглядом на то, как распознать хорошего программиста:

Это универсальные специалисты, умеющие работать с разными задачами

Когда имеешь дело с необходимостью работать быстро и соблюдать дедлайны/крайние сроки, лучше быть мастером на все руки, чем суперпрофессионалом в чем–то одном. Новостные приложения требуют умения разбираться в данных, динамичной графики и отчаянной храбрости на грани с безрассудством.

Они видят картину в целом

Целостность мышления подразумевает превосходство сюжетно–тематической картины и изложения фактов над техническими деталями. Я предпочту услышать одну ноту, но сыгранную с чувством, чем непрерывную, безостановочную виртуозность в неясных масштабах. Выясните, насколько ему понравится работать в паре с дизайнером.

Они рассказывают хорошую историю

Повествовательная презентация требует размещения вещей в пространстве и во времени. Выясните, каким проектов они больше всего гордятся, и попросите подробно рассказать вам, поэтапно, о том, как создавался этот проект – это продемонстрирует и их способность общаться, и их уровень технических знаний, понимания технической сути.

Они все тщательно обсуждают

Создание чего–либо быстро требует работы смешанной команды над общими целями. Каждый участник команды должен уважать своих коллег и быть готовым к переговорам, к диалогу и компромиссу. Непредвиденные обстоятельства зачастую требуют быстрого перепланирования и коллективного компромисса.

Они самообучаются

Технологии быстро движутся вперед. Чтобы не отставать, нужно прилагать усилия, бороться. Встречая хороших разработчиков с самым разным бэкграундом, могу сказать, что наиболее общей чертой среди них является готовность узнавать новое, учиться новому, при необходимости или по требованию.

– _Люси Чемберс, Фонд Open Knowledge _

Как найти девелопера вашей мечты

Разница в производительности между хорошим и плохим разработчиком – это зависимость не линейная, а скорее экспоненциальная, отличие идет в геометрической прогрессии. Грамотно нанять хорошего специалиста – чрезвычайно важно. К сожалению, нанять хорошего эксперта очень трудно. Очень сложно просматривать кандидатов, если ты не являешься опытным техническим менеджером. Добавим сюда зарплаты, которые новостные организации могут себе позволить платить (а они невелики), и мы получим весьма проблематичный вопрос.

У нас в Tribune мы при наборе специалистов отталкиваемся от двух углов, заманивая их к себе: эмоциональная привлекательность и техническая привлекательность. Эмоциональный позыв такой: журналистика жизненно важна для функционирования демократии. Работайте здесь и вы сможете изменить мир. С технической точки зрения, мы продвигаем прежде всего идею о том, сколькому вы сможете научиться. Наши проекты маленькие, быстрые и циклические, повторяющиеся. Каждый проект – это новый набор инструментов, новый язык, новая тема (пожарная безопасность, пенсионная система, и т.п.), которую вам нужно будет узнать. Ньюсрум – это суровое испытание. Я никогда не встречал команды, которая могла бы столь же многому обучиться и столь же быстро, как наша команда.

Что касается того, куда смотреть и где искать, то нам, например, очень повезло найти отличных хакеров в сообществе открытого правительства. А список рассылки Sunlight Labs – это место, где по ночам появляются всякие чудики–благодетели, у которых днем – обычная рутинная работа. Еще одним потенциальным источником является проект Code for America (CfA). Каждый год оттуда выходит группа товарищей, которая ищет себе следующий большой проект. А в качестве бонуса – у CfA очень тщательный процесс интервью – они уже проделывают работу по отбору за вас. В наши дни интересующиеся программированием журналисты также выходят из школ журналистики. Они, конечно, еще очень «зеленые», но у них просто тонны потенциала.

И наконец, недостаточно просто нанять разработчиков. Вам нужен технический менеджмент. Одинокий разработчик (особенно свежий выпускник журналистской школы, без опыта работы в отрасли) наверняка примет много плохих решений. Даже самый лучший программист, если его оставить наедине со своими устройствами, предпочтет делать технически интересную работу, а не то, что наиболее важно для вашей аудитории. Называйте это наймом редактора новостных приложений, проект–менеджера, неважно как назвать. Ровно как авторам и писателям, программистам тоже нужны редакторы, наставничество, а также кто–то, кто бы собачился с ними, заставляя делать работу по изготовлению ПО вовремя.

Брайан Бойер, Chicago Tribune


    Ваша оценка произведения:

Популярные книги за неделю