355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Д. Грей » Пособие по журналистике данных » Текст книги (страница 15)
Пособие по журналистике данных
  • Текст добавлен: 26 сентября 2016, 16:16

Текст книги "Пособие по журналистике данных"


Автор книги: Д. Грей


Жанр:

   

Справочники


сообщить о нарушении

Текущая страница: 15 (всего у книги 21 страниц)

Использование и обмен данными: готический шрифт, мелкий шрифт и реальность

В данном разделе мы кратко рассмотрим положения законодательства о данных и базах данных, и посмотрим, что вы можете сделать, чтобы открыть ваши данные, используя имеющиеся общедоступные лицензии и правовые инструменты. Не позволяйте ниже перечисленным преградам ослаблять ваше стремление к журналистике, посвященной данным. Обычно вы не будете сталкиваться с правовыми ограничениями при использовании данных, и вы можете легко сделать так, чтобы они не мешали другим людям пользоваться опубликованными вами данными.

Следует признать, что сейчас добывать данные стало просто, как никогда. Раньше, до эпохи широкой публикации данных в Интернете, даже если вы обнаруживали нужную вам базу данных, вы должны были просить того, у кого она находилась, предоставить вам доступ к ней, отправляя для этого письмо или совершая личный визит. Теперь ваш компьютер просит другой компьютер отправить ему нужную копию . Это, конечно, очень упрощенная схема, но в настоящее время у вас есть право на копирование, а они (лица, создавшие или опубликовавшие данные) ничего не сделали и, возможно, даже не знают, что вы скачали себе копию.

А что насчет скачивания данных какой–либо программой (называемого иногда «выскребанием») и условиями предоставления услуг? Посмотрите на предыдущий абзац: ваш браузер как раз и является такой программой. Могут ли условия предоставления услуг разрешать доступ только определенным программам? Если вы обладаете огромным количеством времени и денег на чтение таких документов и на получение юридических консультаций, то, конечно, действуйте. Однако обычно достаточно просто не делать резких движений: если ваша программа нанесет сайту какой–либо урон, то доступ к нему может оказаться просто заблокированным для вашей сети, и вполне возможно, что вы именно того и заслуживаете. В настоящее время наработана большая практика доступа к данным и «выскребания» их из Интернета. Если вы планируете такие действия, то для начала можно почитать об этом на таких сайтах, как ScraperWiki.

Получив интересующие вас данные, вы можете изучать их, сортировать, визуализировать, сравнивать и выполнять любые другие аналитические действия с вашей копией данных. Вы можете опубликовать ваш анализ, который может содержать любые данные. Популярное выражение «факты бесплатны» (как и выражение «свобода слова») имеет глубокий смысл, однако, возможно, оно является просто популярным выражением для тех, кто слишком много думает о правовой стороне баз данных или даже об управлении данных.

Что, если, являясь или стремясь быть хорошим журналистом, работающим в сфере данных, вы намереваетесь опубликовать не только ваш анализ, включающий некоторые факты или отдельные данные, но и наборы/базы данных, использованные вами в подготовке анализа и добавленные к нему? Или, может быть, вы являетесь просто смотрителем данных и никак не анализировали их – в конце концов, смотрители данных тоже нужны. Если вы используете данные, собранные каким–то другим лицом, то можете столкнуться с определенными проблемами. (Если база данных собрана полностью вами, все равно прочитайте следующий абзац для мотивации описываемого далее распространения данных.)

Вы, должно быть, знаете, как авторское право защищает творческий труд: если владелец авторского права не давал разрешения на использование работы (или если работа является общественным достоянием, или ваше использование попадает под исключения или ограничения, например, положения о добросовестном использовании), а вы ее все равно используете – распространяете, исполняете и т. д., владелец авторского права может заставить вас прекратить делать это. И, несмотря на то, что факты сами по себе бесплатны, коллекции фактов могут охраняться таким же образом, хотя соответствующие законы являются более разнообразными, чем законы об авторском праве на творческие работы. Кратко говоря, база данных может быть объектом авторского права, как творческая работа. Во многих юрисдикциях применяется принцип «труда автора», по которому сам факт создания базы данных, даже без приложения творческих усилий, делает эту базу данных объектом авторского права. В Соединенных Штатах, однако, имеется тенденция установления более высокого уровня минимальной творческой составляющей, необходимой для применения авторского права (классическим примером является дело «Feist против Rural» – спор о признании авторского права на телефонную книгу). Однако в некоторых юрисдикциях существуют права на базы данных, защищающие эти базы, при этом эти права не являются авторскими правами (хотя зачастую области, на которые эти права распространяются, пересекаются друг с другом, особенно в тех случаях, когда необходимый для признания авторского права минимальный уровень творчества практически отсутствует). Самым распространенным примером является применяемые в Европейском Союзе права на базы данных «sui generis». Так что, особенно если вы находитесь в Европе, вам может понадобиться разрешение на публикацию базы данных, полученной от другого лица.

Несомненно, эти ограничения не способствуют развитию экосистемы журналистики в сфере данных (не приносят они пользу и обществу в целом – социологи и другие исследователи уже говорили ЕС об этом еще до того, как появились права на базы данных «sui generis», и проводящиеся с тех пор исследования подтверждают их правоту). К счастью, вы, публикуя базу данных, можете снять эти ограничения (при условии, что база данных не содержит элементов, на публикацию которых вы не вправе предоставлять разрешения), в частности, предоставляя разрешения заблаговременно. Вы можете сделать это, издав вашу базу данных по общедоступной лицензии или объявив ее всеобщим достоянием – наподобие того, как это делают многие программисты, выпуская свободное программное обеспечение с общедоступными (открытыми) исходными кодами, с тем чтобы все желающие могли использовать их код (т. к. журналисты, работающие с данными, часто работают и с кодами, вам следует снять ограничения и с вашего кода, чтобы вашу коллекцию данных и аналитику можно было переопубликовывать). Можно назвать много причин, по которым вам следует открывать свои данные. Например, ваша аудитория может создать новую визуализацию или приложения, на которые вы можете затем ссылаться, как, например, делает Guardian, располагая сообществом визуализации на ресурсе Flickr. Ваши наборы данных могут быть объединены с другими наборами данных, что позволит вам и вашим читателям более широко взглянуть на изучаемую проблему. То, что сделают другие пользователи с вашими данными, может привести вас к новой статье или дать вам идеи для новой статьи либо нового проекта в сфере данных. И, конечно, все это принесет вам всеобщее уважение.

Рис 65. Open Data badges (Open Knowledge Foundation)

Когда автор понимает, что издание работ с общедоступными лицензиями является необходимостью, возникает вопрос: какую лицензию применить? Ответ на этот непростой вопрос зачастую будет зависеть от проекта или сообщества, на работу которого вы опираетесь, либо которому вы планируете предоставить вашу работу – используйте ту лицензию, которую использует это сообщество. Если вам нужно копать глубже, начните с открытых и свободных лицензий – означающих предоставление разрешения на использование всем желающим (может требоваться указание автора и распространение на таких же условиях). То значение, которое имеют для программного обеспечения такие понятия, как «Определение свободного программного обеспечения» и «Определение Open Source» (Открытого программного обеспечения), имеет Определение открытой информацииработы и устанавливает права, предоставляемые пользователям открытыми лицензиями.

На веб–сайте Open Knowledge (Открытая информация) вы можете найти список таких лицензий. В целом эти открытые лицензии делятся на три класса:

 Объявление всеобщим достоянием, что является лицензией, предоставляющей максимальный объем разрешений; использование работы не ограничивается никакими условиями.

 Разрешающие лицензии или лицензии, требующие указания авторства; единственным основным условием является указание автора работы.

 Копилефт, перекрестные лицензии или лицензии, предусматривающие дальнейшее распространение на тех же условиях.

Если вы используете набор данных, опубликованный другим лицом на условиях открытой лицензии, то можете считать предыдущий абзац очень кратким руководством по выполнению условий этой открытой лицензии. Чаще всего вам придется сталкиваться с лицензиями, созданными организациями Creative Commons и Open Data Commons, а также различными правительствами, во всех этих лицензиях обычно имеется раздел, в котором находятся все основные условия лицензии. Обычно лицензия указывается на странице, с которой можно скачать (или «выскрести», т. к., несомненно, веб–страницы могут содержать наборы данных) базу данных, либо на видном месте в самой базе данных, в зависимости от формата. Эти обозначения должны нанести и вы, открывая свои наборы данных.

Возвращаясь к началу, зададим вопрос: что, если нужной вам базы данных нет в Интернете или доступ к ней каким–то образом контролируется? Подумайте о том, чтобы не просто попросить доступ для себя, но и попросить открыть эти данные всему миру для их использования. Вы можете рассказать владельцам данных о том, какие замечательные вещи могут произойти с их данными, если они сделают это.

Вместе с тем, открытие данных всему миру может привести к тому, что к ним станут применимы положения о неприкосновенности личной жизни и другие норма. Действительно, тот факт, что открытие данных снимает многие технические барьеры и ограничения, связанные с авторскими правами, не означает, что вы не должны соблюдать иные применимые законы. Однако так было всегда, кроме того, существуют замечательные инструменты и меры защиты журналистов, если ваш здравый смысл подскажет вам, что эти данные необходимо исследовать.

Удачи вам! Хотя, вероятнее всего, удача больше понадобится вам для выполнения других аспектов вашего проекта, а не для регулирования (низких) правовых рисков.

Майк Линксвайер, Creative Commons

Трактование данных

Получив данные, что вы будете с ними делать? На что нужно обращать внимание? Какие инструменты использовать? В данной главе мы познакомим вас с некоторыми идеями о том, как можно повысить грамотность в сфере данных, подскажем, как работать с цифрами и статистикой, и расскажем, о чем следует помнить, работая со спутанными, некачественными и зачастую недокументированными наборами данных. Мы научимся писать статьи на основе извлекаемой из данных информации, изучим основные инструменты журналистов, работающих с данными, и рассмотрим, как использовать визуализацию данных для проникновения в суть рассматриваемой проблемы

Обретение грамотности в сфере данных за три простых шага

Рис 66. Digging into data ( JDHancock)

Как под грамотностью понимается «способность читать для получения знаний, умение писать и критически осмысливать печатный материал», под грамотностью в сфере данных понимается способность использовать данные для извлечения информации, производить связанные данные и критически осмысливать их. Грамотность в сфере данных включает в себя грамотность в сфере статистики, умение работать с большими наборами данных, понимание того, как данные были составлены, умение объединять разные наборы данных и способность толковать данные.

В Университете новостей (проект Института им. Пойнтера) проводятся занятия по математике для журналистов, на которых их учат таким вещам, как изменения процентных значений и средние показатели. Что интересно, тому же самому учат во флоридских школах (именно там находится Институт им. Пойнтера) учеников пятых классов (в возрасте 10–11 лет), о чем свидетельствует программа школьного обучения.

Тот факт, что журналистам нужна помощь в тех разделах математики, которые школьники изучают в пятых классах, показывает, как печально обстоят дела в ньюсрумах с грамотностью в сфере данных. Соответственно, не обходится без проблем. Как может журналистка, работающая в сфере данных, извлечь пользу из массива данных по изменению климата, если она не знает, что означает доверительный интервал? Как может репортер, работающий в сфере данных, написать статью о распределении доходов, если он не может отличить среднее значение от медианы?

При этом, чтобы научиться обращаться с данными, журналисту не обязательно получать диплом магистра статистики. Существует несколько простых способов, которые могут помочь лучше понять цифры и данные. Как говорит преподаватель Института им. Макса Планка Герд Гигеренцер, хорошие инструменты не гарантируют хорошую журналистику, если ими пользоваться без хороших знаний.

Даже если у вас отсутствуют какие–либо знания из области математики или статистики, вы легко можете стать журналистом в сфере данных, задав три очень простых вопроса.

1. Как были собраны данные?

Удивительный рост ВВП

Самый простой способ продемонстрировать зрелищные данные – сфабриковать их. И этот способ применяется даже к таким привлекающим всеобщее внимание данным, как показатели ВВП. Бывший посол Великобритании Крейг Мюррей пишет в своей книге «Убийство в Самарканде», что показатели роста в Узбекистане являются объектом напряженных переговоров местных властей с международными организациями. Другими словами, они не имеют никакого отношения к местной экономике.

ВВП считается самым главным показателем, т. к. он необходим государству для контроля над своим главным источником дохода – НДС. Если государство финансируется не за счет НДС или если оно не раскрывает данные о своем бюджете, то у него нет причин собирать данные о ВВП, ему будет проще сфабриковать их.

Преступность всегда растет

«Преступность в Испании выросла на 3 %», пишет El Pais. Брюссель стал жертвой роста преступности, вина за которую возлагается на незаконных иммигрантов и наркоманов, говорит RTL. Такой вид сообщений, основанных на собираемых полицией данных, является широко распространенным, однако они не содержат какой–то особой информации о насилии.

Мы можем верить в то, что в Европейском Союзе данные не подтасовываются. Однако на полицейских влияют побуждающие стимулы. Например, когда эффективность работы определяется уровнем раскрытия преступлений, у полицейских появляется стимул сообщать о как можно большем количестве происшествий, не требующих расследований. Одним из таких преступлений является курение травки. Этим объясняется тот факт, что за последние 15 лет количество преступлений, связанных с наркотиками, увеличилось во Франции в четыре раза, в то время как уровень потребления остается неизменным.

Что вы можете сделать

Если вы сомневаетесь в достоверности данных, проверяйте и перепроверяйте их, так, как вы делали бы это, если бы источником данных было высказывание политика. В примере с Узбекистаном будет достаточно позвонить кому–нибудь, кто прожил там какое–то время («Можете ли вы сказать, что страна стала в 3 раза богаче, чем она была в 1995 году, как говорят официальные данные?»).

В случае с данными полиции, социологи часто проводят исследования виктимизации, в ходе которых они спрашивают респондентов, становились ли они жертвами преступлений. Результаты этих исследований обычно менее изменчивы, чем данные полиции. Возможно, именно поэтому они и не попадают в заголовки.

Наши тесты, например, применение закона Бенфорда, позволят вам точно оценить достоверность данных, однако ничто не заменит вашего собственного критического мышления.

2. Какую информацию из них можно извлечь?

Риск рассеянного склероза удваивается, если работать по ночам

Конечно, любая немка в здравом уме, прочитав подобный заголовок. перестанет работать в ночные смены. Однако в статье так и не сообщается, каков же реальный риск на самом деле.

Возьмем 1000 жителей Германии. На протяжении всей жизни только один из них заболеет рассеянным склерозом. Соответственно, если все эти немцы работают в ночную смену, то количество случаев рассеянного склероза вырастет до двух. Дополнительный риск заболевания рассеянным склерозом при работе в ночные смены составляет 1 шанс из 1000, а не 100 %. Конечно, такая информация более полезна в тот момент, когда вы размышляете, стоит ли идти на ту или иную работу.

В среднем 1 из 15 европейцев абсолютно безграмотен.

Такой заголовок пугает. Кроме того, это абсолютная правда. Из 500 миллионов европейцев 36 миллионов не умеют читать. А еще 36 миллионов находятся в возрасте до 7 лет (данные Евростата).

Когда вы собираетесь написать «в среднем», подумайте, «в среднем от чего»? Однородно ли описываемое население? Принципы неравномерного распределения, например, помогают объяснить, почему большинство людей водят машину лучше, чем в среднем. Многие люди за всю жизнь попадали в аварию лишь единожды, либо не попадали вовсе. Немногочисленные безрассудные водители попадали в аварии много раз, тем самым значительно увеличивая показатель среднего количества аварий, т. е. среднее количество аварий на всех водителей будет выше, чем реальное количество аварий у большинства водителей. То же самое происходит и с распределением доходов: доходы большинства людей ниже средних значений.

Что вы можете сделать

Всегда учитывайте распределение и базовые значения. Проверка среднего значения и медианы, а также моды (наиболее часто встречающееся значение в распределении) поможет вам в проникновении в суть данных. Знание порядка величины облегчает контекстуализацию, как видно в примере с рассеянным склерозом. И, наконец, применение в ваших материалах числовых значений (1 из 100) больше поможет читателям понять суть вопроса, чем применение процентов (1 %).

3. Насколько надежны данные?

Проблема объема выборки

«80 % граждан недовольны судебной системой», говорится в исследовании, о котором пишет газета из Сарагосы Diaro de Navarra. Но как можно экстраполировать ответы 800 респондентов на 46 миллионов испанцев? Конечно, эти данные нельзя воспринимать всерьез, подумаете вы.

При исследовании больших групп населения (больше нескольких тысяч) для достижения предела погрешности менее 3 % вам обычно потребуется не более одной тысячи респондентов. Т. е., если вы проведете то же исследование с другой выборкой, то в 9 случаях из 10 полученные ответы будут отличаться от ответов, полученных в первый раз, не более, чем на 3 %. Статистика – мощный инструмент, и объемы выборки редко бывают повинны в недостоверных результатах опросов.

Употребление чая снижает риск инфаркта

Статьи о пользе употребления чая появляются постоянно. Эта небольшая статья в Die Welt, говорящая о том, что чай снижает риск инфаркта миокарда, не является исключением. В то время как свойства чая подвергаются серьезным исследованиям, во многих случаях исследователи не принимают во внимание такие факторы образа жизни, как диеты, род деятельности или занятия спортом.

В большинстве стран чай является напитком заботящегося о своем здоровье высшего класса. Если исследователи не учитывают при исследовании свойств чая факторы образа жизни, то в результате они говорят нам лишь о том, что «богатые люди более здоровы – и, возможно, они еще пьют чай».

Что вы можете сделать

Математические выкладки, касающиеся взаимосвязей и погрешностей в исследованиях свойств чая, конечно правильны, по крайней мере, в большинстве случаев. Однако, если исследователи не обращают внимание на соотношения взаимосвязей (например, как употребление чая соотносится с занятиями спортом), то их результаты не имеют большой ценности.

Как журналисту вам не имеет смысла ставить под сомнение численные результаты исследования, например, объемы выборки, за исключением случаев, когда они вызывают серьезные сомнения. Однако, вы можете легко понять, не упустили ли исследователи в своих исследованиях какую–либо значимую информацию.

Николас Кайзер–Брил, Journalism++

Советы по работе с цифрами в новостях

 Наилучший совет по обработке данных – делайте это с удовольствием. Данные могут показаться вам устрашающими. Однако стоит вам позволить напугать себя – и вы не добьетесь никаких результатов. Отнеситесь к процессу как к игре, и может случиться так, что данные с удивительной легкостью раскроют вам свои секреты. Поэтому обрабатывайте их как обычно, как вы обрабатывали бы любые другие свидетельства, без страха или предпочтения. В частности, относитесь к этому процессу как к тренировке воображения. Примените творческий подход, подумайте, какие альтернативные факторы могут быть связаны с этими данными и могут объяснять их, проверяйте данные с помощью дополнительной информации. «Чем еще можно объяснить эти данные?» В некоторых случаях этот полезный подход может помочь понять вам, что эти цифры, эти очевидно большие или плохие показатели, эти ясные доказательства того или этого, могут оказаться совсем не тем, чем кажутся.

 И не путайте скептицизм по отношению к данным с цинизмом. Скептицизм – это хорошо; цинизм приведет к тому, что вы просто поднимите руки вверх и сдадитесь. Если вы верите в журналистику в сфере данных – а вы, скорее всего, верите, иначе вы не читали бы эту книгу, – то вы должны верить в то, что данные могут предложить нечто лучшее, чем рассчитанные на потеху публике карикатуры или убийственные факты сводящих с ума заголовков. При аккуратном использовании данные зачастую позволяют получить глубокие знания. Не стоит быть циничным или наивным, однако стоит быть внимательным.

 Если я скажу вам, что люди стали больше пить во время кризиса, вы можете ответить, что причина заключается во всеобщей депрессии. Если я скажу вам, что люди стали пить меньше, вы можете ответить, что у всех просто кончились деньги. Иными словами, сами по себе данные не оказывают никакого влияния на то, как вы собираетесь их интерпретировать, а именно, если вы собираетесь сказать, что все ужасно так или эдак. Если пить стали больше – плохо, если пить стали меньше – плохо. Я хочу сказать, что если вы верите в данные, то старайтесь понять их до того, как на них наложится ваше настроение, убеждения или ожидания. Вокруг нас столько данных, что очень часто вы сможете находить подтверждения своим давним убеждениям, просто оглянувшись вокруг. Другими словами, журналистика в сфере данных, по крайней мере на мой взгляд, имеет мало смысла, если вы отличаетесь предвзятостью. Она настолько объективна, насколько вы стремитесь к этому, ее объективность определяется не лежащими в ее основе цифрами.

 Неопределенность – это не страшно. Мы ассоциируем данные с авторитетом и точностью. Но бывает так, что ответ заключается в том, что ответа нет, либо ответ может быть самым лучшим из возможных, и все равно не отличаться точностью. Я считаю, что мы должны говорить об этом. Если вам покажется, что такой подход просто убьет все возможные статьи, я возражу, сказав, это замечательный способ поднять новые темы. И еще, зачастую существует много законных способов обрезать данные. Цифры не обязательно должны представлять собой либо правду, либо неправду.

 Статью можно сделать из самого расследования. История о том, как вы пытались получить результат, как переходили от одних свидетельств к другим, может стать настоящим произведением журналистики – особенно когда речь идет о свидетельствах, основанных на данных. Различные источники предлагают новые точки зрения, новые идеи, более широкое понимание. Интересно, не стремимся ли мы быть излишне авторитетными, давая людям готовые ответы – что приводит к тому, что мы упускаем возможность показать сам процесс расследования.

 Самые хорошие вопросы – это проверенные вопросы: это действительно важные цифры? Откуда они взялись? Вы уверены, что они обозначают то, что вы думаете? Это всего лишь подсказки о том, как следует размышлять о данных, о первых выводах, сделанных на основании какой–то одной цифры, о трудностях реальной жизни, о широком ряде других потенциальных сравнений по времени, группе или географии – короче говоря, о контексте.

Майкл Бластленд, журналист–фрилансер.


    Ваша оценка произведения:

Популярные книги за неделю