355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Дарелл Хафф » Как лгать при помощи статистики » Текст книги (страница 2)
Как лгать при помощи статистики
  • Текст добавлен: 6 мая 2022, 17:31

Текст книги "Как лгать при помощи статистики"


Автор книги: Дарелл Хафф



сообщить о нарушении

Текущая страница: 2 (всего у книги 8 страниц) [доступный отрывок для чтения: 2 страниц]

Базовая выборка относится к категории случайной (вероятностной) выборки. Она отбирается произвольным образом из генеральной совокупности, под которой статистики понимают весь обследуемый массив. Например, выбирается каждое десятое имя в картотеке индексных карточек. Или из шляпы, полной свернутых бумажек, наугад выбираются пятьдесят штук. Или интервьюируется каждый двадцатый человек на главной улице Сан-Франциско Маркет-стрит. (К вашему сведению, последняя из упомянутых не будет выборкой ни населения всего мира, ни Соединенных Штатов, ни самого Сан-Франциско, это всего лишь выборка из всей массы людей, находящихся в это конкретное время на Маркет-стрит. Одна дама, проводившая опрос общественного мнения, рассказывала, что находила респондентов на железнодорожной станции, поскольку «на вокзалах можно обнаружить людей всех возможных категорий». Следовало бы указать ей, что матери малолетних ребятишек, например, могли быть недостаточно представлены в вокзальной толпе.)

Проверить, действительно ли выборка имеет случайный (произвольный) характер, можно с помощью такого вопроса: каждое ли имя или предмет из обследуемой совокупности имеют равный шанс попасть в выборку?

Безупречно случайная – единственный тип выборки, которую можно исследовать при помощи статистических методов с полной уверенностью в надежности результата. Но у нее имеется один недостаток. Получить такую выборку для множества надобностей настолько трудно и дорого, что чисто материальные соображения заставляют отказаться от этой идеи. Более экономной заменой, повсеместно используемой в таких сферах, как изучение общественного мнения и рыночной конъюнктуры, будет стратифицированная случайная выборка.

Чтобы получить стратифицированную выборку, вы должны разбить генеральную совокупность на несколько групп (страт) пропорционально известному показателю их распространенности в совокупности. Вот тут-то и начнутся трудности: сведения о том, каково соотношение групп в генеральной совокупности, могут быть некорректны. Вы инструктируете интервьюеров, которые будут проводить опрос, и наказываете им проследить, чтобы среди опрошенных было столько-то чернокожих, такой-то процент людей, относящихся к нескольким группам населения по размеру доходов, определенное число фермеров и т. п. Но вместе с тем в группе должно быть представлено равное количество людей в возрасте старше и моложе сорока лет.

Все это выглядит убедительно, но что происходит на деле? В том, что касается цвета кожи респондентов – белый это или чернокожий, интервьюеры в большинстве случаев не ошибутся. Но они допустят больше ошибок в оценке размера доходов опрашиваемых. А если говорить о фермерах, то как вы классифицируете человека, который часть времени трудится на ферме, но вдобавок имеет работу в городе? Даже такой вопрос, как возрастная категория респондента, может создать некоторые трудности, но интервьюеры преодолевают их самым простым способом – выбирают респондентов, которые явно старше или значительно моложе сорока лет. Правда, в таких случаях выборка будет предвзятой ввиду фактического отсутствия в ней лиц в возрасте под сорок и тех, кому сорок с небольшим. Так что, как ни крути, хорошего решения все равно нет.

А кроме всего прочего, как на условиях стратификации получить вероятностную выборку? Самое очевидное решение – сначала переписать всех, кто входит в страту, а затем найти и опросить выбранных из этого списка случайным образом. Но это слишком уж дорогостоящая процедура. И тогда вы просто выходите на улицу – и сами искажаете свою выборку, поскольку в ней не будут представлены люди, которые сидят в это время по домам. Если вы будете стучаться в двери днем – значит, не охватите большинство тех, кто работает. Решив проводить опросы по вечерам, вы упустите любителей кинематографа и завсегдатаев ночных клубов.

В итоге проведение опроса сводится к стараниям побороть источники необъективности, и эту битву ведут все до единой почтенные организации, занимающиеся проведением опросов. Те, кто читает их доклады, должны помнить: эту битву никто и никогда не выигрывает. Всякий раз, когда вам где-нибудь встречается вывод, что «67 % американцев против» того-то или того-то, вам следует задаться вопросом: 67 % каких именно американцев?

То же самое относится и к «трактату о женской сексуальности» доктора Альфреда Кинси[6].

Проблема с этим трудом (как и со всеми прочими, в основу которых положены выборки) заключается в том, как ознакомиться с ним (или его кратким изложением) и при этом не намотать на ус слишком много суждений, которые не обязательно истинны. В труде доктора Кинси задействованы выборки как минимум на трех уровнях. Сделанные самим Кинси выборки из всего населения страны (один уровень) далеки от вероятностных и могут быть не особенно репрезентативны, но они колоссальны в сравнении с тем, что было сделано в этой области раньше. Приведенные Кинси цифры следует воспринимать как данные, на многое проливающие свет и значимые, даже если они и не вполне точны. Наверное, важнее иметь в виду, что любой вопросник или анкета представляют собой всего лишь выборку (еще один уровень) из всего множества возможных вопросов и что ответы женщин на эти вопросы – тоже не более чем выборка (вот вам третий уровень) из их личных взглядов и жизненного опыта по каждому заданному вопросу.

Сама личность интервьюера также способна довольно любопытным образом повлиять на ответы респондентов в ходе опроса. Несколько лет назад, еще во время войны[7], Национальный центр изучения общественного мнения направил в один город на юге страны две группы интервьюеров с поручением задать три вопроса пятистам чернокожим горожанам. Одна группа состояла из белых, а вторая – из чернокожих интервьюеров.

Один из вопросов формулировался так: «Лучше или хуже обращались бы у нас с чернокожими, если бы японцы завоевали США?» По данным группы чернокожих интервьюеров, ответ «лучше» дали 9 % опрошенных ими респондентов. А белые интервьюеры зафиксировали всего 2 % таких ответов. И если чернокожие интервьюеры обнаружили всего 25 % респондентов, полагавших, что обращение с чернокожими ухудшится, то у белых интервьюеров доля респондентов, придерживающихся такой точки зрения, неожиданно оказалась равной 45 %.

В ответ на второй вопрос, аналогичный первому за тем исключением, что в формулировке значились не «японцы», а «нацисты», были получены похожие результаты.

Третий вопрос был призван прояснить взгляды респондентов, которые могли сформироваться на основе мнений, высказанных ими при ответах на первые два вопроса. «На чем, по вашему мнению, важнее сосредоточить усилия: на том, чтобы победить страны “оси”[8], или на том, чтобы здесь, у себя дома, усилить действенность демократии?» Ответ «победить страны “оси”», по данным чернокожих интервьюеров, дали 39 % респондентов, а у белых интервьюеров этот показатель составил 62 %.

Перед нами пример предвзятости, обусловленной некими неизвестными факторами. Как представляется, самым сильнодействующим фактором будет тенденция, которую никогда не следует сбрасывать со счетов, когда знакомишься с результатами социологических опросов: желание респондента угодить интервьюеру. Стоит ли удивляться, что, отвечая на вопрос с подтекстом, намекающим на возможную нелояльность своей стране в военное время, чернокожие жители Юга скорее предпочли ответить белому интервьюеру так, чтобы их ответ выглядел достойно, чем сообщить ему, что они думают в действительности? Также нельзя исключать, что разные группы интервьюеров выбирали себе в респонденты разных людей.

Как бы там ни было, а результаты опроса, безусловно, до такой степени предвзяты и необъективны, что это их практически обесценивает. Можете сами судить, сколь многие сделанные на основе опросов выводы и умозаключения до такой же степени предвзяты, равно как и ни к чему не годны – разве что у нас нет никакой возможности проверить их и изобличить их несостоятельность.

Теперь у нас достаточно оснований сделать следующий шаг и предположить, что все социологические опросы в целом грешат предвзятостью – того же сорта, что и допущенный Literary Digest просчет. Это крен в сторону людей более состоятельных, более образованных, более информированных и осторожных, с более пристойным внешним видом, общепринятым поведением и с более устоявшимися привычками, чем у того среднестатистического гражданина, представлять которого их выбрали.

Не так уж трудно понять, отчего такое происходит. Давайте представим, что вам поручили встать на углу улицы и задать ряд вопросов какому-то одному человеку. Вам попадаются на глаза двое прохожих, и оба вроде бы подходят под ту категорию, представителя которой вам предписано опросить, а именно – горожанина в возрасте старше сорока лет. Один прохожий одет чисто и аккуратно, другой же – во что-то непотребное, да к тому же угрюм и неприветлив на вид. Вы, чтобы выполнить свое задание, естественно, обратитесь к тому из двоих, кто выглядит приличнее, и точно так же поступают ваши коллеги-интервьюеры по всей стране.

Среди прочих сильнейшая неприязнь к опросам общественного мнения наблюдается в кругах либералов и сторонников левых идей, где довольно-таки прочно укоренилось мнение, что социологические опросы в большинстве своем – подтасовки и надувательство. Это мнение зиждется на том факте, что результаты социологических опросов очень часто не сообразуются с убеждениями и чаяниями тех, кто не разделяет консервативных взглядов. Если верить опросам, указывают они, то получается, что победят республиканцы, даже когда через считаные дни избиратели делают иной выбор.

На самом деле, как мы уже убедились, это вовсе не означает, что социологические опросы фальсифицируются – иными словами, что кто-то намеренно искажает их результаты, чтобы создать ложное впечатление. Свойственная выборке тенденция к систематическому смещению в сторону более состоятельных респондентов может исказить результаты любого опроса.

Глава 2

Грамотно выбранное среднее

Надеюсь, вы не страдаете снобизмом, а я определенно не имею никакого отношения к рынку недвижимости. Но давайте считать, что вы все-таки сноб, а я – агент по продаже недвижимости и что вы как раз сейчас присматриваете земельный участок поблизости от Калифорнийской долины, где я обитаю.

Я уже разобрался, что вы за человек, и теперь, не жалея сил, убеждаю вас, что в интересующем вас месте проживают люди со средним доходом порядка $15 000 в год. Может быть, именно этот довод и сыграл решающую роль в вашем решении поселиться в этих краях, но, как бы там ни было, вы совершаете покупку, а названная мною приятная сумма годового дохода местных жителей западает вам в душу. Более чем уверен (уж коли мы договорились, что сейчас вы немножечко сноб), что в разговорах с друзьями вы нет-нет, да и ввернете эту цифру, описывая место, где теперь живете.

Примерно через год мы с вами снова встречаемся. Как член некого комитета налогоплательщиков, я собираю подписи под петицией, требующей не повышать налоговую ставку, оценочную стоимость налогооблагаемого имущества или плату за проезд в автобусах. Я привожу такой довод: мы, местные жители, не можем позволить себе платить больше, ведь, в конце концов, средний доход жителей нашей округи составляет всего лишь $3500 в год. Не исключено, что в этом вы соглашаетесь со мной и нашим комитетом – вы не только сноб, но еще и довольно прижимисты по натуре, – и все же вас не может не удивлять мое упоминание об этих жалких $3500 среднего дохода. Вру я сейчас или соврал тогда, год назад?

Вам не удастся дважды обвинить меня во лжи. В этом и состоит вся прелесть обмана при помощи статистики. Обе эти цифры представляют собой вполне правомочные среднестатистические показатели, обе вычислены с соблюдением всех правил. Обе отражают один и тот же массив данных, характеристики одной и той же группы людей, одни и те же показатели дохода. И тем не менее совершенно очевидно, что по крайней мере одна из цифр должна быть настолько недостоверной, что ничем не уступает самой отъявленной лжи.

Моя уловка состояла в том, что в первом и втором случае я воспользовался среднестатистическими показателями разного вида, ведь термин «средний» имеет очень расплывчатое толкование. Подобный трюк широко используют субъекты, желающие повлиять на общественное мнение или продать рекламное место – бывает, что по простоте душевной, но чаще вполне осознанно. Когда вам рассказывают, что некое число представляет собой среднюю величину, это мало о чем вам скажет, пока вы не разберетесь, какой из трех основных видов среднего перед вами – среднее арифметическое, медиана или мода.

Когда мне требовался показатель побольше, я упомянул $15 000. Это было простое среднее, то есть среднее арифметическое доходов всех семей, проживающих в той местности. Для его расчета требуется сложить доходы всех семей и разделить получившуюся сумму на число семей. Спустя год я воспользовался средним показателем меньшей величины – он представляет собой медиану и означает, что половина семей в рассматриваемой местности имеет годовой доход выше $3500, а вторая половина – ниже $3500. Я мог бы пустить в ход и моду, то есть чаще всего встречающееся значение в числовом ряду, составленном из доходов семей в интересующей нас местности. Если у большей части проживающих там семей годовой доход составляет $5000, это значение и будет модой, или модальным доходом.

В данном случае (и, как правило, это справедливо в отношении показателей доходов) некое абстрактное «среднее» – без уточнения, какого оно вида, – в сущности, лишено всякого смысла. Добавляет путаницы и еще один фактор: во многих случаях все три средних показателя настолько близки по значению, что нет никакой необходимости делать различие между ними, если требуется в общих чертах охарактеризовать положение вещей.

Если вы где-то прочитали, что у людей, относящихся к какой-то группе, средний рост составляет всего лишь полтора метра, это дает вам вполне ясное представление об их росте. Вам нет необходимости уточнять, будет ли этот показатель средним арифметическим значением, медианой или модой – эти величины примерно одинаковы. (Разумеется, если вы связаны с пошивом спецодежды для этого контингента, вам понадобится больше данных, чем те, что способен дать любой среднестатистический показатель. Вам потребуется информация о диапазоне и отклонениях, и этим мы займемся в следующей главе.)

Разные виды среднего имеют близкие значения, когда дело касается данных наподобие тех, что относятся ко многим характеристикам человека. Они настолько любезны, что изволят тяготеть к тому, что называется нормальным распределением. Если начертить кривую нормального распределения, то по форме она будет напоминать колокол, а среднее арифметическое значение, медиана и мода попадут в одну и ту же точку.

Следовательно, один вид среднего ничуть не хуже другого, когда требуется охарактеризовать рост группы мужчин. Но все совсем не так, когда стоит задача описать размер их доходов. Если вам требуется свести в один список показатели годового дохода всех жителей исследуемого города, то может оказаться, что эти величины варьируются в пределах от довольно скромных до, вероятно, $50 000 или около того. Кроме того, в списке могут фигурировать всего несколько показателей действительно очень высокого дохода. Порядка 95 % всех показателей будут ниже, чем $10 000, и они займут место в левой части кривой. В итоге вместо симметричной, как колокол, кривой вы получите кривую, скошенную в одну сторону. С одной стороны – крутая горка, с другой – постепенный плавный спуск. Среднее арифметическое окажется на некотором расстоянии от медианы. Сами посудите, как это могло бы сказаться на справедливости любого сравнения между «средним» (средним арифметическим) показателем за один год и «средним» (медианой) за другой год.

В той местности, где я продал вам кое-какую недвижимость, два средних показателя особенно сильно расходятся по значению, поскольку распределение доходов имеет явное смещение. Так уж получилось, что большинство ваших соседей – мелкие фермеры, наемные работники в близлежащем поселке или люди, отошедшие от дел и живущие на пенсию. Однако трое – миллионеры, они наведываются в здешние дома только по выходным, и именно за счет их миллионов суммарный годовой доход по вашей округе достигает такой значительной величины (и, соответственно, неимоверно увеличивает средний арифметический доход жителей). Из-за этих троих показатель среднего дохода приобретает огромный размер, какого и близко не имеет почти никто из остальных жителей местности. Это тот самый случай, когда шутка «Практически все имеют доход ниже среднего» становится реальностью.

И потому, если вам попадается заявление главы корпорации или владельца компании, где говорится, что у его сотрудников средняя зарплата достаточно высока, это может означать нечто конкретное, а может и не означать ничего. Если упомянутый средний показатель представляет собой медиану, он скажет вам нечто существенное, а именно, что половина сотрудников зарабатывает больше указанной суммы, а другая половина – меньше. Но если перед вами среднее арифметическое (а можете мне поверить, так оно и бывает, если вид среднего не уточняется), эта цифра не даст вам никакой полезной информации. Это всего лишь среднее арифметическое, которое складывается из одного показателя дохода в размере $45 000 (владельца бизнеса) и зарплат его низкооплачиваемых сотрудников. Если где-то говорится, что «средняя заработная плата составляет $5700», за этим могут скрываться заработки сотрудников размером $2000 и прибыли владельца, представленные в виде дохода колоссальной величины.

Давайте чуть подольше задержим взгляд на последнем примере. В первую очередь мы видим, кто сколько получает. Босс, вероятно, предпочел бы охарактеризовать ситуацию с оплатой труда как «средний заработок в размере $5700», то есть прибегнуть к обманчивому среднему арифметическому значению. Однако мода сказала бы нам намного больше: самый распространенный размер заработка в этой компании составляет $2000 в год. Однако медиана, как это часто бывает, лучше проясняет картину, чем любой отдельно взятый показатель: половина сотрудников зарабатывает больше $3000, а другая половина – меньше.

Очень легко использовать этот прием, чтобы одним махом изобразить красивую картинку (и чем непригляднее ситуация на самом деле, тем краше она будет). Это хорошо иллюстрируют официальные отчеты некоторых компаний. Давайте попытаемся разобраться с одним из таких примеров.

Допустим, вы – один из троих партнеров, владеющих небольшим производством. Сейчас конец года, причем весьма для вас удачного. Вы выплатили в качестве зарплаты $198 000 своим 90 сотрудникам, которые производят и отгружают заказчикам стулья или какую-то другую продукцию. Вы с партнерами выплатили себе по $11 000 в качестве оклада. Но у вас остается еще и прибыль в размере $45 000, которую вы должны как-то распределить. Как вы отразите эту ситуацию в отчете? Чтобы она была понятнее, вы облекаете ее в форму средних показателей. Ввиду того, что все ваши сотрудники выполняют примерно одинаковую работу за одинаковую плату, не составит никакой разницы, какого вида средний показатель вы используете – среднее арифметическое или медиану. Вот какой результат у вас получится:

Средняя зарплата сотрудников……………………………………..$2200

Средний оклад и прибыль владельцев…………………………..$26 000

Сильно, правда? А давайте попробуем подойти к делу с другой стороны.

Берем из прибыли $30 000 и распределяем между тремя партнерами в качестве премиальных. И на сей раз, рассчитывая средний размер заработка в компании, включите в расчет себя и своих партнеров. И позаботьтесь о том, чтобы воспользоваться средним арифметическим:

Средняя зарплата или оклад……………………………$2806,45

Средняя прибыль владельцев…………………………..$5000,00

Ага! Вот так уже лучше. Эти данные можно и улучшить, но сейчас все выглядит куда пристойнее. Менее 6 % от фонда заработной платы и прибыли пошло владельцам, и вы можете пойти дальше и наглядно показать это, если захотите. В любом случае теперь у вас в распоряжении имеются цифры, которые вполне годятся, чтобы обнародовать их, поместить на доске объявлений или использовать при заключении трудовых договоров с сотрудниками.

Этот трюк выглядит довольно грубым, поскольку сам пример у нас упрощенный, но это ничто в сравнении с тем, что делают во имя отчетности. Если взять корпорацию со сложной структурой и несколькими уровнями иерархии сотрудников – от начинающей машинистки до президента, чьи премии исчисляются сотнями тысяч долларов, то точно таким же манером можно скрыть какие угодно реальные цифры.

Так что, когда вам встречается средний показатель зарплаты, первым делом задайтесь вопросом: это среднее чего? Кого оно включает? Был случай, когда Американская сталелитейная корпорация (United States Steel Corporation) заявила, что средняя недельная зарплата ее сотрудников возросла на 107 % в период с 1940 по 1948 г. Так оно и было – правда, впечатление от этого чудесного прироста несколько меркнет, когда вы замечаете, что в показатель за 1940 г. включено значительно большее число частично занятых сотрудников. Если в каком-то году вы работали по полнедели, а в следующем перешли на полную занятость, ваш заработок удвоится, но это ничего не говорит о размере вашей заработной платы.

Вы могли прочитать в газете, что доход средней американской семьи в 1949 г. составил $3100. Не стоит и пытаться делать из этого каких-либо серьезных выводов, пока вы не узнаете, что за «семьи» принимались в расчет для вычисления среднего и к какому виду относится это среднее. (И еще – кто это говорит, откуда он это взял и насколько точна сама цифра.)

Выясняется, что данную цифру опубликовало Бюро переписи населения США. Если у вас под рукой есть доклад бюро, вам не составит труда найти на его страницах всю сопутствующую информацию: опубликованная цифра представляет собой медиану; «семья» определяется как «двое или больше человек, состоящих в родстве друг с другом и проживающих вместе». (Если в группу включить тех, кто живет один, медиана сместится к отметке $2700, а это уже существенно отличается от первоначальных $3100.) Если пойти назад, к исходным табличным данным, то можно заметить, что показатель дохода рассчитан на основе выборки такого размера, что с вероятностью девятнадцать из двадцати данный показатель (а он до округления равнялся $3107) имеет погрешность в пределах ± $59.

Благодаря такой степени вероятности и такому уровню погрешности оценка получилась более или менее точной. Сотрудники бюро достаточно профессиональны, и их работа финансируется достаточно хорошо, что и позволило провести выборочное исследование с такой приличной степенью точности. И надо полагать, выполняя эту работу, сотрудники бюро не были заинтересованы подгонять оценку под какую-то конкретную цифру. Не все статистические показатели, которые вам встречаются, появляются на свет при таких счастливых обстоятельствах, да и далеко не все стандартные сопровождаются вообще какой-либо информацией, позволяющей судить, в какой степени точными или неточными они могут быть. Мы подробнее обсудим эту тему в следующей главе.

Между тем вам предоставляется случай испытать свою недоверчивость на некоторых утверждениях из колонки «От издателя» в журнале Time. Про новых подписчиков журнала там говорится, что «их медианный возраст составляет 34 года, а средний семейный доход равен $7270 в год». Более раннее по времени исследование «давних подписчиков» установило, что их «медианный возраст достигает 41 года… Средний доход составляет $9535…». Возникает резонный вопрос: почему в обоих случаях про возраст подписчиков уточняется, что это медианное значение, а вот о том, какого вида средним выражен средний доход, журнал предусмотрительно умалчивает? Может ли быть так, что среднее арифметическое для обозначения среднего дохода выбрано по той причине, что его величина больше других средних (и, судя по всему, преследуется цель приманить рекламодателей тем, что у журнала весьма состоятельная аудитория)?

Вы могли бы также поиграть в игру «Какого вида это среднее?» на примере предполагаемого преуспевания выпускников Йельского университета 1924 г. выпуска, о чем говорилось в начале первой главы.

Глава 3

Нюансы, о которых скромно умалчивают

«Потребители отмечают, что благодаря зубной пасте компании Doakes у них образуется на 23 % меньше кариеса», – гласит набранный аршинными буквами заголовок. Вам интересно, как на 23 % уменьшить причину зубных болей, и вы читаете дальше. Выясняется, что эти результаты поступили (и это выглядит весьма обнадеживающе) из совершенно «независимой» лаборатории. Мало того, точность лабораторных расчетов удостоверена дипломированным бухгалтером[9]. Спрашивается, чего же еще?

И все же, если вы не совсем легковерны и не отъявленный оптимист, жизненный опыт говорит вам, что одна зубная паста редко бывает намного лучше другой. Но тогда на каком основании люди, пользующиеся пастой компании Doakes, отрапортовали о таком результате? Неужели они попросту позволили себе нагло солгать, да еще чтобы их вранье напечатали такими крупными буквами? Вовсе нет, да у них и не было такой надобности. На то придуманы куда более простые и действенные способы.

Главная уловка в данном случае заключается в некорректной выборке – статистически некорректной. Ну а для целей производителя зубной пасты она очень даже хороша. Группа испытуемых, как явствует из приведенного ниже текста, набранного мелким шрифтом, состояла всего из дюжины человек. (Однако следует отдать должное компании Doakes – помимо прочего, она честно оставила вам шанс проверить свою сообразительность. Иные из рекламодателей ни за что не раскроют такого рода сведения и оставят даже самых подкованных в статистике читателей теряться в догадках, какие именно махинации стоят за красивыми рекламными цифрами. Выборка в дюжину испытуемых не так уж и плоха в данных обстоятельствах. За несколько лет до этого на рынок был выставлен некий продукт под названием «зубной порошок доктора Корниша», причем под уверения, что он, дескать, продемонстрировал «значительный успех в устранении… кариеса». Суть состояла в том, что в порошке содержится мочевина, а она, как предполагали лабораторные исследования, доказала свою эффективность в качестве противокариесного средства. Беспочвенность этого вывода обусловливалась тем, что эксперименты носили не более чем предварительный характер, и успех был зафиксирован всего в шести случаях.)

Однако давайте вернемся к вопросу, почему компании Doakes так легко удалось, не прибегая к вранью, добиться широкого освещения в прессе, да еще и подкрепить все это заключениями независимых экспертов. Предположим, некая немногочисленная группа потребителей в течение полугода ведет учет состояния своих зубов, а потом переключается на пасту от Doakes. Далее можно ожидать одного из трех вариантов: кариеса станет больше, кариеса станет ощутимо меньше или никаких изменений не последует. Если события пойдут по первому или последнему варианту, производитель пасты просто зафиксирует эти показатели (где-нибудь у себя, вдали от глаз общественности) и предпримет новые попытки. Рано или поздно в дело вмешается случай, и у испытуемых зафиксируют-таки значительное улучшение, достойное газетных заголовков, а то и целой рекламной кампании. И случится это независимо от того, пользуются ли испытуемые пастой Doakes, питьевой содой или своим привычным средством по уходу за зубами.

Малочисленную группу испытуемых важно задействовать вот почему: при многочисленной группе любой случайный сдвиг в лучшую сторону будет, скорее всего, довольно скромным и потому не заслужит упоминания в прессе. Очень сомнительно, что заявления о двухпроцентном улучшении подстегнут продажи зубной пасты.

Каким образом результат, который ни о чем не говорит, можно получить по чистому везению (притом что число исследуемых случаев достаточно мало), вы можете проверить на себе, не истратив ни цента. Возьмите монетку и подбросьте ее несколько раз. Как часто она будет падать решкой вверх? В половине случаев, конечно. Это всякий скажет.

А давайте-ка проверим и поглядим, так ли это… Лично я только что десять раз подбросил монетку, и в восьми случаях она упала решкой вверх. Это доказывает, что в 80 % случаях при подбрасывании монетки она падает решкой вверх. Ну да, согласно методам, которыми получена статистика по зубной пасте, так оно и есть.

А теперь проделайте это сами. У вас может получиться пятьдесят на пятьдесят, но по всей вероятности это будет не так. Более вероятно, что ваш результат, как и мой, окажется довольно далек от половины наполовину. Но если у вас хватит терпения на тысячу попыток, то вы почти наверняка (хотя обещать вам этого не стану) получите результат очень близкий к тому, чтобы монетка падала решкой вверх в половине случаев. Такой результат и представляет собой реальную вероятность. Только при достаточно большом количестве попыток закон средних чисел позволяет получить значимую характеристику или прогноз.

А достаточно большое количество – это сколько? Довольно каверзный вопрос! Помимо прочего, все зависит от того, насколько обширна и вариативна группа населения, которую вы изучаете методом выборки. И случается, что количество человек, попавших в выборку, совсем не так обоснованно, как представляется.

Примечательный пример этого появился в связи с испытанием противополиомиелитной вакцины, которое проводилось несколько лет назад. Это выглядело впечатляюще масштабным экспериментом, как свойственно подобным медицинским испытаниям: в некой местности были вакцинированы 450 детей, а 680 детей остались непривитыми (в качестве контрольной группы). Вскоре после этого в той местности случилась эпидемия полиомиелита. Ни у одного из вакцинированных детей не было выявлено полиомиелита.

Как не было его выявлено и у детей из контрольной группы. Что проглядели экспериментаторы (или просто не поняли), когда планировали свое испытание, так это редкость паралитического полиомиелита. В обычном случае в группе такой численности можно ожидать всего двух случаев заражения, так что испытание с самого начала было совершенно бессмысленным. Потребовалась бы группа численностью раз в пятнадцать, а то и в двадцать пять больше, чтобы получить сколько-нибудь значимый результат.


    Ваша оценка произведения:

Популярные книги за неделю