Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Текст добавлен: 14 сентября 2016, 22:35

Текст книги "Том13. Абсолютная точность и другие иллюзии. Секреты статистики"

Автор книги: Пере Грима

Жанр:

Математика

сообщить о нарушении

Текущая страница: 7 (всего у книги 8 страниц)

Назад к карточке книги

Глава 5
Что лучше? Что эффективнее? Как формировать выборки для ответов на подобные вопросы

Статистику необходимо использовать тогда, когда для ответа на вопрос нужно собрать и проанализировать данные. К таким вопросам относятся, например, вопросы об эффективности вакцины или лекарства, о прочности нового способа сварки и другие.

Как правило, сбор данных – трудоемкая и дорогостоящая операция. Следует тщательно продумать, каков оптимальный способ решения этой задачи, позволяющий потратить минимум ресурсов. Кроме того, почти никогда не удается получить все необходимые данные и нужно знать, как извлечь из них максимальную выгоду. Не стоит забывать и о вариации данных, которые не подчиняются строгим математическим законам, и при одних и тех же исходных данных результаты могут различаться.

Если нужно ответить на вопрос, снижает ли регулярный прием определенной дозы аспирина вероятность инфаркта, это можно сделать на основе рассуждений о действии аспирина на организм, однако во многих случаях реальность преподносит немало сюрпризов. Точнее всего на этот вопрос можно ответить, если собрать экспериментальные данные. Нужно сформировать две группы людей, обладающих как можно более схожими признаками, одной группе прописать аспирин, другой – нет, после чего сравнить результаты. Нам известно, что не все участники исследования одинаковы, поэтому реакция на аспирин у них будет различаться. Нужно учесть все эти факторы и сделать корректные выводы, указав степень их надежности. Именно этим и занимается статистика.

Крупномасштабное исследование: вакцина против полиомиелита

Возможность сделать прививку и обезопасить себя от инфекционного заболевания, вне всяких сомнений, стала одним из решающих этапов в борьбе с болезнями, помогла улучшить здоровье людей и повысить ожидаемую продолжительность жизни.

Однако для каждого заболевания требуется особая вакцина, и найти ее иногда бывает непросто. Лабораторные тесты, тесты на животных, на добровольцах помогают собрать достаточно информации об эффективности вакцины. Однако прежде чем одобрить и рекомендовать ее к массовому применению, нужно тщательно проверить, скомпенсируют ли ее преимущества затраты и неизбежные риски. Здесь на сцену выходит статистика.

В 1954 году было проведено масштабное исследование по оценке эффективности вакцины против полиомиелита (вакцины Солка, созданной эпидемиологом Джонасом Солком). Оно очень подробно описано в книге Statistics: A Guide to the Unknown, где рассказывается о 29 случаях применения статистики в самых разных областях. Каждая глава написана специалистом, глубоко разбирающимся в соответствующей теме. Глава об анализе эффективности вакцины написана профессором Чикагского университета Полом Мейером.

Полиомиелит и его особенности

Благодаря эффективности прививок полиомиелит исчез практически полностью, но еще не так давно он входил в число самых опасных болезней. Им болели преимущественно дети, многие оставались парализованы или всю жизнь страдали от серьезных осложнений болезни. Кроме того, масштабные эпидемии полиомиелита возникали неожиданно. Что любопытно, от них в большей степени страдали социальные группы с лучшими условиями жизни, а наиболее бедные страны и слои населения оказывались практически не затронутыми. Причиной этому был тот факт, что в менее благополучных слоях населения дети заражались раньше, когда они еще находились под защитой иммунитета матери, поэтому вирус не приводил к развитию заболевания. Кроме того, у детей вырабатывался иммунитет к полиомиелиту. Дети, жившие в более благоприятных условиях, заболевали позже, когда их уже не защищал материнский иммунитет. Борьбе с этой болезнью способствовал и тот факт, что сам президент Рузвельт переболел полиомиелитом и всячески поддерживал исследования в этой области.

В начале 1950-х годов руководство системы здравоохранения США посчитало, что новая вакцина, созданная Джонасом Солком, является эффективной, что было доказано исследованиями, проведенными в небольших масштабах. Однако перед тем как рекомендовать массовое применение вакцины, требовалось получить неопровержимые доказательства ее эффективности и отсутствия негативных побочных эффектов. Было решено провести эксперимент, ставший самым крупным в истории системы здравоохранения.

Контрольная группа

Допустим, что результаты испытаний нового лекарства от определенной болезни показывают, что любой, кто принял это лекарство, излечивается за 7 дней. Можно ли говорить об эффективности этого лекарства?

Возможно, вам кажется, что если все заболевшие излечиваются, то лекарство и в самом деле эффективно. Однако на самом деле эксперимент не доказывает этого. Возможно, что если бы испытуемые не принимали никакого лекарства, то излечились бы за тот же срок. Более того, возможно, что без принятия лекарства болезнь проходит за 2–3 дня, в противном случае на ее лечение уходит 5–6 дней. По этой причине для доказательства эффективности нового лекарства или вакцины формируется репрезентативная выборка из числа тех, кому предназначено лекарство. Затем выборка разделяется на две группы случайным образом. Это обеспечивает отсутствие системных различий между представителями той и другой группы. Далее лекарство получают пациенты лишь из одной группы. Путем сравнения с пациентами второй группы анализируется эффект от нового лекарства. Группа, которая не получает никакого лечения, называется контрольной группой.

В случае с полиомиелитом регулярно отмечались непредсказуемые колебания числа заболевших. Например, в 1952 году, когда произошла наиболее серьезная вспышка полиомиелита за период с 1930 по 1956 год, в США заболело порядка 60000 человек; в 1953-м – всего лишь около 35000, на 42 % меньше. Если бы в 1953 году была испытана новая, абсолютно неэффективная вакцина, можно было бы предположить, что она эффективна, так как число заболевших существенно снизилось. Этот случай был не единственным: в 1932 году по сравнению с предыдущим годом число заболевших уменьшилось более чем наполовину. Это же произошло в 1936, 1938, 1942, 1947 и 1956 годах.

Столь же неудачной была бы попытка привить всех детей в одном регионе, например в штате Нью-Йорк, и не привить детей, например, в Чикаго, так как болезнь распространялась неравномерно и крупная вспышка заболевания могла произойти в конкретном штате именно в этом году. Было необходимо разделить всех испытуемых на две равные группы, находящиеся в абсолютно равных условиях. Одной группе вводилась бы вакцина, вторая группа являлась бы контрольной.

Две «наиболее похожие» группы: плацебо и двойной слепой метод

Если некоторые люди получают лекарство (принимают ежедневно по одной таблетке или получают разовый укол, как в случае с вакциной Солка), а другие не получают ничего, то первые будут убеждены, что лекарство имеет определенный эффект, и отметят некоторое улучшение, даже если лекарство не будет обладать никаким эффектом. Этот феномен называется эффектом плацебо. Несомненно, именно он является причиной успеха многих видов так называемой альтернативной медицины, когда заболевание проходит как бы само собой.

В случае с полиомиелитом ребенок либо подвержен заболеванию, либо нет, и можно подумать, что ощущения пациента не будут зависеть от того, получил он прививку или нет. Однако не все варианты течения болезни являются тяжелыми или имеют осложнения. Если у ребенка, получившего прививку, обнаруживаются симптомы, сходные с симптомами полиомиелита, то и родители, и врач посчитают, что ребенок вряд ли мог заразиться, ведь он получил прививку! То есть если у ребенка действительно была легкая форма полиомиелита, ее можно перепутать с другой болезнью, и этот случай заболевания окажется незарегистрированным. Напротив, члены группы, не получившей вакцину, будут обращать больше внимания на любые симптомы, так как будут чувствовать себя незащищенными. Если у них обнаружатся признаки заболевания, эти случаи будут изучены и диагностированы более тщательно. В результате может возникнуть ошибочное представление о том, что в группе, не получившей прививок, отмечено больше случаев болезни.

Чтобы избежать положительного воздействия эффекта плацебо только на группу, получавшую лечение, все испытуемые получают внешне одинаковое лекарство. Они не знают, принимают они настоящее лекарство или им дают нейтральные таблетки того же вкуса и цвета, что и настоящие, – эти таблетки и называются плацебо. Более того, сам испытуемый не знает, к какой группе он принадлежит (в случае с полиомиелитом нужно, чтобы об этом не знал ни ребенок, ни его родители), а врач, который проводит лечение, не знает, какое лекарство принимает пациент – настоящее или плацебо. Это делается не потому, что врачам нельзя доверять, а для того чтобы избавиться от возможных стереотипов. Так, если ребенок получает настоящее лекарство и врач замечает признаки улучшения, он несколько преувеличит их, а если врачу известно, что ребенок получает плацебо, то он будет больше обращать внимание на отрицательные, а не на положительные симптомы.

* * *

ЗНАЧИМЫЕ И ВАЖНЫЕ РАЗЛИЧИЯ

При сравнительном анализе самое главное – определить, являются ли наблюдаемые различия значимыми или нет. Именно в этом заключается цель всех статистических тестов. Может показаться, что это противоречит здравому смыслу, но если различия являются значимыми, то это не означает, что они важные.

Различия называются значимыми, когда считается, что они не являются случайными, и два рассматриваемых способа лечения действительно дают разные результаты. Однако мы можем быть уверены, что они действительно дают разные результаты, даже если эта разница будет незаметна на практике.

Например, эксперимент может показать, что один клей приклеивает лучше другого, но разница между ними практически незаметна. Может случиться, что из-за недостаточного объема данных или значительной вариации результатов различия будут очень большими, но при этом они будут вызваны случайными факторами. Иными словами, в таком случае нельзя сказать, что один клей действительно лучше другого.

* * *

Чтобы этого не произошло, подобные исследования проводятся так, чтобы ни пациент, ни врач не знали, кто принимает настоящее лекарство, а кто – плацебо. Именно поэтому этот метод называется двойным слепым методом. Однако и при формировании контрольной группы, получающей плацебо, также присутствуют определенные трудности. Одна из их – сложность организации эксперимента. В случае с вакциной Солка требовалось приготовить инъекции с вакциной, идентичные тем, что содержали только соляной раствор. Далее их нужно было пронумеровать и проконтролировать, инъекцию какого типа получает пациент. При этом ни персонал, вводивший инъекцию, ни лечащий врач не должны были знать, какой именно препарат вводится пациенту.

Еще одна проблема лежит в области этики. Некоторые полагали, что неразумно вводить детям соляной раствор вместо вакцины, которая, как считалось, была достаточно эффективной. В качестве альтернативы было предложено вводить вакцину детям, которые учились во втором классе, а учеников первого и третьего класса использовать в качестве контрольной группы. В этом случае нарушался основной принцип двойного слепого метода, однако примерно в половине штатов, где проводился эксперимент, был использован именно этот способ. В остальных штатах контрольные группы получали плацебо.

Необходимость в выборке очень большого размера

Доля заболевших составляла всего 50 человек на 100 000. Ожидалось, что применение вакцины позволит сократить число заболевших вдвое. Очевидно, что проведение экспериментов с малыми группами было невозможным. Если бы, например, мы ввели вакцину 1000 детей, а еще 1000 использовали в качестве контрольной группы, то, скорее всего, ни в одной группе не было бы ни одного заболевшего и эксперимент не имел бы смысла. Если бы численность каждой группы составляла 10 000 человек, могло случиться так, что в контрольной группе заболели 5 человек, в группе получивших вакцину – 2 человека. Эта разница столь мала, что ее можно назвать случайной (отвергнуть нулевую гипотезу о том, что доля заболевших в каждой группе одинакова, в этом случае нельзя). Было необходимо, чтобы численность групп составляла несколько сотен тысяч человек, чтобы результаты можно было считать достоверными. Требовался крупномасштабный эксперимент.

Результаты

Эффективность вакцины полностью подтвердилась. В вакцинированной группе число заболевших было в два с лишним раза меньше, чем в группе, которой вводилось плацебо. Использованное в эксперименте p-значение имело порядок 10-9. Иными словами, вероятность того, что число заболевших в обеих группах случайно оказалось бы одинаковым, равнялась 1 на миллиард.

Результаты в тех регионах, где в качестве контрольных групп использовались школьники старших и младших классов, оказались аналогичными. Все были довольны тем, как был проведен эксперимент, ведь результаты оказались даже лучше, чем ожидалось. Число заболевших среди вакцинированных оказалось заметно меньше, но если бы в эксперименте не использовалась контрольная группа, которой вводилось плацебо, эксперимент не помог бы окончательно развеять все сомнения, а его результаты можно было бы трактовать по-разному.

Роль статистики. Полиомиелит в наши дни

Вакцина Солка позволила совершить шаг вперед в борьбе с полиомиелитом, но результаты ее использования все еще были не вполне удовлетворительны, и через несколько лет на смену ей пришла другая, более эффективная вакцина. Перед началом массового применения были должным образом проведены необходимые статистические исследования. Сегодня полиомиелит практически исчез. В настоящее время вспышки полиомиелита отмечаются всего в четырех странах мира: Нигерии, Индии, Пакистане и Афганистане. Всемирная организация здравоохранения, ЮНИСЕФ и другие международные организации предпринимают усилия по борьбе с полиомиелитом в этих странах. По их оценкам, очень скоро перестанут отмечаться новые случаи этого заболевания. Через три года после того, как это произойдет, будет официально объявлено об исчезновении полиомиелита.

Аспирин и инфаркты

В 1983 году в США было проведено крупномасштабное исследование для оценки влияния аспирина на сердечно-сосудистые заболевания. Анализ малых групп показал, что прием аспирина может снизить вероятность повторного сердечного приступа. Однако не было никаких доказательств того, что этот положительный эффект аспирина распространяется на всех.

Для участия в эксперименте было приглашено 261 248 врачей мужского пола старше 40 лет, данные о которых были взяты из реестра Американской медицинской ассоциации. 59 285 человек выразили согласие участвовать в эксперименте. Из их числа следовало исключить людей со сложной историей болезни, тех, кто уже принимал аспирин, а также тех, у кого наблюдались побочные эффекты от аспирина. В итоге был отобран 22 071 врач. Все они были здоровы и не находились в группе риска. Им было предписано принимать по 325 мг аспирина (или плацебо) раз в два дня.

Одновременно с исследованием влияния аспирина был изучен эффект бета-каротина (химического соединения, которое в нашем организме преобразуется в витамин А) при определенных типах рака. Испытуемые были случайным образом разделены на четыре группы: члены первой группы принимали аспирин и бета-каротин, второй группы – аспирин и плацебо бета-каротина, третьей группы – плацебо аспирина и бета-каротин, четвертой группы – плацебо аспирина и плацебо бета-каротина.

Лекарства, которые принимали четыре группы участников эксперимента. Все таблетки выглядели одинаково. Звездочкой отмечены таблетки-плацебо.

Несмотря на строгие критерии отбора участников эксперимента, они отличались по возрасту, истории болезни, характеру, некоторые из них курили. Следовательно, требовалось очень внимательно разделить участников эксперимента на четыре группы случайным образом, так как только таким способом можно было гарантировать общую схожесть групп по составу. Можно возразить, что большинство людей, находившихся в предынфарктном состоянии, случайным образом попали в одну из групп. Однако, согласно теории вероятности, если распределение проводилось действительно случайным образом, то вероятность подобного исхода в большой группе ничтожна.

Так как состав всех четыре групп схож и все испытуемые находились под влиянием одинаковых внешних условий, существенные различия в результатах групп, выходящие за рамки случайного отклонения, объясняются только разным действием принимаемых лекарств. Именно такова логика экспериментов, в которых сравнивается действие различных лекарств на случайной выборке.

Использовался двойной слепой метод, то есть ни пациенты, ни лица, наблюдающие за ними, не знали, какое лекарство принимает тот или иной пациент. Наблюдательный комитет анализировал результаты каждые полгода. Хотя изначально планировалось, что эксперимент продлится семь лет, спустя пять лет после его начала он был прекращен: положительный эффект аспирина оказался столь существенным, что было принято решение как можно скорее оповестить об этом и участников эксперимента, и всех врачей страны.

В группу, получавшую аспирин, входили те, кто принимал аспирин и бета-каротин, а также те, кто принимал аспирин и плацебо бета-каротина. Группа плацебо включала две оставшиеся подгруппы. Статистическое исследование показывает, что если бы аспирин не имел никакого положительного эффекта (вероятность инфаркта в обеих группах была бы одинаковой), то вероятность того, что подобная разница в результатах случайна, имела бы порядок 2 на 100000. Следовательно, разумно предполагать, что аспирин снижает вероятность инфаркта.

Новость о результатах эксперимента появилась на первой полосе газеты New York Times и привлекла большое внимание средств массовой информации. Эксперимент по анализу воздействия бета-каротина продолжался в течение запланированного времени. Автору не удалось найти информации о результатах этого эксперимента. Скорее всего, они были негативными. Согласно известной на данный момент информации, прием бета-каротина не только не снижает вероятность заболевания раком, но и увеличивает ее для курильщиков.

Однако аспирин – тоже не панацея. Считается, что он препятствует образованию скоплений тромбоцитов и образуется меньше сгустков крови. Но это тоже таит в себе опасность. Исследования показали, что в группе, принимавшей аспирин, наблюдался небольшой (не статистически значимый) рост случаев смертности от эмболии. Поэтому решение о регулярном приеме аспирина следует принимать взвешенно. Нужно следовать рекомендациям врача, который оценит индивидуальные особенности, преимущества и недостатки приема аспирина в каждом конкретном случае.

Табак и рак легких

С тем, что курение вредит здоровью, сегодня согласны практически все, но эта точка зрения была распространена не всегда. Теперь нам известно, какие именно вещества, содержащиеся в табачном дыме, могут вызвать рак. Также известно, как эти вещества превращают здоровые клетки в раковые, – это было показано с помощью опытов на животных. Но, как и во многих других случаях, статистические данные указывали, что ситуация не столь однозначна и требуются более подробные исследования.

Данные, которые были получены в 1950-х, свидетельствовали, что курильщики чаще болеют раком легких, чем некурящие. Но чтобы однозначно подтвердить это, требовались более тщательные исследования.

Чтобы подтвердить связь между курением и возникновением рака легких и других заболеваний, было проведено семь масштабных исследований (одно в Великобритании, одно в Канаде, пять в США). Число испытуемых составляло от 34000 до 448000 человек. По сути, все исследования проводились по одной и той же схеме: лицам, выбранным для участия в исследовании, высылались анкеты. Требовалось указать, сколько сигарет человек выкуривал сейчас и в прошлом, а также основные демографические данные. Была создана система, гарантирующая, что в случае смерти участника опроса этот факт регистрировался, а также указывалась причина смерти.

Эти исследования позволили узнать, какое влияние оказывает возраст, в котором человек начал курить, вид и число выкуриваемых сигарет, а также заболевания, которым подвержены те, кто бросил курить. Один из выводов исследования заключался в том, что частота заболевания раком легких среди курильщиков в 11–20 раз выше, чем среди некурящих.

Возможен встречный аргумент (его выдвинул в том числе Фишер): данные исследований показывают, что раком легких чаще болеют курильщики, но это не доказывает, что причиной этого заболевания является именно табак. Можно предположить, что курильщики в целом более нервные и беспокойные, и именно эти черты характера, из-за которых они начали курить, являются причиной определенных заболеваний. Быть может, те, кто подвержен табачной зависимости, имеют определенную генетическую особенность, из-за которой (а не из-за курения) они чаще болеют раком легких.

Эти аргументы можно выдвинуть потому, что проведенные исследования не являются экспериментами в полном смысле этого слова, как было в случае с испытаниями вакцины против полиомиелита или при изучении действия аспирина по профилактике сердечных заболеваний. В этих случаях участники эксперимента случайным образом делились на две группы, экспериментальную и контрольную, так чтобы все возможные различия между ними являлись следствием изучаемого явления. Считалось, что причиной любых существенных различий между двумя группами является именно изучаемое явление. Однако исследования воздействия табака не были экспериментальными: две группы, курильщики и некурящие, уже были сформированы, и ученые лишь наблюдали за развитием событий. Нельзя было заставить курить некурящих или уговорить заядлых курильщиков бросить курить. С теоретической точки зрения в идеальном исследовании курить должны все, но половина испытуемых, выбранная случайным образом, должна курить обычный табак, а другая половина – некое совершенно безвредное вещество, по вкусу и остальным свойствам идентичное табаку.

Производители сигарет могли бы заявить, что только такое исследование является корректным, и были бы правы. Однако оно настолько же корректно, насколько и нереализуемо на практике. Все же доступные данные однозначно указывают, что табак – важный фактор возникновения рака легких и мочевого пузыря, сердечно-сосудистых и других заболеваний. Связь между раком легких и употреблением табака была отмечена во множестве исследований, выполненных в различных странах и условиях. Это устраняет возможную предрасположенность к этим заболеваниям определенной группы людей. Кроме того, известно, какие именно вещества, содержащиеся в табачном дыме, могут вызывать рак. Гипотеза о генетической предрасположенности не объясняет роста числа заболеваний среди женщин, которые начали курить, и среди некурящих, постоянно находящихся рядом с курильщиками. Эти факты не всегда были очевидны, и обнаружить их помогла именно статистика.

Случайный отбор и влияние различных факторов

При разработке экспериментов для сравнения различных лекарств, катализаторов химической реакции и так далее наиболее важный момент – получить два множества данных, которые отличаются единственной переменной, изучаемой в эксперименте. При проведении подобных экспериментов в медицине могут сравниваться два лекарства или выясняться эффект от приема лекарства по сравнению с плацебо, как в случае с вакциной полиомиелита или при анализе действия аспирина по предотвращению инфарктов. Как вы уже видели, ключевой вопрос – как разделить участников исследования на две максимально похожие группы. Парадоксально, но наилучшие результаты достигаются при формировании групп случайным образом. В этом случае любые значимые различия между группами (то есть те, которые нельзя объяснить случайными событиями) объясняются различным воздействием изучаемого фактора на обе группы. Однако если помимо изучаемого фактора на группы действуют и другие факторы, то нельзя сказать, что именно является причиной различий в результатах групп.

Рассмотрим пример. Одной из классических книг по проведению экспериментов является Statistics for Experimenters Бокса, Хантера и Хантера, где объясняется, как нужно провести эксперимент, чтобы сравнить степень износа различных материалов, из которых изготавливается подошва молодежной обуви. Если в эксперименте участвует всего 10 молодых людей, их можно разделить случайным образом на две группы по 5 человек: члены одной группы получат обувь с подошвой из материала А, члены второй группы – обувь с подошвой из материала В. По прошествии определенного времени (например, полугода) нужно измерить износ подошв на всех парах обуви и провести соответствующий статистический анализ (в этом случае будет использоваться так называемый t-критерий Стьюдента для независимой выборки).

Естественно, что группы следует формировать случайным образом. Не стоит просить подростков выстроиться в шеренгу и выдавать первым пяти обувь с подошвой из материала А, последним пяти – обувь с подошвой из материала В: те, кто встал в шеренгу первыми, больше бегают и двигаются, поэтому быстрее износят обувь.

Однако этот способ сбора данных имеет один недостаток. Износ подошвы зависит не только от материала (именно это мы анализируем в ходе эксперимента), но и от самого подростка: некоторые из них больше бегают и будут даже играть в футбол в этой обуви, другие будут бегать меньше. Некоторые, возможно, почти не будут надевать выданную обувь, так как она им не понравится или они побоятся порвать ее, и подошвы не износятся.

Так как на износ подошвы влияет не только материал, из которого она изготовлена, но и другие факторы, то мы не сможем определить, какой именно фактор будет причиной возможных различий. Может случиться так, что по вине посторонних факторов различий наблюдаться не будет, но в действительности подошвы из анализируемых материалов будут изнашиваться по-разному.

Как справиться с этой проблемой? Нужно выдать каждому подростку один ботинок с подошвой из первого материала, другой – с подошвой из другого материала. В этом случае все возможные отличия в износе подошвы будут вызваны исключительно различными свойствами материалов и никаким другим фактором. В этом случае сравниваются не средние значения в обеих группах, а износ подошв обоих ботинок каждого подростка. Если одна подошва в среднем изнашивается больше другой (не имеет значения, насколько сильно они изнашиваются, важна лишь разница между ними), это вызвано различием в свойствах материалов.

Для сравнения средних значений выборок, сформированных таким образом, используется так называемый t-критерий Стьюдента для парных выборок.

Очевидно, что не следует изготавливать из материала А подошву только правых ботинок, а из материала В – подошву левых ботинок, так как, возможно, подошвы на одной ноге в среднем изнашиваются больше. Этого можно избежать, если чередовать материалы случайным образом (например, бросать монету для каждой пары обуви, и если выпадает решка, то из материала А изготавливается подошва правого ботинка).

Таким образом, ожидается, что если обувь на конкретной ноге изнашивается больше, при чередовании материалов случайным образом возможное влияние этого фактора будет устранено.

* * *

УИЛЬЯМ СИЛИ ГОССЕТ, ОН ЖЕ «СТЬЮДЕНТ»

Любой, кто хотя бы немного изучал статистику, непременно сталкивался с распределением Стьюдента, которое используется даже чаще, чем нормальное распределение, или с t-критерием Стьюдента для сравнения средних значений.

Стьюдент – это псевдоним, которым подписывал свои работы Уильям Сили Госсет (1876–1937), внесший огромный вклад в статистику. Всю свою жизнь он проработал на пивоваренном заводе Guinness в Дублине.

В начале XX века, когда Госсет окончил курсы математики и химии в Университете Оксфорда, компания Guinness перешла в руки юного наследника, который решил отойти от традиционных способов изготовления пива и воспользоваться помощью ученых в разработке новых, более совершенных способов пивоварения. Одним из тех, кто был принят на работу, был Стьюдент. Он быстро понял, как важно использовать методы статистики при сравнении различных рецептов приготовления пива. Было необходимо изучить влияние сырья, характеристики которого существенно варьировались и были подвержены воздействию факторов окружающей среды. Требовалось проводить эксперименты, но их число всегда было недостаточным, и нужно было делать выводы на основе небольшого объема доступных данных. До того времени считалось, что использованные выборки всегда были достаточно велики, чтобы по ним можно было точно оценить параметры генеральной совокупности. Однако при работе с малыми выборками оценки были неточными, и ими нельзя было руководствоваться. Госсет занялся поисками решения этой задачи и опубликовал свои выводы под псевдонимом Стьюдент, поскольку сотрудникам компании запрещалось публиковать статьи с результатами своих исследований.

Существует несколько версий того, как и почему Госсет выбрал себе такой псевдоним. По одной из версий, в компании Guinness стало известно об увлечении Госсета математикой уже после его смерти, однако другие источники указывают, что в компании знали о том, что он публикует статьи, а псевдоним Стьюдент предложил сам директор. По-видимому, целью Госсета было не сохранить в секрете разрабатываемые им теории, а скрыть от конкурентов, что Guinness использует статистические методы для улучшения качества продукции.

* * *

Выбор материала случайным образом не ведет к дополнительным затратам и позволяет исключить влияние прочих известных и даже неизвестных факторов. Похожим примером является анализ износа различных видов покрытия, которое наносится на стекла очков. Если одной группе людей раздать очки с одним покрытием, другой – с другим покрытием и по прошествии некоторого времени измерить его износ, то на степень износа очевидно повлияет не только материал, но и то, как люди ухаживали за очками, факторы окружающей среды и другие причины.

Следовательно, как и при анализе материала для подошв, наилучшим вариантом будет раздать всем очки, в которых на одно стекло будет нанесено одно покрытие, на второе стекло – другое покрытие (разумеется, это невозможно, если цвета покрытия отличаются). Стоит ли выбирать покрытие случайным образом или же можно всегда использовать покрытие А для правых стекол, покрытие В – для левых?

Назад к карточке книги "Том13. Абсолютная точность и другие иллюзии. Секреты статистики"