Том13. Абсолютная точность и другие иллюзии. Секреты статистики

Текст добавлен: 14 сентября 2016, 22:35

Текст книги "Том13. Абсолютная точность и другие иллюзии. Секреты статистики"

Автор книги: Пере Грима

Жанр:

Математика

сообщить о нарушении

Текущая страница: 3 (всего у книги 8 страниц)

Назад к карточке книги

Глава 2
Расчет вероятностей: правила, которые помогут нам в мире неопределенности

Расчет вероятностей вызывает большой интерес у тех, кто полагает, что с помощью науки можно найти стратегию выигрыша в казино, лотереях и различных азартных играх. Однако такие люди вскоре обнаруживают, что теория вероятностей им в этом не поможет. В действительности она играет на руку не игрокам, а создателям азартных игр.

Помимо азартных игр расчет вероятностей используется во множестве областей, начиная с медицины, где производится оценка вероятностей при планировании массовой вакцинации, до контроля качества промышленного производства, где порой требуется принять решение о качестве множества деталей на основании результатов испытаний лишь нескольких из них.

Математическая теория вероятностей появилась достаточно поздно, уже в XVII веке. Определение вероятности как отношения числа благоприятных исходов к общему числу возможных исходов, данное Лапласом, было сформулировано лишь в 1814 году, хотя Архимед открыл намного менее интуитивно понятную формулу объема сферы за 2000 лет до этого. Длительное время господствовала идея о том, что случайные события непредсказуемы, не подчиняются никаким законам и, следовательно, их анализ неподвластен человеку. Кроме того, считалось, что случайность лежит в области божественного и имеет магический смысл. Поэтому изучение случайных событий длительное время считалось опасным.

Одним из первых трудов, посвященных изучению законов теории вероятностей, считается работа Галилея, написанная примерно в 1620 году по заказу некоего аристократа. Он пытался определить наиболее вероятную сумму очков, выпадающую при броске трех игральных костей. Он считал, что чаще всего эта сумма оказывается равной 10 или И, но не был уверен в этом, поэтому решил попросить совета у одного из величайших мудрецов той эпохи.

Галилей написал четырехстраничную статью, где изложил свои выводы и размышления. Он рассуждал следующим образом.

1. Игральная кость имеет шесть граней. Руководствуясь соображениями симметрии, мы можем считать, что вероятность выпадения каждой грани одинакова. Следовательно, вероятность того, что выпадет конкретное число, равна 1 к 6.

2. Для каждого из 6 возможных результатов для первой игральной кости существует 6 возможных результатов для второй игральной кости. Всего возможно 36 результатов, приведенных в следующей таблице. Результат броска первой кости обозначен К1, результат броска второй кости – К2.

Все пары очков имеют одинаковую вероятность выпадения, но вероятность выпадения сумм очков различается. Лишь в одном случае из 36 сумма выпавших очков будет равна 2 (если выпадет 1 и 1), и также всего в одном случае сумма очков будет равна 12 (6 и 6). Однако сумма очков будет равна 7 в шести случаях из 36 (то есть в одном случае из 6). Этот результат наиболее вероятен.

Портрет Галилея кисти Тинторетто. Этот итальянский ученый выполнил одно из первых исследований по теории вероятностей.

3. Если мы бросаем не две, а три игральных кости, рассуждения проводятся аналогично. Для каждого из 36 возможных результатов броска двух костей существует 6 возможных исходов при броске третьей кости, поэтому общее число вариантов равно 6·6·6 = 216. На следующей диаграмме изображены частоты для каждого из возможных исходов. В самом деле вероятность выпадения 10 или 11 одинакова: 27/216 = 0,125, вероятность выпадения 9 или 12 несколько меньше: 25/216 = 0,116.

Удивительно, насколько точно игрок предсказал, что вероятность выпадения 10 и 11 очков одинакова и слегка превышает вероятность выпадения 9 или 12 очков.

Расчет вероятностей и статистика

Задачами статистики в прошлом были сбор и описание демографической и другой информации, представлявшей интерес для государства. В XIX веке включение расчета вероятностей в статистику значительно расширило спектр ее возможностей. Страховые компании очень скоро начали использовать статистику смертности и теорию вероятностей, чтобы оценивать ожидаемую продолжительность жизни и точнее определять размеры страховых выплат.

Аналогичным образом при прогнозировании исходов выборов и определении степени уверенности в подобных прогнозах используются результаты предвыборных опросов и теория вероятностей. При оценке эффективности нового лекарственного препарата изучается его действие на выборке пациентов, а выводы формируются на основании полученных результатов и с помощью статистических методов, в которых применяются расчеты вероятностей.

Однако не нужно быть экспертом по теории вероятностей и необязательно уметь решать сложные задачи, чтобы понимать и применять наиболее распространенные статистические методы. Также не стоит думать, что статистика имеет отношение исключительно к азартным играм и казино. Иногда на обложках книг по статистике мы видим рулетку, игральные кости или колоду карт, хотя уместнее были бы изображения леса, операционных, школ или заводов, ведь именно в этих областях статистика имеет намного более широкое и интересное применение.

* * *

АЗАРТНЫЕ ИГРЫ И ПРОИСХОЖДЕНИЕ ТЕОРИИ ВЕРОЯТНОСТЕЙ

Теория вероятностей стоит особняком не только потому, что она появилась сравнительно поздно, но и потому, что причины ее появления и развития были достаточно необычными. Научные открытия во все времена совершались самоотверженными учеными, которые стремились понять устройство мира и часто жертвовали собой ради блага всего человечества. Однако поводом появления теории вероятностей стало желание людей, ведущих праздную жизнь, определить стратегии выигрыша в азартных играх, которым они посвящали большую часть своего времени.

Одна из первых дискуссий, посвященных математической теории вероятностей, зафиксирована в переписке Пьера Ферма с Блезом Паскалем в 1654 году. В ней речь шла о задаче, предложенной философом (и игроком!) шевалье де Мере. В задаче ставился вопрос о справедливом разделении выигрыша в неоконченной игре, если было условлено, что выигрывает тот, кто одержал верх в трех партиях, но игра завершилась со счетом 2:1.

Один из вариантов – отдать весь банк тому, кто выигрывал на момент окончания игры, другой – поделить банк поровну. Но и Ферма, и Паскаль сходились на том, что наиболее справедливым будет разделение банка в соотношении 3 к 1 в пользу того игрока, который на момент окончания игры одержал верх в двух партиях.

Обозначим игроков А и В. А выиграл две партии. Рассуждения будут выглядеть так. Допустим, что игроки продолжают игру и вероятность победы в партии составляет 50 % для каждого из них. Возможные варианты окончания игры таковы.

1. Следующую партию выигрывает А. Так как счет станет равным 3:1, игра закончится, победу одержит А, который заберет банк. Вероятность этого исхода равна 0,5.

2. Следующую партию выигрывает В. Счет станет равным 2:2, и игра продолжится. Далее выигрывает А, счет становится равным 3:2 в пользу А, и игра завершается. Вероятность этого исхода равна 0,5·0,5 = 0,25 (выигрывает В, затем выигрывает А).

3. Следующую партию выигрывает В, затем снова выигрывает В. Игра завершается со счетом 2:3 в пользу В. Вероятность этого исхода равна 0,5·0,5 = 0,25.

Подведем итог. Если игра продолжается, то вероятность выигрыша А будет равна 0,5 + 0,25 = 0,75, вероятность выигрыша В будет равна 0,25. В трех случаях из четырех побеждает А, следовательно, будет справедливо, если ему достанется три четверти банка.

* * *

Вероятность и ее законы

В соответствии с идеями, которые высказал еще Галилей, если существует n возможных наблюдений, имеющих одинаковую вероятность, и событие А происходит в k из этих наблюдений, то вероятность события А равна:

Иными словами,

Например, если в мешке лежит 5 шаров, 3 из которых окрашены в синий цвет, а 2 – в черный, то вероятность вытащить синий шар равна 3/3. Проще не бывает.

В некоторых случаях теоретическую вероятность можно вычислить, используя симметрию объекта, от которого зависит результат, как, например, при броске монеты или игрального кубика. Другой подход заключается в том, что вероятность рассматривается как количество наблюдений, при которых произошло событие, при бесконечном увеличении числа наблюдений. Так, чтобы узнать, какова вероятность того, что при броске монеты выпадет решка, нужно бросить монету очень много раз и посмотреть, к какому значению стремится полученное соотношение исходов. Это же верно и в случае с игральными костями. Когда мы говорим, что вероятность выпадения определенного числа очков равна 1/6, мы имеем в виду идеальную игральную кость. Реальная игральная кость может отличаться от идеальной.

Некоторые исследователи бросали монету или игральную кость множество раз и записывали полученные результаты. Одним из них был английский математик Джон Керрич, который отбывал тюремное заключение в Дании во время Второй мировой войны. Находясь в тюрьме, он бросил монету 10000 раз, при этом решка выпала 3067 раз, орел – 4933.

Соотношение числа решек к числу орлов колебалось так, как показано на следующем графике, на котором приведены не реальные данные, полученные Керричем, а результаты моделирования. По мере роста числа бросков колебания уменьшаются, и разумно предполагать, что соотношение числа исходов стремится к постоянному числу при бесконечно большом числе бросков. Это значение и будет вероятностью выпадения решки при броске этой монеты.

Изменение соотношения числа решек к числу орлов при броске монеты 10 000 раз (результаты получены с помощью моделирования).

Подобные исследования выполнили Жорж-Луи Леклерк де Бюффон, французский ученый XVIII века, который бросил монету 4000 раз (решка выпала 2048 раз), и Карл Пирсон, один из отцов современной статистики, который бросил монету 24000 раз (самостоятельно или с помощью ассистентов), из которых решка выпала 12 012 раз.

Жорж-Луи Леклерк де Бюффон. Портрет кисти Франсуа-Юбера Друз.

Наиболее известный опыт с игральными костями провел в 1850 году швейцарский астроном Рудольф Вольф, который бросил два игральных кубика (один белого, другой красного цвета) целых 20000 раз.

Полученные им результаты приведены в таблице на следующей странице.

Результаты, полученные при бросках монеты, согласуются с предположением о ее сбалансированности (вероятность выпадения решки равна 0,5), однако результаты экспериментов, проведенных с игральными костями, достаточно далеки от теоретических значений. При броске обоих кубиков, и белого, и красного, 3 и 4 очка выпадали заметно реже остальных. Представим результаты эксперимента графически, чтобы яснее увидеть эти расхождения (К = красный кубик, Б = белый кубик). В главе 3 мы поговорим о проверке статистических гипотез и обсудим, допустимо ли в этом случае предполагать, что кубики несбалансированы.

Результаты, полученные при броске красного (К) и белого (Б) кубиков 20 000 раз.

Правило «или»

Вероятность того, что произойдет событие А или другое событие В, если оба они не могут произойти одновременно, равна сумме вероятностей этих событий. Например, вероятность вытащить туза, короля, даму или валета из колоды в 52 карты (без джокеров) равна:

вероятность того, что вытащенная карта – туз: P(A) = 4/52

вероятность того, что вытащенная карта – король, дама или валет: Р(В) = 12/52

вероятность того, что вытащенная карта – туз, король, дама или валет:

Р(А или В) = Р(A) + Р(В) = (4/52) + (12/52) = 16/52

Правило «и»

Вероятность того, что произойдет событие А и другое событие В, если они являются независимыми, то есть если одно событие никак не влияет на другое, равна произведению вероятностей этих событий. Например, вероятность того, что при двух бросках игральной кости в первый раз выпадет 3 очка, а во второй 4, равна:

вероятность выпадения 3 очков: Р(А) = 1/6;

вероятность выпадения 4 очков: Р(В) = 1/6;

вероятность того, что при первом броске выпадет 3 очка, а при втором 4:

Р(А и В) = (1/6)·(1/6) = 1/36

Подсчет исходов

Подсчет благоприятных или всех возможных исходов обычно является самой трудоемкой частью исследования, хотя в некоторых ситуациях подсчеты можно упростить с помощью простых рассуждений или проведя аналогию с похожими ситуациями.

Например, пусть нам нужно попасть из пункта А в пункт С, пройдя через В. Пусть из А в В ведут три дороги, а из В в С – две дороги. Сколькими способами можно пройти из А в С? Для каждого из трех возможных путей из А в В существует два пути из В в С. Следовательно, попасть из А в С можно шестью различными способами.

Рассмотрим другой пример, который кажется более сложным. Существует три различных исхода футбольного матча: победа команды хозяев (1), ничья (X), победа команды гостей (2). Какова вероятность угадать исходы всех 14 матчей тура чемпионата?

Очевидно, что существует всего один благоприятный исход, единственная выигрышная комбинация. Кажется, что подсчитать возможные случаи сложно, но мы можем использовать тот же принцип, что и при подсчете путей из А в С: первый матч имеет три возможных исхода, каждому из которых соответствует три исхода второго матча. Если бы в туре игралось всего два матча, то общее число исходов равнялось бы 3·3 = 3². Продолжив эти рассуждения, придем к выводу, что число возможных исходов 14 матчей тура равно 3¹⁴. Вероятность угадать 14 исходов, выбрав их случайным образом, равна 1/3¹⁴, то есть примерно 1 к 4,8 миллиона.

Для решения подобных задач очень полезны формулы комбинаторики. О некоторых из них мы расскажем при решении задач, объясняемых далее.

Применение правил

Применим объясненные выше правила на примере. Для этого вычислим вероятность того, что при пяти бросках монеты в произвольном порядке решка выпадет три раза, а орел – два. Как вы вскоре увидите, эта задача намного важнее, чем кажется на первый взгляд. Будем решать ее последовательно.

1. Вероятности выпадения решки или орла при одном броске монеты одинаковы и равны 0,3.

2. Вероятность того, что при двух бросках выпадет решка и решка, равна 0,5·0,5 = 0,25. Мы применили правило «и», так как эти события являются независимыми, то есть выпадение решки в первый раз не увеличивает и не уменьшает вероятность того, что решка выпадет и во второй раз.

3. Вероятность того, что при пяти бросках последовательно выпадут решка, решка, решка, орел, орел, равна 0,5·0,5·0,5·0,5·0,5 = 0,5³·0,5² = 0,03125 (мы могли бы записать это число как 0,5³, но для понимания будет лучше представить вероятность выпадения орла и решки в виде отдельных сомножителей).

* * *

ФРЭНСИС ГАЛЬЮН И КВИНКУНКС

Фрэнсис Гальюн (1822–1911) был разносторонним ученым: сфера его интересов включала антропологию, экономику, философию, метеорологию и статистику. Он был двоюродным братом Чарлза Дарвина. Гальюн отличался целеустремленностью и тягой к знаниям, а доходы семьи позволяли ему полностью посвятить себя занятиям наукой. Он изучал медицину, но почти не практиковал, а получив семейное наследство, отправился путешествовать. Он провел два года в Африке и был награжден за свои заслуги золотой медалью Королевского географического общества.

Среди полученных им результатов отметим подробный анализ отпечатков пальцев – именно по рекомендации Гальюна они начали использоваться для опознавания преступников. Эта система применяется и сейчас. Он также изучал механизмы наследственности, заметив, что дети высоких родителей чаще всего также высокие, но не настолько, как родители, и что дети невысоких родителей также обычно низкорослые, но не настолько, как их родители. Этот эффект возврата к среднему значению он назвал регрессией к среднему. Этот новый термин занял важное место в современной статистике. Чтобы наглядно представить вариацию, вызванную случайными причинами, он разработал устройство под названием квинкункс. В это устройство опускались шары, которые затем прокатывались мимо стержней, расположенных в шахматном порядке, сталкивались и случайным образом падали влево или вправо. Окончательное расположение шаров по форме напоминало колокол Гаусса. Квинкункс до сих пор используется для наглядной демонстрации нормального распределения. Компьютерные модели квинкункса можно найти в Интернете.

* * *

Мы вычислили вероятность того, что сначала выпадет три решки (Р), затем два орла (О) в таком порядке: РРРОО. Но нам нужно вычислить вероятность выпадания трех решек и двух орлов в произвольном порядке, иными словами, вероятность того, что выпадет последовательность РРРОО, или ООРРР, или РОРОР или любой из вариантов.

Искомая вероятность будет равна сумме вероятностей каждого из этих исходов. Вероятности будут складываться по правилу «или», так как эти события являются независимыми (орел и решка не могут выпасть в одном и в другом порядке одновременно). Так как вероятность выпадения каждого из этих исходов одинакова, мы можем умножить вероятность выпадения орлов и решек в заданном порядке на число возможных вариантов (и здесь нам не обойтись без помощи комбинаторики).

Данные n предметов можно упорядочить п разными способами. Например, если у нас есть 5 книг и 5 мест на полке, первую книгу можно поставить на любое из пяти возможных мест, вторую – на любое из оставшихся четырех, третью – на любое из трех, четвертую – на любое из двух, а для пятой книги останется только одно место. Таким образом, общее число различных вариантов равно 5·4·3·2·1 = 120. В нашем случае также даны 5 «предметов», но не все они отличаются между собой: у нас есть три предмета, одинаковых между собой, и еще два, одинаковых между собой, поэтому мы можем не учитывать перестановки одинаковых предметов. То есть нам нужно разделить общее число вариантов на 3! и 2!. Общее число исходов, при которых выпадет 3 решки и 2 орла, равно

5!/(3!·2!) = 10

Теперь у нас есть все данные, необходимые для вычисления искомой вероятности. Она равна

Зачем нам знать вероятность того, что при пяти бросках монеты в произвольном порядке три раза выпадет решка? Эта задача сама по себе не представляет большого интереса, но далее мы покажем, что аналогичным способом можно решить много других, очень интересных задач.

У случайности есть имя

29 апреля 2004 года некий читатель обратился в редакцию популярной газеты с вопросом: «Я использовал Excel, чтобы сгенерировать случайные числа с помощью функции «=СЛЧИС ()», но эти числа всегда очень маленькие и почти равны нулю. Мне нужна система, чтобы сгенерировать шесть чисел, не превышающих 49, для простой лотереи». По-видимому, читатель думал, что если число является случайным, то оно не подчиняется никаким правилам. Это не совсем так. Существует несколько видов случайных величин. Они делятся на непрерывные, например вес, длина, плотность и так далее, и дискретные (принимающие одно из множества отдельных значений), например число неисправных деталей в партии, количество автомобилей, приезжающих на заправку ежеминутно, и другие. В действительности существует целый «каталог» различных видов распределения вероятностей. Всякий раз, когда мы имеем дело со случайной величиной, следует определить, не подчиняется ли она какому-то конкретному закону распределения вероятностей. В большинстве случаев это действительно так, и нам не потребуется выводить формулы для расчета вероятностей, среднего значения и других интересных параметров: это уже сделали до нас.

Сначала может показаться, что отличить случайные величины от неслучайных непросто, подобно тому как человеку, не знакомому с музыкой, сложно разобраться в разных музыкальных направлениях. Однако несколько практических примеров помогут вам научиться с легкостью их распознавать. Далее мы расскажем о некоторых свойствах и примерах использования трех наиболее известных законов распределения вероятностей.

То, что нам уже знакомо: биномиальное распределение С помощью общих правил вычисления вероятностей мы смогли установить вероятность выпадения 3 решек и 2 орлов (в произвольном порядке) при 5 бросках монеты с помощью следующего выражения:

В целом число успешных исходов при выполнении n опытов (вероятность успешного исхода неизменна и равна р) – это случайная величина, которая подчиняется очень известному закону распределения вероятностей. Это распределение называется биномиальным. Если мы сталкиваемся с этим распределением, нам не нужно выводить новые формулы для вычисления вероятностей.

* * *

ОДНА ОЧЕНЬ ПОЛЕЗНАЯ ФОРМУЛА

Если мы отойдем от конкретных чисел и попытаемся вычислить вероятность выпадения х решек при n бросках, где р – вероятность выпадения решки, (1 – р) – вероятность выпадения орла, мы получим следующую формулу:

Интересно, что ее можно использовать не только для решения задач о броске монеты, но и для любых задач, которые подчиняются нижеприведенной схеме:

* * *

Рассмотрим три задачи.

1. При производстве на конвейере выпускается 1 % бракованных деталей. Если детали упаковываются в коробки по 50 деталей, какова вероятность того, что в одной коробке окажутся сразу две бракованные детали?

2. Баскетболист забивает 75 % штрафных бросков. Какова вероятность того, что он попадет 8 раз из 10?

3. В семье четверо детей. Какова вероятность того, что ровно двое из них – мальчики?

Что общего у этих задач? Все они следуют описанному нами сценарию, следовательно, их очень легко решить.

Расчеты можно произвести с помощью электронных таблиц. В Excel ответ можно найти, используя следующую функцию:

Последняя переменная, которая следует за вероятностью успеха, указывает, хотим ли мы вычислить только вероятность для указанного числа успешных событий (например, ровно 2 бракованные детали; в этом случае эта переменная равна 0) или же накопленную вероятность (число бракованных деталей равно 2 и менее, в таком случае этой переменной нужно присвоить значение 1).

В задаче про игрока в баскетбол мы предполагаем, что вероятность попадания со штрафного броска постоянна, то есть не зависит от давления зрителей, нервов или хода игры (одно из преимуществ хорошего игрока – сохранять процент попаданий неизменным вне зависимости от этих условий). Многие думают, что в задаче о сыновьях и дочерях наиболее вероятно, что в семье два мальчика и две девочки, однако вероятность этого исхода равна всего 38 %. Наиболее вероятным (62 %) является любое другое сочетание.

От числа погибших от удара копытом лошади в прусской армии к числу забитых мячей в чемпионате Испании по футболу: распределение Пуассона Если переменная подчиняется биномиальному закону распределения, можно подсчитать, сколько раз она примет определенное значение (число качественных и число бракованных деталей). Эта переменная также будет иметь предельное значение: число качественных деталей не может превышать общего числа деталей в партии.

Иногда мы сталкиваемся с переменными, которые обозначают число событий, произошедших в единицу времени или на единицу площади. Такие переменные не имеют верхней границы, по крайней мере с теоретической точки зрения. К классическим примерам подобных переменных относится число посещений интернет-страницы в день, число поломок лифта в год, число звонков на АТС в час и, разумеется, число писем, ежедневно приходящих вам по электронной почте. К примерам событий, происходящих в пространстве, можно отнести следующие: число точек, пораженных ржавчиной, на метр проволоки, число дефектов на квадратный метр (или 10 квадратных метров) ткани, число изюминок в ложке с хлопьями, которые вы едите на завтрак.

В 1837 году французский математик Симеон Пуассон решил найти способ изменить формулу биномиального распределения так, чтобы ее можно было применить к подобным ситуациям. Он открыл любопытное выражение, в котором для расчета вероятности любого числа событий достаточно знать лишь среднее число событий (λ). Формула вычисления вероятности того, что некое событие произойдет х раз, выглядит так:

Французский математик XIX века Симеон Пуассон.

Так, если лифт ломается в среднем два раза в год (λ = 2), вероятность того, что в течение года он не сломается ни разу, такова:

Если на интернет-страницу в среднем заходит 100 посетителей в день (будем считать, что число посетителей неизменно в любой день недели, хотя очевидно, что будет существовать определенная разница между рабочими и выходными днями), то вероятность того, что в конкретный день страницу посетит менее 80 человек, такова:

Выполнять расчеты по этой формуле не очень удобно, но нам опять помогут электронные таблицы:

В 1898 году русский экономист и статистик Владислав Борткевич опубликовал книгу, в которой доказал, что распределение Пуассона можно использовать для объяснения статистической закономерности, наблюдаемой при редких событиях. Он использовал данные о самоубийствах и несчастных случаях со смертельным исходом, но самым известным примером его работ является анализ числа солдат, умерших от удара копытом лошади в 14 корпусах прусской армии за 20 лет (с 1875 по 1894 год).

Владислав Борткевич, русский статистик, открывший новые способы применения распределения Пуассона.

В следующей таблице фактическая частота соответствует числу армейских корпусов, умноженному на число лет (14·20 = 280). Среднее число умерших за год в пересчете на один корпус равно (91 + 2·32 + 3·11 + 4·2)/280. Используя это значение в вышеприведенной формуле, получим теоретические значения частоты, приведенные в таблице.

Если мы хотим найти более современный пример, то можно рассмотреть число голов, забитых командой во время футбольного матча. Эта переменная прекрасно соответствует требованиям распределения Пуассона: события происходят в течение четко обозначенного периода времени (футбольного матча), предельного числа событий не существует, а число незабитых голов подсчитать нельзя. Так, на диаграмме слева представлено число голов, забитых каждой командой в каждом из 380 матчей испанского чемпионата 2008–2009 годов. На диаграмме справа представлены данные, вычисленные по нашей формуле.

Фактическое и теоретическое (вычисленное по модели Пуассона) распределение числа мячей, забитых каждой командой в 380 матчах сезона 2008–2009 чемпионата Испании по футболу.

Диаграммы очень похожи. Модель Пуассона хорошо объясняет изменение числа мячей, забитых командой в течение матча.

Колокол Гаусса, или нормальное распределение

Колокол Гаусса встречается в математике очень часто. Его форма соответствует форме гистограммы, на которой представлено большое множество значений, подчиняющихся так называемому нормальному распределению. Например, мешки с сахаром весом 1 кг весят не ровно 1000,000… г – некоторые весят немного больше, другие – немного меньше. Подобное колебание веса неизбежно. Оно вызвано множеством незначительных факторов, по отдельности незаметных, но в сумме имеющих ощутимый эффект. На диаграмме ниже показано, что большинство значений находятся вблизи центрального значения, и по мере удаления от него соответствующие значения встречаются все реже и реже. Это классический колокол Гаусса, или диаграмма нормального распределения.

Возможное распределение фактического веса мешков с сахаром весом 1 кг. Диаграмма имеет форму колокола Гаусса.

Математическое выражение, описывающее форму этого колокола, впервые получил французский математик Абрахам де Муавр в 1733 году. Однако эта диаграмма носит имя немецкого математика Карла Фридриха Гаусса, который использовал ее в 1809 году в своей теории ошибок измерения, в частности ошибок, возникающих при астрономических наблюдениях. Гаусс показал, что вне зависимости от расстояния до измеряемого объекта и от его размеров при повторении измерений в одних и тех же условиях полученные значения будут распределяться особым образом.

Однако нормальное распределение занимает в статистике особое место не только потому, что оно используется в теории ошибок, но и потому, что оно очень часто встречается в природе.

Портрет Гаусса на банкноте в 10 немецких марок. В центре изображена диаграмма нормального распределения.

Говоря об истоках современной статистики, следует упомянуть имя бельгийского ученого Адольфа Кетле (1796–1874), который в XIX веке провел множество исследований, стремясь обнаружить статистические закономерности, которым подчиняется число преступлений, количество новорожденных, умерших и так далее. В поиске данных, подчиняющихся нормальному распределению, его ждал неожиданный сюрприз: в шотландском журнале были опубликованы данные о росте и охвате грудной клетки более чем 5000 солдат из различных шотландских полков. Эти данные подчинялись тому же закону, что и ошибки астрономических наблюдений.

Адольф Кетле, один из крупнейших статистиков XIX века.

По словам самого Кетле, «если неподготовленный человек измерил бы одного солдата 5738 раз, то результаты не распределились бы столь равномерно… как результаты 5738 измерений шотландских солдат. Если бы нам представили два ряда чисел, не снабдив их какими-либо комментариями, мы бы могли с уверенностью определить, какой ряд чисел соответствует результатам измерений 5738 разных солдат, а какой получен в результате неумелых измерений единственного солдата».

* * *

ЗАКОН ЭПОНИМОВ СТИГЛЕРА

Многие законы, теоремы, заболевания, научные открытия и постоянные носят имена их первооткрывателей. Так, известны болезнь Альцгеймера, постоянная Эйлера, великая теорема Ферма, комета Галлея и колокол Гаусса. Название события или закона по имени человека называется эпонимом.

Стивен Стиглер, преподаватель статистики Чикагского университета и известный историк статистики, открыл закон, который вкратце звучит так: «Ни одно открытие не носит имя того, кто в действительности его совершил». Если говорить об упомянутых нами примерах, то болезнь Альцгеймера, названная в честь Алоиса Альцгеймера, была описана до него минимум пятью учеными.

Постоянная Эйлера была открыта Якобом Бернулли, великая теорема Ферма в действительности не теорема, а гипотеза Ферма, а доказал ее Эндрю Уайлс в 1995 году. Комета Галлея была известна астрономам еще до Рождества Христова, хотя именно Эдмунд Галлей вычислил ее орбиту и предсказал дату ее возвращения. Если говорить о статистике, то нормальное распределение и диаграмма в форме колокола были открыты и подробно описаны не Гауссом, а французским математиком Абрахамом де Муавром, который опубликовал свои труды по этой теме в 1733 году, почти на 80 лет раньше Гаусса.

Это не означает, что одним ученым незаслуженно достаются лавры других. Некоторые совершают важный вклад в науку или объясняют уже открытое, но не очень известное явление, и по этой причине имена этих ученых остаются в истории. Профессор Стиглер опубликовал статью, посвященную этой теме, но он был не первым: до него об этом писали многие другие ученые, в частности Роберт Мертон, которого нередко цитирует Стиглер. Получается, что закон Стиглера подчиняется сам себе.