Текст книги "Человеческое познание его сферы и границы"
Автор книги: Бертран Артур Уильям Рассел
Жанр:
Философия
сообщить о нарушении
Текущая страница: 31 (всего у книги 44 страниц)
ГЛАВА 2
ИСЧИСЛЕНИЕ ВЕРОЯТНОСТИ
В этой главе я собираюсь трактовать теорию вероятности как ветвь чистой математики, в которой мы выводим следствия определенных аксиом, не стараясь приписать им ту или иную интерпретацию. Относительно «интерпретации» смотри главу 1 четвертой части этой книги. Следует заметить, что, в то время как интерпретация в этой области является спорной, само математическое исчисление диктует здесь ту же меру согласия, как и во всякой другой области математики. Это положение вещей никоим образом не является чем-то особенным. Интерпретация исчисления бесконечно малых почти в течение двух столетий была предметом, по поводу которого спорили математики и философы; Лейбниц считал, что она предполагает актуально бесконечно малые, и только Вейерштрасс окончательно опроверг этот взгляд. Возьмем еще более существенный пример: никогда не было никаких споров по поводу элементарной арифметики, и все-таки определение натуральных чисел все еще остается предметом спора. Мы не должны поэтому удивляться, что существует сомнение в отношении определения «вероятности», в то время как его нет (или очень мало) в отношении исчисления вероятности.
Следуя Джонсону и Кейнсу, мы будем обозначать выражением p/h неопределенное понятие «вероятность p при данном h». Когда я говорю, что это понятие является неопределенным, я имею в виду, что оно определяется только с помощью аксиом или постулатов, которые должны быть перечислены. Все, что удовлетворяет требованиям этих аксиом, является «интерпретацией» исчисления вероятности, и следует думать, что здесь возможно множество интерпретаций. Ни одна из них не является более правильной или более законной, чем другая, но некоторые могут быть более важными, чем другие. Так, среди интерпретаций пяти аксиом Пеано для арифметики та интерпретация, в которой первое число – 0, является более важной, чем та, в которой первое число – 3781; она более важна потому, что позволяет нам отождествить интерпретацию формалистической концепции с концепцией, признаваемой в перечислении. Но сейчас мы отвлечемся от всех вопросов интерпретации и займемся чисто формальной трактовкой вероятности.
Необходимые аксиомы, или постулаты, даются почти одинаково различными авторами. Следующие формулировки взяты у профессора Ч. Д. Брода. Эти аксиомы таковы:
1. Если даны p и h, то существует только одно значение p/h. Мы поэтому можем говорить о «данной вероятности p при данном h».
2. Возможные значения выражения p/h суть все действительные числа от 0 до 1, включая и то и другое. (В некоторых интерпретациях мы ограничиваем возможные значения рациональными числами; этот вопрос я буду рассматривать ниже.)
3. Если h имеет значение p, то p/h=1 (мы употребляем «1» для обозначения достоверности).
4. Если h имеет значение не-p, то p/h=0 (мы употребляем «О» для обозначения невозможности).
5. Вероятность p и q при данном h есть вероятность p при данном h, помноженная на вероятность q при данных p и h, и является также вероятностью q при данном h, помноженной на вероятность p при данных q и h.
Эта аксиома называется «конъюнктивной».
6. Вероятность p и q при данном h есть вероятность p при данном h плюс вероятность q при данном h минус вероятность p и q при данном h.
Это называется «дизъюнктивной» аксиомой.
Для наших целей несущественно, являются ли эти аксиомы необходимыми; нас касается только то, что они достаточны.
В отношении этих аксиом требуются некоторые замечания. Ясно, что аксиомы 2, 3 и 4 выражают частично соглашения, которые легко можно изменить. Если, когда они приняты, значение какой-то данной вероятности есть x, то мы можем с одинаковым успехом принять в качестве ее значения любое число f(x), которое возрастает по мере возрастания x, вместо 1 и 0 в аксиомах 3 и 4 мы должны будем подставить f(1) и f(0).
Согласно вышеприведенным аксиомам, предложение, которое должно быть истинным, если истинны данные, должно иметь в отношении данных вероятность, равную 1, а предложение, которое должно быть ложным, если данные истинны, должно иметь в отношении данных вероятность, равную 0.
Важно иметь в виду, что наше основное понятие p/h является отношением двух предложений (или конъюнкцией предложений), а не свойством одного предложения p. Это отличает вероятность, каковой она является в математическом исчислении, от вероятности, которой руководствуются в практике, так как последняя должна относиться к предложению, взятому само по себе или по крайней мере в отношении данных, которые не произвольны, а определяются проблемой и природой нашего познания. В исчислении, наоборот, выбор данных х совершенно произволен.
Аксиома V есть «конъюнктивная» аксиома. Она имеет дело с вероятностью того, что каждое из двух событий произойдет. Например, если я буду тянуть из колоды две карты, то каков шанс, что обе окажутся красными? Здесь «h» представляет собой данное, что колода состоит из 26 красных и 26 черных карт; 'p» обозначает, что «первая карта красная», а «q»– что «вторая карта красная». Тогда (p и q)/h» есть шанс, что обе карты будут красные, «p/h «есть шанс, что первая – красная, «q / (p и h)» есть шанс, что вторая красная, при условии, что первая – красная. Ясно, что p/h =1/2, q (p и h) =25/51. Очевидно, согласно аксиоме, шанс, что обе карты будут красные, равен 1/2х25/51.
Аксиома VI есть «дизъюнктивная» аксиома. В вышеприведенном примере она дает шанс, что по крайней мере одна из карт будет красная. Она говорит, что шанс, что по крайней мере одна будет красная, есть шанс, что первая красная, плюс шанс, что вторая – красная (когда не дано, будет ли первая красной или не будет), минус шанс, что обе – красные. Это равняется 1/2+1/2-1/2х25/51, если использовать результат, полученный выше с помощью конъюнктивной аксиомы.
Ясно, что с помощью аксиом V и VI, при том условии, что даны отдельные вероятности любой ограниченной совокупности событий, мы можем исчислить вероятность наступления их всех или по крайней мере вероятность наступления одного из них.
Из конъюнктивной аксиомы следует, что
Это называется «принципом обратной вероятности». Ее полезность может быть иллюстрирована следующим образом. Пусть p будет какой-либо общей теорией, а q – экспериментальным данным, относящимся к p. Тогда p/h есть вероятность теории p в отношении ранее известных данных, q /h – вероятность q в отношении ранее известных данных и q (p и h) – вероятность q, если p истинно. Таким образом, вероятность теории p после того, как q установлено, получается посредством умножения прежней вероятности p на вероятность q при данном p и деления на прежнюю вероятность q. В самом благоприятном случае теория p будет предполагать q, так что q/ (p и h) =1. В этом случае это значит, что новое данное q повышает вероятность p пропорционально предшествующей невероятности q. Другими словами, если наша теория предполагает нечто весьма неожиданное, а это неожиданное затем происходит, то это сильно повышает вероятность нашей теории.
Этот принцип может быть иллюстрирован открытием Нептуна, рассматриваемым как подтверждение закона тяготения. Здесь p – закон тяготения, h – все относящиеся к делу факты, известные до открытия Нептуна, q – факт обнаружения Нептуна в определенном месте. Тогда q /h было предварительной вероятностью, что до сего времени неизвестная планета будет найдена в определенной небольшой области неба. Пусть она была равна m/n. Тогда после открытия Нептуна вероятность закона тяготения стала в n/m раз большей, чем раньше.
Ясно, что этот принцип имеет большое значение в оценке роли нового свидетельства в пользу вероятности научной теории. Мы найдем, однако, что он доказывает нечто разочаровывающее и не дает таких хороших результатов, на которые можно было бы надеяться.
Существует имеющее большое значение предложение, иногда называемое теоремой Бейеса, которая имеет следующий вид. Пусть Р1, P2, …, Pn будут n взаимно исключающих друг друга возможностей, причем известно, что какая-то одна из них истинна; пусть h будет означать общие данные, а q – какой-либо относящийся к делу факт. Мы хотим узнать вероятность одной возможности p, при данном q, когда мы знаем вероятность каждого P1 до того, как стало известным q, a также вероятность q при данном р1 для каждого г. Мы имеем
Это предложение позволяет нам решить, например, следующую задачу: дано n +1 сумок, из которых первая содержит n черных шаров и ни одного белого, вторая содержит n – 1 черных шаров и один белый; r+1-я сумка содержит n – r черных шаров и r белых. Берется одна сумка, но неизвестно, какая именно; из нее вынимается m шаров, и оказывается, что все они белые; какова вероятность, что взята была сумка r? Исторически эта задача важна в связи с претензией Лапласа на доказательство индукции.
Возьмем, далее, закон больших чисел Бернулли. Этот закон устанавливает, что если на каждое число случаев шанс наступления определенного события есть p, то при данных любых двух сколько угодно малых числах e и s шанс, что, начиная с достаточно большого числа случаев, отношение случаев наступления события всегда будет отличаться от p больше, чем на величину s, будет меньше, чем e.
Поясним это с помощью примера с бросанием монеты. Допустим, что выпадение лицевой и оборотной сторон монеты одинаково вероятно. Это значит, что, по-видимому, после достаточно большого количества бросаний отношение выпадений лицевой стороной никогда не будет отличаться от 1/2 больше, чем на величину s, как бы мала ни была эта величина s; далее, как бы s не было мало, где бы то ни было после n бросаний, шанс такого отклонения от 1/2 будет меньше e, если только n достаточно большое.
Так как это предложение имеет большое значение в приложениях теории вероятности, например в статистике, постараемся получше освоиться с точным смыслом того, что утверждается в вышеприведенном примере с бросанием монеты. Прежде всего я утверждаю, что начиная с определенного числа их выпадения процент выпадения монеты лицевой стороной всегда будет, скажем, между 49 и 51. Допустим, что вы оспариваете мое утверждение и мы решаем проверить его эмпирически насколько только возможно. Значит, теорема утверждает, что чем дольше мы будем продолжать проверку, тем больше будет казаться, что мое утверждение порождено фактами и что по мере того, как число бросаний будет увеличиваться, эта его вероятность будет приближаться к достоверности как к пределу. Предположим, что с помощью этого эксперимента вы убеждаетесь, что начиная с некоторого числа бросаний процент выпадения лицевой стороной всегда остается между 49 и 51, но теперь я утверждаю, что начиная с некоторого большего числа бросаний этот процент будет всегда оставаться между 49,9 и 50,1. Мы повторяем наш эксперимент, и спустя некоторое время вы снова в этом убеждаетесь, хотя на этот раз, возможно, спустя большее время, чем прежде. После любого данного числа бросаний останется шанс, что мое утверждение не подтвердится, но этот шанс все время будет уменьшаться по мере того, как число бросаний будет увеличиваться, и может стать меньше любой приписанной ему величины, если бросание будет продолжаться достаточно долго.
Вышеприведенное предложение легко вывести из аксиом, но оно не может, конечно, быть адекватно проверено эмпирически, поскольку оно предполагает бесконечную последовательность испытаний. Если будет казаться, что испытания, которые мы можем осуществить, будут подтверждать его, то возражающий всегда сможет сказать, что они не показали бы этого, если бы мы продолжали испытание дальше; а если будет казаться, что они не подтверждают его, то защищающий теорему сможет точно так же сказать, что они еще не достаточно долго продолжали испытания. Теорему нельзя, таким образом, ни доказать, ни опровергнуть эмпирическим свидетельством.
Вышеприведенные предложения являются основными предложениями чистой теории вероятности, имеющими большое значение в нашем исследовании. Я хочу, однако, сказать еще кое-что по вопросу о a +1 сумках, каждая из которых содержит n белых и черных шаров, причем r+1-я сумка содержит r белых шаров и n – r черных шаров. Мы исходим из следующих данных: я знаю, что сумки содержат разные количества белых и черных шаров, но при этом нет никакого способа отличить эти сумки друг от друга по внешним признакам. Я выбираю одну сумку наудачу и вынимаю из нее один за другим m шаров, причем, вынимая эти шары, я не кладу их обратно в сумку. Оказывается, что все вынутые шары белые. Учитывая этот факт, я хочу знать две вещи: во-первых, каков шанс того, что я выбрал сумку, содержащую одни только белые шары? Во-вторых, каков шанс того, что следующий шар, который я выну, окажется белым?
Мы рассуждаем следующим образом. Путь h будет тот факт, что сумки имеют вышеописанный вид и содержание, а q – тот факт, что было вынуто m белых шаров; пусть также Pr будет гипотеза, что мы выбрали сумку, содержащую r белых шаров. Очевидно, что г должно быть по крайней мере таким же большим, как и m, то есть если г меньше, чем m, то Pr/qh=Q и q/Prh=0. После некоторых вычислений оказывается, что шанс, что мы выбрали сумку, в которой все шары белые, равен (m +1)/(n +1).
Теперь мы хотим знать шанс, что следующий шар будет белым. После некоторых дальнейших вычислений оказывается, что этот шанс равен (m +1)/(m +2).
Заметьте, что это не зависит от n и что если m велико, то оно очень близко к 1.
В вышеприведенное описание я не включил никакого аргумента по вопросу об индукции, которой я займусь позже. Прежде всего я рассмотрю адекватность определенной интерпретации вероятности, поскольку она может рассматриваться независимо от проблем, связанных с индукцией.
ГЛАВА 3
ИНТЕРПРЕТАЦИЯ С ПОМОЩЬЮ ПОНЯТИЯ КОНЕЧНОЙ ЧАСТОТЫ
В этой главе нас интересует одна очень простая интерпретация «вероятности». Мы должны прежде всего показать, что она удовлетворяет аксиомам главы SI, и затем рассмотреть в порядке предварительного разбора, насколько ее можно сделать соответствующей обычному употреблению слова «вероятность». Я буду называть эту интерпретацию «теорией конечной частоты», чтобы отличить ее от другой формы теории частоты, которой мы займемся ниже.
Теория конечной частоты исходит из следующего определения.
Пусть В будет любой конечный класс, а A – любой другой класс. Мы хотим определить шанс, что член класса В, выбранный наудачу, будет членом класса А, например, что первый человек, которого вы встретите на улице, будет иметь фамилию Смит. Мы определяем эту вероятность как число членов класса В, являющихся также членами класса А, деленное на полное число членов класса В. Мы обозначаем это знаком А/В.
Ясно, что вероятность, определяемая таким образом, должна быть или рациональной дробью, или 0, или 1.
Несколько примеров сделают ясным смысл этого определения. Каков шанс, что какое-либо целое число меньше 10, выбранное наудачу, будет простым числом? Существует 9 целых чисел меньше 10, и 5 из них являются простыми; следовательно, этот шанс равен 5/9. Каков шанс, что в прошлом году в Кембридже в день моего рождения шел дождь, в предположении, что вы не знаете, когда бывает день моего рождения? Если m есть число дней, когда шел дождь, то шанс равен m/365. Каков шанс, что человек, фамилия которого содержится в лондонской телефонной книге, носит фамилию Смит? Для решения этой задачи вы должны сначала сосчитать все записи в этой книге с фамилией «Смит», а затем сосчитать вообще все записи и разделить первое число на второе. Каков шанс, что карта, вытащенная наудачу из колоды, окажется пиковой масти? Ясно, что этот шанс равен 13/52, то есть 1/4. Если вы вытянули карту пиковой масти, то каков шанс, что следующая карта, которую вы вытащите, будет тоже пика? Ответ: 12/51. Каков шанс, что в бросании двух костей выпадет сумма 8? Имеется 36 комбинаций выпадения костей, и в 5 из них сумма будет равна 8, так что шанс выпадения суммы 8 равен 5/36.
Ясно, что в иных элементарных случаях вышеприведенное определение дает результаты, согласующиеся с обычным употреблением. Теперь исследуем, удовлетворяет ли таким образом определяемая вероятность аксиомам.
Буквы p, q и h, употребленные в аксиомах, должны теперь пониматься как обозначающие не предложения, а классы или пропозициональные функции. Вместо выражения «h предполагает p» мы будем иметь выражение «h содержится в p», выражение «p и q " будет обозначать общую часть двух классов p и q, тогда как «p и q» будет классом всех членов, которые принадлежат к каждому или к обоим из двух классов p и q.
Наши аксиомы были следующие:
1. Есть только одно значение p/h. Оно будет истинным, если только h не является нулем, в каковом случае p/h = 0/0. Мы поэтому исходим из того, что h не есть нуль.
2. Возможными значениями p/h являются все реальные числа от 0 до 1. В нашей интерпретации они будут только рациональными числами, если только мы не сможем найти способ распространения нашего определения на бесконечные классы. Этого нельзя сделать просто, поскольку деление не дает единого результата, когда дело касается бесконечных чисел.
3. Если h содержится в p, тогда p/n=1. В этом случае общая часть h и p есть h, следовательно, вышеупомянутое следует из нашего определения.
4. Если h содержится в не-p, тогда p/h = 0. Это ясно по определению, ибо в этом случае общая часть h и p равна нулю.
5. Конъюнктивная аксиома. Согласно нашей интерпретации, она утверждает, что отношение членов h, являющихся членами как p, так и q, есть отношение членов h, являющихся членами p, помноженное на отношение членов p и b, являющихся членами q. Допустим, что число членов h есть а, что число членов, общих для p и h, есть b и что число членов, общих для p, q и h, есть с. Тогда отношение членов h, являющихся членами p и q, есть с/a, отношение членов h, являющихся членами p, есть h/a и отношение членов p и h, являющихся членами q, есть с/b. Таким образом, наша аксиома подтверждается, поскольку с/а = b/a x с/b.
6. Дизъюнктивная аксиома. Согласно нашей настоящей интерпретации, эта аксиома говорит, сохраняя вышеприведенные значения а, b и с и добавляя, что d есть число членов h, являющихся членами или p, или q, или обоих из них, тогда как е есть число членов h, являющихся членами q, что
То есть d = b + e – c, что опять-таки совершенно очевидно.
Таким образом, наши аксиомы удовлетворяются, если h есть конечный класс, не являющийся нулем, за исключением того, что возможные значения вероятности нужно ограничивать рациональными дробями.
Из этого следует, что математическая теория вероятности оказывается действенной при вышеприведенной интерпретации.
Мы должны, однако, исследовать вопрос о сфере применения таким способом определяемой вероятности, которая с первого взгляда кажется чересчур узкой для того употребления, которое мы хотим сделать из вероятности.
Прежде всего мы хотим, чтобы можно было говорить о шансе, что некоторое определенное событие будет иметь некоторые черты, а не только о шансе, что какой-либо рядовой член класса будет иметь их. Например, вы уже осуществили бросание с двумя костями, но я еще не видел результата этого бросания. Какова для меня вероятность, что выпали две шестерки? Мы хотели бы сказать, что эта вероятность равна 1/36, а если наше определение не позволяет нам сказать этого, то оно неадекватно. В таком случае мы сказали бы, что мы рассматриваем событие просто как представителя определенного класса; мы сказали бы, что если А рассматривается просто как член класса В, то шанс, что он принадлежит к классу А, равен А/В. Но здесь не совсем ясно, что значит «рассматривание определенного события просто как члена определенного класса». В таком случае предполагается следующее: нам дается некая характеристика какого-либо события, которая для более полного познания, чем наше, является достаточной, чтобы определить его однозначно; что же касается нашего познания, то мы не имеем способа узнать, принадлежит ли оно к классу А, хотя мы и знаем, что оно принадлежит к классу В. Бросив кости, вы знаете, принадлежит или не принадлежит ваше бросание к классу двойной шестерки, но я этого не знаю. Я знаю только то, что это бросание с двойной шестеркой есть одно из 36 возможных бросаний. Рассмотрим следующий вопрос: каков шанс, что самый высокий человек в Соединенных Штатах живет в штате Айова? Возможно, что кто-нибудь знает этого человека; во всяком случае, существует известный метод, с помощью которого можно узнать, кто этот человек. Если бы этот метод был успешно применен, то имелся бы определенный, не предполагающий вероятности ответ, именно или что он живет в штате Айова, или что он там не живет. Но я не знаю этого. Я ногу только утверждать, что население штата Айова равно числу m, население Соединенных Штатов равно числу n, и сказать, что в отношении этих данных вероятность, что он живет в штате Айова, равна m/n. Таким образом, когда мы говорим о вероятности определенного события, имеющего какую-то характеристику, мы всегда должны специфицировать те данные, по отношению к которым должна быть степень вероятности.
Мы можем обобщить: если дан любой объект о и дано, что а есть член класса В, то мы говорим, что в отношении к этому данному вероятность, что о есть член класса А, равна А/В в ранее определенном смысле. Эта концепция полезна, потому что часто о каком-либо объекте мы знаем достаточно много, чтобы определить его однозначно, не имея при этом достаточных знаний, чтобы определить, имеет ли он то или это свойство. «Самый высокий человек в Соединенных Штатах» есть определенное описание, применимое к одному и только одному человеку, но я не знаю, к какому человеку, к поэтому для меня является открытым вопрос, живет ли он в штате Айова. «Карта, которую я собираюсь вытащить», есть определенное описание, и через момент я буду знать, будет ли это описание относиться к красной или к черной карте, но к какой, я еще пока не знаю. Именно это очень обычное состояние частичного незнания в отношении определенных объектов делает полезным применение вероятности и к определенным объектам, а не только к полностью неопределенным членам классов.
Хотя частичное незнание есть то, что делает вышеприведенную форму вероятности полезной, незнание все-таки не включено в понятие вероятности, которое по-прежнему имело бы тот же смысл для всеведущего существа, как и для нас. Всеведущее существо знало бы, относится ли a к классу A, но все-таки могло бы сказать: по отношению к данному, что а есть B, вероятность того, что а есть A равна A/B.
При применении нашего определения к конкретным примерам в некоторых случаях возможна неясность. Чтобы сделать это понятным, мы лучше воспользуемся языком свойств, чем классов. Пусть класс А определяется свойством f, а класс B свойством y. Тогда мы скажем:
Вероятность того, что о имеет свойство f при том, что оно имеет свойство y, определяется как отношение вещей, имеющих как свойство f, так и свойство y, к вещам имеющим свойство y. Мы обозначаем выражение «a имеет свойство f» знаком «fa». Но если о встречается в «fa» больше одного раза, то возникнет неясность. Например, допустим, что 'fa» обозначает «о совершает самоубийство», то есть «a убивает a». Это есть значение выражения «x убивает x», которое является классом самоубийств; оно также есть значение выражения «о убивает х», которое является классом людей, которых убивает а;, оно также есть значение выражения «x убивает a», которое есть класс людей, которые убивают о. Таким образом, определяя вероятность fa, если «a» встречается в «fa» больше одного раза, мы должны указать, какие из его наступлений должны и какие не должны рассматриваться как значения переменной.
Окажется, что мы может интерпретировать все элементарные теоремы в согласии с вышеприведенным определением. Возьмем, например, предполагаемое Лапласом оправдание индукции. Имеется N+1 сумок, каждая из которых содержит N шаров. Из этих сумок r+1-я содержит г белых шаров и N – r черных шаров. Мы вытащили из одной сумки n шаров, причем все они оказались белыми.
Каков шанс
(a) что мы выбрали сумку с одними лишь белыми шарами?
(b) что следующий шар окажется тоже белым?
Лаплас говорит, что (a) есть (n+1)/(/V+1) и (b) есть (n +1)/(n+2). Иллюстрируем это несколькими числовыми примерами. Во-первых, допустим, что всего имеется 8 шаров, из которых вытащено 4, все белые. Каковы шансы (a), что мы выбрали сумку, содержащую только белые шары, и (b) что следующий вытащенный шар тоже окажется белым?
Пусть Pr представляет собой гипотезу, что мы выбрали сумку с r белыми шарами. Эти данные исключают р0, р1, р2, р3. Если мы имеем p4, то имеется только один случай, когда мы могли вытащить 4 белых, и остается 4 случая вытащить черный и ни одного – белый. Если мы имеем р5, то есть 5 случаев, когда мы могли бы вытащить 4 белых, и для каждого из них был 1 случай вытащить следующий белый и 3 – вытащить черный; таким образом, из р5 мы получаем 5 случаев, где следующий шар будет белым, и 15 случаев, где он будет черным. Если мы имеем P6, то есть 15 случаев выбора 4 белых, а когда они вытащены, остается 2 случая выбрать один белый и 2 случая выбрать черный; таким образом, из P6 мы имеем 30 случаев получения следующего белого и 30 случаев, когда следующий будет черным. Если мы имеем p7, то есть 35 случаев вытащить 4 белых, а после того, как они будут вытащены, останется 3 случая вытащить белый и один – вытащить черный; таким образом, мы получаем 105 случаев вытащить следующий белый и 35 – вытащить черный. Если мы имеем P8, то есть 70 случаев вытащить 4 белых, а когда они будут вытащены, то есть 4 случая вытащить следующий белый и ни одного – вытащить черный; таким образом, из P8 мы получаем 280 случаев вынуть пятый белый и ни одного – вынуть черный. Суммируя, мы имеем 5+30+105+280, то есть 420 случаев, когда пятый шар является белым, и 4+15+30+35, то есть 84 случая, когда пятый шар является черным. Следовательно, разница в пользу белого составляет отношение 420 к 84, то есть 5 к 1; это значит, что шанс, что пятый шар окажется белым, равен 5/6.
Шанс, что мы выбрали сумку, в которой все шары белые, есть отношение числа случаев получения 4 белых шаров из этой сумки ко всему числу случаев получения 4 белых шаров. Первых, как мы видели, 70; вторых 1+5+15+35+70, то есть 126. Следовательно, шанс равен 70/126, то есть 5/9.
Оба эти результата согласуются с формулой Лапласа. Возьмем еще один числовой пример: допустим, что имеется 10 шаров, из которых 5 было вынуто, причем они оказались белыми. Каков шанс р10, то есть того, что мы выбрали сумку с одними белыми шарами? И каков шанс, что следующий шар будет белым?
P5 возможно в 1 случае; если р5, то ни одного случая следующего белого, 5 случаев следующего черного;
P6 возможно в 6 случаях; если р6, то 1 случай следующего белого, 4 случая черного;
P7 возможно в 21 случае; если р7, то 2 случая следующего белого, 3 случая черного;
P8 возможно в 56 случаях; если P8, то 3 случая следующего белого, 2 случая черного;
P9 возможно в 126 случаях; если P9, то 4 случая следующего белого, 1 случай черного;
P10 возможно в 252 случаях; если P10, то 5 случаев следующего белого, 0 случаев черного.
Таким образом, шанс р10 равен 252/(1+6+21+56+126+252), то есть 252/462, то есть 6/11.
Случаи, когда следующий шар может быть белым, составляют 6+21 * 2+56 * 3+126 * 4+252 * 5, то есть 1980, а случаи, когда он может быть черным, составляют 5+4 * 6+3 * 21+2 * 56+126, то есть 330.
Следовательно, разница в пользу белого составляет отношение 1980 к 330, то есть 6 к 1, так что шанс получения следующего белого равен 6/7. Это тоже находится в согласии с формулой Лапласа.
Возьмем теперь закон больших чисел Бернулли. Мы можем иллюстрировать его следующим образом. Допустим, что мы бросаем монету n раз и пишем 1 всякий раз, кода выпадает ее лицевая сторона, и 2 – всякий раз, когда она выпадает оборотной стороной, образуя, таким образом число из n-го количества однозначных чисел. Предположим, что каждая возможная последовательность выпадает только один раз. Таким образом, если n = 2, то мы получим четыре числа: 11, 12, 21, 22; если n =3, то мы получим 8 чисел: 111, 112, 121, 122, 211, 212, 221, 222; если n=4, мы получим 16 чисел: 1111, 1112, 1121, 1122, 1212, 1221, 1222, 2111, 2112, 2121, 2122, 2211, 2221, 2222 и так далее
Беря последнее из вышеприведенного перечня, мы находим: 1 число со всеми единицами, 4 числа с тремя единицами и одной двойкой, 6 чисел с двумя единицами и двумя двойками, 4 числа с одной единицей и тремя двойками, t число со всеми двойками.
Эти числа – 1, 4, 6, 4, 1 – являются коэффициентами в разложении бинома (а + b)4. Легко доказать, что для n однозначных чисел соответствующие числа являются коэффициентами в разложении бинома (о + b)n. Теорема Бернулли сводится к тому, что если n является большим, то сумма коэффициентов около середины будет почти равна сумме всех коэффициентов (которая равна 2n), Таким образом, если мы возьмем все возможные последовательности выпадения лицевой и оборотной сторон в большом числе бросаний, то огромное большинство их будет иметь почти одинаковое число у обеих (то есть у лицевой и оборотной сторон); это большинство и приближение к полному равенству будет, кроме того, неопределенно увеличиваться по мере того, как будет увеличиваться число бросаний.
Хотя теорема Бернулли и является более общей и более точной, чем вышеприведенные положения с равно вероятными альтернативами, на все-таки должна интерпретироваться, согласно нашему настоящему определению «вероятности», способом, аналогичным вышеприведенному. Является фактом, что если мы составим все числа, которые состоят из 100 знаков, каждый из которых есть или 1, или 2, то около четверти из них будут иметь 49, или 50, или 51 знак, равный 1, почти половина будет иметь 48, или 49, или 50, или 51, или-52 знака, равных 1, более половины будет иметь от 47 до 53 знаков, равных 1, и около трех четвертей будет иметь от 46 до 54 знаков. По мере того как число знаков будет увеличиваться, будет возрастать и преобладание случаев, в которых единицы и двойки будут почти полностью уравновешиваться.
Вопрос, почему этот чисто логический факт должен рассматриваться как дающий нам хорошее основание ожидать, что, если мы бросим монету очень много раз, мы действительно получим приблизительно равное число выпадений ее лицевой и оборотной сторон, является совершенно другим вопросом, включающим в себя в дополнение к логическим законам законы природы. Я упоминаю об этом только для того, чтобы подчеркнуть тот факт, что я сейчас не рассматриваю этого.