355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Алекс Беллос » Красота в квадрате. Как цифры отражают жизнь и жизнь отражает цифры » Текст книги (страница 3)
Красота в квадрате. Как цифры отражают жизнь и жизнь отражает цифры
  • Текст добавлен: 26 сентября 2016, 13:44

Текст книги "Красота в квадрате. Как цифры отражают жизнь и жизнь отражает цифры"


Автор книги: Алекс Беллос


Жанр:

   

Педагогика


сообщить о нарушении

Текущая страница: 3 (всего у книги 20 страниц) [доступный отрывок для чтения: 5 страниц]

2. Длинный хвост закона

Автор изучает универсальные законы чисел и обнаруживает числовые закономерности повсюду, включая и страницы этой книги.


В 1085 году Вильгельм Завоеватель приказал провести в Англии перепись. Он хотел знать, сколько людей живет на его землях, кто эти люди, какое у них имущество, какой доход они получают и, что самое главное, какие налоги должны платить. Он разослал своих представителей по всему королевству, и его приказ был выполнен настолько тщательно, что в летописи Anglo-Saxon Chronicle («Англосаксонские хроники») появилась запись: «Ни одного быка, ни одной коровы и ни одной свиньи не осталось неучтенной».

Книга с результатами этой переписи известна под названием Doomsday Book («Книга Судного дня»). Это самый ранний источник сведений о населении Англии, первый в западном мире крупный сборник статистических данных и настоящая находка для историков, специалистов по генеалогии и лексикографов. Движимый желанием узнать, скрыты ли в этой книге математические тайны, я приступил к изучению первого раздела, посвященного графству Кент[28]28
  Domesday Book: A Complete Translation, Penguin Classics, 2003.


[Закрыть]
.

В самом начале говорилось о том, что город Дувр заплатил 18 фунтов налога, из которых две части ушло королю Эдуарду, а третья – графу Гудвину. Жители Дувра дали королю 20 кораблей на 15 дней с экипажем в количестве 21 человека на каждом судне.

Поскольку меня интересовали исключительно числа, я выделил из этого абзаца следующий список: 18, 2, 20, 15 и 21 – и мне сразу же кое-что бросилось в глаза. Посмотрите на первую цифру каждого числа: 1, 2, 2, 1 и 2. Только единицы и двойки, самые маленькие цифры. Любопытно, не правда ли? По всей вероятности, да. Но все же выборка была слишком мала, чтобы делать какие-то выводы. Я прочитал книгу до конца, отмечая первые цифры каждого числа, которое мне встречалось. Преобладание единиц и двоек наблюдалось по всей книге. Да, тройки, четверки и другие цифры тоже присутствовали, но гораздо реже. Я был просто поражен тем, насколько чаще числа начинаются с маленьких цифр, чем с больших.

Я насчитал уже 182 числа, когда мне впервые попалась на глаза девятка. Она обозначала количество крестьян, подчинявшихся Вульфстану, сыну Вульфвина из Шепердсуэлла. К тому времени я насчитал 53 числа, начинающихся с цифры 1, 22 – с цифры 2, 18 – с цифры 3 и 15 – с цифры 4. Посмотрите на эти числа еще раз: в них тоже прослеживается четкая закономерность. Числа с цифрой 1 в начале встречаются чаще, чем с цифрой 2, последняя, в свою очередь, чаще, чем с цифрой 3, и т. д., вплоть до чисел с цифрой 9 в начале, которых меньше всего.

Мне было понятно, почему единица попадалась так часто. Королевские посланцы, проводившие перепись, переходили от одного жилища к другому, пересчитывая людей, домашний скот и инвентарь. В хозяйствах, которые вспахивали свои земли, было, как правило, по одному плугу – отсюда и такая высокая повторяемость единицы. Однако это не объясняло невероятно устойчивого снижения частотности чисел по мере увеличения их первых цифр, особенно когда этими числами обозначались самые разные объекты в самых разных количествах – например, 40 000 сельдей, подаренных монахам в Кентербери, или 27 соляных приисков в Милтон-Реджисе.

Возможно, это свойственно только тем давним временам. Я закрыл «Книгу Судного дня» и перенес свои исследования на 800 лет вперед, оказавшись в Лондоне викторианской эпохи.

Двенадцатого марта 1881 года на первой странице газеты The Times были опубликованы такие объявления: владелец 25-тонной шхуны ищет джентльмена, который согласится отправиться вместе с ним в южные моря; временный приют для бездомных собак в Баттерси приглашает людей, желающих купить домашнее животное, посмотреть 500–700 своих обитателей; Сэмюел Брэндрем сообщает, что его шекспировские чтения состоятся в четверг, в 3 часа дня, по адресу Старая Бонд-стрит, 33 – забронировать места можно за 5 шиллингов.

Я подсчитал частотность первых цифр (также именуемых ведущими цифрами) во всех числах, которые нашел на первой полосе The Times. Числа с цифрой 1 в начале и на сей раз встречались чаще всего, в отличие от цифры 9, занимавшей в этом рейтинге последнюю позицию. Хотя жизнь в XIX столетии существенно отличалась от жизни в XI веке, первые цифры чисел, отражавших социальную статистику, вели себя практически одинаково.

Такую же закономерность можно найти на страницах любой современной прессы. Попробуйте сделать это сами! Этот простой трюк можно показывать на вечеринке; его также любят демонстрировать фокусники в пабах. Посчитайте первые цифры – и увидите, что их частотность неизменно снижается: числа, начинающиеся с цифры 1, встречаются чаще всего; затем следуют числа, первая цифра которых 2, потом 3 – и т. д. до цифры 9, которая используется в начале чисел реже всего.

Это действительно невероятно. Большинство людей просто не поверят вам, пока вы не подсчитаете цифры. На интуитивном уровне нам кажется, что числа, указанные в газетах, не могут вести себя столь упорядоченно, особенно учитывая тот факт, что они произвольно взяты из огромного количества самых разных источников. Тем не менее, о каких бы числах ни шла речь – о результатах спортивных соревнований, ценах акций или количестве погибших, – уверяю вас: цифра 1 в начале чисел будет встречаться чаще, а цифра 9 – реже всего.

Этот вывод представляется нам несколько неожиданным, так как мы интуитивно предполагаем, что все числа имеют равные шансы на появление. Безусловно, если поместить в ящик 999 шариков для пинг-понга, пронумерованных от 1 до 999, и извлекать их в произвольном порядке, то вероятность выбора любого числа с определенной цифрой в начале составляет одну девятую, или 11 процентов. Другими словами, у всех цифр в этом случае одинаковые перспективы. Однако очевидно и то, что в газетах первые цифры чисел ведут себя абсолютно иначе: они распределены по явно выраженному асимметричному закону.

Тенденцию к преобладанию чисел, начинающихся с единицы, впервые заметил американский астроном канадского происхождения Саймон Ньюком[29]29
  Simon Newcomb, Note on the Frequency of Use of the Different Digits in Natural Numbers, American Journal of Mathematics, 1881.


[Закрыть]
. В 1881 году он опубликовал в журнале American Journal of Mathematics краткую заметку, в которой объяснял, что выявил данную особенность благодаря книгам с логарифмическими таблицами. Первые страницы с таблицами логарифмов для чисел, начинающихся с цифры 1, всегда были более истрепаны, чем страницы с таблицами для чисел, начинающихся с цифры 9. Подобный феномен уж точно не объяснишь тем, что исследователи якобы внимательно читали первые страницы книги, а затем теряли к ней интерес из-за отсутствия захватывающего сюжета. Здесь причина в другом: они чаще сталкивались в работе с числами, начинающимися с единицы. Ньюком предположил, что частотность первых цифр чисел, выраженная в процентах, примерно такова.


Частота наличия цифры 1 в начале чисел составляет 30,1 процента, цифры 2 – 17,6 процента, цифры 3 – 12,5 процента, причем этот показатель стремительно падает по мере увеличения цифры: шанс встретить цифру 1 в начале чисел в семь раз превышает подобную вероятность по отношению к цифре 9.

Ньюком рассчитал эти показатели с помощью логарифмов. Он утверждал, что вероятность появления цифры d в начале числа определяется по формуле: log(d + 1) – log d. (В Приложении 1 я объясню ее суть.) Однако он не смог четко обосновать ее, поэтому привел вместо этого неформальный аргумент, просто представив его как некую любопытную тенденцию.

Более чем полвека спустя, в 1938 году, физик из General Electric Фрэнк Бенфорд заново открыл феномен первой цифры, тоже обратив внимание на потрепанность страниц в книгах с таблицами логарифмов (по всей вероятности, он не знал о статье Ньюкома)[30]30
  Frank Benford, The law of anomalous numbers, Proceedings of the American Philosophical Society, 1938.


[Закрыть]
. Однако Бенфорд проанализировал эту закономерность не только на основании книг с логарифмами. Он изучил распределение первых цифр исходя из таких данных, как население городов США, адреса первых нескольких сотен людей из биографического справочника американских ученых American Men of Science, атомный вес химических элементов, площадь бассейна рек и статистика бейсбольных матчей. В большинстве случаев результаты были близки к ожидаемому распределению. Наверное, было очень интересно наблюдать за тем, как одна и та же последовательность возникает в самых разных ситуациях. Разумеется, полученные показатели не были в точности такими, как представленные выше проценты (в реальном мире подобной точности нет). Тем не менее в целом они почти полностью совпадали с прогнозируемыми значениями, отклоняясь от них не более чем на несколько десятых процента. В настоящее время закон Бенфорда нашел свое подтверждение в самых разных областях, в том числе в естествознании, финансах, экономике и вычислительной технике. Этот закон гласит: в любом множестве данных о естественных произвольных процессах, включающем в себя величины нескольких порядков, частота появления цифры 1 в качестве первой значащей цифры составляет около 30 процентов, цифры 2 – около 18 процентов и т. д. Бенфорд считал, что этот феномен отражает универсальный закон, который он обозначил термином «закон аномальных чисел». Но термин не прижился, и открытие получило известность под названием «закон Бенфорда».


Закону Бенфорда подчиняется большинство множеств данных, взятых из реальной жизни, например численность населения в 3221 округе США и совокупный квартальный доход 30 525 открытых акционерных компаний за период с 1961 по 2011 год[31]31
  Сведения о населении округов США взяты из отчетов о результатах опроса американского общества (American Community Survey) за 2007–2011 годы. Финансовые данные – итог анализа 1,4 миллиона единиц информации из системы Compustat, выполненного Джайлан Ванг.


[Закрыть]
.

Закон Бенфорда – одна из самых замечательных числовых закономерностей, существующих в мире. Чуть ниже я остановлюсь на некоторых других, но, прежде чем перейти к ним, мы должны провести одно расследование.

Даррелл Доррелл напоминал мне медведя. Эта ассоциация отчасти объяснялась тем, что мы с ним встретились в Портленде, столице штата Орегон, в котором водится много медведей, и частично тем, что Даррелл был мужчиной коренастого телосложения, с торчащими усами и низким голосом, смахивающим на тихое рычание. Кроме того, ассоциация была связана с его работой финансового следователя. Даррелл вынюхивает искаженные данные с хищническим инстинктом гризли, добывающего себе пищу. Вам лучше не допускать его к своим бухгалтерским книгам, если в них есть хотя бы малейший намек на злоупотребления. ЦРУ, Министерство юстиции и Комиссия по ценным бумагам и биржам регулярно пользовались его услугами в области судебно-бухгалтерской экспертизы (этим отраслевым термином обозначается расследование финансовых махинаций). У Даррелла есть лицензия на ношение оружия. «Все двери здесь закрываются изнутри, – объяснял он. – Мы вызываем у многих людей недовольство».

Когда в начале тысячелетия Даррелл впервые услышал о законе Бенфорда, он испытал примерно те же эмоции, что и люди, пережившие большую утрату: удивление, отрицание, гнев и принятие. «Сначала у меня возникла мысль: “Почему я не слышал об этом раньше?” Затем я подумал: “Этого просто не может быть!” А когда в конце концов понял суть этого закона, на меня снизошло озарение: “Вот это да! Ведь это еще один инструмент, который можно использовать”». Теперь в ходе расследования финансовых махинаций Даррелл прежде всего проверяет первые цифры номеров банковских счетов и данных в бухгалтерских книгах компаний. Финансовые данные, включающие в себя величины нескольких порядков (другими словами, которые отражают количество, измеряемое в единицах продукции или в десятках, сотнях и тысячах долларов), должны подчиняться закону Бенфорда. Если этого не происходит, значит, либо существует обоснованное объяснение (например, регулярная закупка товаров стоимостью, скажем, 40 долларов за единицу, которая влечет за собой повышение вероятности появления цифры 4), либо имеют место преступные действия. Отклонение от закона Бенфорда – это признак того, что соответствующие финансовые данные требуют более тщательного анализа.

Даррелл показал на висевшую на стене рамку, в которую была помещена первая страница газеты со статьей о вынесении приговора Уэсли Родсу – местному финансовому консультанту, укравшему у инвесторов миллионы долларов, чтобы покупать на эти деньги классические модели автомобилей. «Закон Бенфорда помог нам привлечь его к ответственности», – сообщил Даррелл. Отчеты, которые Родс отправлял инвесторам, не прошли проверку на соответствие закону первой цифры, а это означало, что что-то с ними не так. Проанализировав отчеты более внимательно, Даррелл обнаружил, что Родс сфальсифицировал данные. Теперь Даррелл характеризует закон Бенфорда так: «Это ДНК количественного исследования, исходное предположение о том, как работают цифры. И, как я уже неоднократно объяснял в суде, хорошо то, что здесь речь идет о науке. Открытие Бенфорда – не теория. Это закон».

Метод анализа чисел на предмет их соответствия закону Бенфорда все чаще используется для выявления манипуляций с данными, причем не только в контексте финансовых махинаций, но и во всех тех случаях, к которым этот закон применим. В 2006 году Скотт де Марчи и Джеймс Гамильтон из Университета Дьюка написали, что предоставленные промышленными предприятиями сведения об уровне выброса свинца и азотной кислоты не удовлетворяют закону Бенфорда, а это говорит о вероятности искажения информации[32]32
  Scott de Marchi and James T. Hamilton, Assessing the accuracy of self-reported data: an evaluation of the toxics release inventory, Journal of Risk and Uncertainty, 2006; Walter R. Mebane Jr., Fraud in the 2009 Presidential Election in Iran? Chance, 2010; Malcolm Sambridge et al., Benford’s law in the natural sciences, Geophysical Research Letters, 2010.


[Закрыть]
. На основании закона Бенфорда политолог Мичиганского университета Уолтер Мибейн заявил о возможной фальсификации результатов президентских выборов в Иране. Мибейн проанализировал все протоколы голосования и обнаружил существенные расхождения в количестве голосов за Махмуда Ахмадинежада с законом Бенфорда, тогда как в результатах его соперника, сторонника реформ Мир-Хосейна Мусави, никаких отклонений от этого закона не наблюдалось. «Самое простое объяснение, – писал Мибейн, – состоит в том, что в результаты Ахмадинежада были искусственным образом включены дополнительные голоса, тогда как результаты Мусави остались нетронутыми». Ученые используют закон Бенфорда и в качестве инструмента диагностики. Так, во время землетрясений верхние и нижние значения показаний сейсмографа подчиняются данному закону. Малколм Сэмбридж из Австралийского национального университета проанализировал две разные сейсмограммы, на которых было зафиксировано землетрясение в Индонезии в 2004 году, – одна была записана в Перу, а другая в Австралии. Данные, отображенные на первой сейсмограмме, полностью соответствовали закону Бенфорда, тогда как на второй имели место небольшие отклонения. Сэмбридж объяснил это тем, что в районе Канберры могло произойти незначительное сейсмическое возмущение. Так проверка данных на соответствие закону первой цифры позволила выявить землетрясение, которое осталось незамеченным.

Цифра 1 встречается чаще цифры 2 не только на первой, но и на второй, третьей, четвертой и фактически любой позиции в записи числа. На представленном ниже рисунке продемонстрирована частотность вторых цифр в процентном выражении (среди которых есть теперь и цифра 0). Различия между этими показателями не столь ощутимы, как в случае первых цифр, но их все же можно использовать в целях диагностики, скажем в процессе анализа финансовых данных и результатов выборов. По мере продвижения к следующим позициям данные о частоте появления цифр стремятся к одному значению. Следовательно, закон Бенфорда касается не только первых цифр. В мире действительно гораздо больше единиц!


В суде Доррелла часто просят обосновать закон Бенфорда. В таких случаях Даррелл становится перед лекционной доской и начинает считать от единицы и далее, записывая названные цифры. При этом он чувствует себя школьным учителем, проводящим урок математики. «Это просто выводит из себя судью и адвоката», – иронизирует он.

Мы можем сделать то же самое. Вот числа от 1 до 20:

1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20

Больше половины этих чисел начинаются с цифры 1, поскольку от 11 до 19 все числа начинаются с единицы. Продолжаем считать. Где бы мы ни остановились, чисел с первой цифрой 1 будет не меньше, чем чисел с первой цифрой 2, поскольку для того, чтобы добраться до второго десятка, второй сотни или второй тысячи, необходимо назвать все числа первого десятка, первой сотни и первой тысячи. Точно так же чисел с первой цифрой 2 будет не меньше, чем чисел с первой цифрой 3 и т. д., вплоть до чисел с первой цифрой 9. Такое обоснование помогает понять закон Бенфорда на интуитивном уровне, и его вполне достаточно для суда как государственного органа, а вот для суда математики требуется более строгое доказательство.

Одно из самых поразительных свойств закона Бенфорда – что последовательность цифр не зависит от единицы измерения. Когда массив финансовых данных подчиняется закону Бенфорда в случае, если они выражены в фунтах, он будет подчиняться этому закону и после их конвертации в доллары. Если массив географических данных соответствует закону Бенфорда в километрах, он будет соответствовать ему и в случае их представления в милях. Это свойство, обозначаемое термином «масштабная инвариантность», верно всегда, поскольку числа, взятые из газет, банковских счетов и атласов мира показывают одно и то же распределение первых цифр независимо от используемых систем измерения и валюты.

Для перевода расстояния из миль в километры необходимо умножить его на 1,6; для конвертации денежной суммы из фунтов в доллары ее тоже следует умножить на фиксированное число, соответствующее текущему обменному курсу. Простейший способ понять масштабную инвариантность закона Бенфорда сводится к анализу поведения чисел в случае их умножения на два. Если число, начинающееся с цифры 1, умножить на 2, результат будет начинаться с цифры 2 или 3. (Например, 12 × 2 = 24; 166 × 2 = 332.) Если число, начинающееся с цифры 2, умножить на 2, первой цифрой произведения будет 4 или 5. (Например, 2,1 × 2 = 4,2; 25 × 2 = 50.) Первые две строки представленной ниже таблицы показывают, что происходит с первой цифрой числа в случае его умножения на два.


Предположим, S – это массив данных, подчиняющихся закону Бенфорда. Давайте умножим на два каждое число, входящее в массив S, и обозначим новый массив чисел буквой T. Согласно таблице, числа из массива S, начинающиеся с цифры 5, составляют 7,9 процента от общего количества чисел в массиве; числа, первая цифра которых 6, – 6,7 процента, 7, 8 и 9–5,8; 5,1 и 4,6 процента соответственно. Следовательно, в массиве S доля чисел, начинающихся с 5, 6, 7, 8 или 9, равна 7,9 + 6,7 + 5,8 + 5,1 + 4,6 = 30,1 процента. Если числа, первая цифра которых 5, 6, 7, 8 или 9, умножить на два, произведение всегда будет начинаться с цифры 1, как показано в таблице. Другими словами, 30,1 процента чисел в массиве T начинается с цифры 1, что соответствует закону Бенфорда!

Данная закономерность имеет место и в случае других цифр. Умножение на 2 сначала нарушает, а затем восстанавливает действие закона Бенфорда, но распределение первых цифр при этом сохраняется. Я выбрал умножение на 2, поскольку это самый простой множитель, но с таким же успехом можно было бы взять в качестве множителя 3, или 1,6, или число π, или какое-либо еще – закон Бенфорда действовал бы, так или иначе. Под любое изменение масштаба распределение Бенфорда перенастраивается, как будто это делает рука самого Бога.

В течение нескольких десятилетий после открытия закона Бенфорда он считался не более чем аномалией, трюком из шоу иллюзионистов, нумерологией, но никак не математикой. Однако в 90-х годах ХХ столетия профессор Технологического института штата Джорджия Тед Хилл решил найти теоретическое обоснование распространенности этого закона. Сейчас ученый живет в городе Лос-Осос; это чуть дальше вдоль побережья Тихого океана от того места, где обосновался Даррелл Доррелл. Тед – бывший солдат, высокий, широкоплечий стройный мужчина с бритой головой и седыми усами, сохранивший армейскую выправку. Когда я приехал к нему, он повел меня в небольшой деревянный домик в конце сада, из окон которого открывался вид на океан и два национальных парка. В камине потрескивали дрова. Тед назвал этот домик «математической дачей». Это глобальный центр исследования закона Бенфорда.

Первый серьезный результат, полученный Тедом Хиллом, – это доказательство того, что при существовании некой универсальной закономерности распределения первых цифр оно подчиняется исключительно закону Бенфорда. То есть распределение первых цифр по Бенфорду – единственное, которое не меняется в случае изменения масштаба. Этот вывод позволил Теду изобрести игру, в которую мы с ним сыграли.

«Каждый из нас выбирает число, – объяснил мне Тед. – Затем мы их перемножаем. Если произведение начинается с цифры 1, 2 или 3, значит, выигрываю я; если с цифры 4, 5, 6, 7, 8 или 9 – то вы».

На первый взгляд может показаться, что в этой игре явный перевес в мою пользу, поскольку в моем распоряжении шесть цифр, тогда как у Теда – всего три. Тем не менее в большинстве случаев Тед будет выигрывать, выбирая числа в соответствии с распределением Бенфорда, другими словами – если на протяжении нескольких игр он будет выбирать числа, начинающиеся с цифры 1, – то в 30,1 процента случаев, цифру 2 – в 17,6 процента случаев и т. д. Если Тед будет действовать таким образом, от выбранного мной числа не зависит, какая цифра окажется первой: в 30,1 процента случаев это будет цифра 1, в 17,6 процента случаев – цифра 2, в 12,5 процента случаев – цифра 3. Сумма этих трех показателей составляет 60,2 процента; следовательно, Тед выиграет в 60,2 процента случаев. В эту игру хорошо играть на деньги: даже если в вашем распоряжении только 1, 2 и 3 в качестве целевых цифр, ваши шансы на победу гораздо выше, чем в случае цифр 4, 5, 6, 7, 8 и 9, хотя поначалу кажется, что это не так.

Эта игра помогает объяснить, почему многие массивы данных, формирующиеся естественным образом, подчиняются закону Бенфорда. Предположим, мы с Тедом сыграли в эту игру сто раз; у него были числа (a1, a2, a3a100), а у меня – числа (b1, b2, b3b100). Мы знаем, что если числа Теда удовлетворяют закону Бенфорда, то результат умножения его чисел на мои (a1 × b1, a2 × b2, a3 × b3a100 × b100) также подчиняется этому закону. Следовательно, если мы умножим эти числа на еще один набор случайно выбранных чисел (c1, c2, c3c100), для того чтобы получить еще один массив чисел (a1 × b1 × c1, a2 × b2 × c2, a3 × b3 × c3a100 × b100 × c100), этот массив тоже будет соответствовать закону Бенфорда. Дело в том, что, сколько бы массивов данных мы ни умножали друг на друга, достаточно, чтобы хотя бы один из них удовлетворял закону Бенфорда, для того чтобы этому закону подчинялся и массив результатов умножения. Другими словами, закон Бенфорда настолько заразителен, что наличие в мультипликативной цепочке единственного массива данных, удовлетворяющего ему, влияет на общий результат. Поскольку многие явления (такие как цены акций, численность населения, длина рек и т. д.) формируются под воздействием повышения или снижения различных показателей, обусловленного множеством независимых случайных факторов, это объясняет широкую распространенность неравномерного распределения первых цифр.

Самая известная теорема Теда Хилла гласит:

Если взять случайные выборки из случайным образом выбранных массивов данных, то чем больше количество массивов и выборок, тем ближе к закону Бенфорда будет распределение первых цифр в смешанной выборке.

Эта теорема позволяет определить, когда может иметь место закон Бенфорда. «Если предположение о том, что несмещенные случайные выборки взяты из случайных распределений верно, тогда эти данные должны полностью подчиняться закону Бенфорда», – утверждает Тед. Этот вывод объясняет, почему газеты так хорошо иллюстрируют действие закона первой цифры. Числа, которые появляются в новостях, – это, по сути, произвольные выборки, взятые из случайных массивов данных, таких как цены акций, температура воздуха, распределение голосов во время выборов или результаты лотереи. Хотя многие из этих массивов данных могут не удовлетворять закону Бенфорда, чем больше массивов мы проанализируем и чем больше выборок включим в анализ, тем ближе к распределению Бенфорда будет смешанная выборка. Если продолжать процесс до бесконечности, смешанные выборки будут подчиняться закону Бенфорда с точностью до 100 процентов.

Я спросил Теда, есть ли у его теоремы простое интуитивное объяснение. В ответ он покачал головой. Тед доказал эту теорему, применив эргодическую теорию – передовую область науки, которая представляет собой сочетание теории вероятности и статистической физики и изучается только в аспирантуре. Несмотря на достаточно понятную формулировку, у теоремы нет простого доказательства. «Во всяком случае, такое доказательство не обнаружено», – поясняет Тед.

Тем не менее работа Теда Хилла дает математическое обоснование для использования закона Бенфорда при рассмотрении судебных дел. Впоследствии к Теду начали обращаться за советом ученые, которые хотели знать, соответствуют ли их данные закону первой цифры. По словам Хилла, самая необычная просьба поступила от одной христианской организации. В ней обнаружили, что процентное содержание различных минералов в морской воде и земной коре подчиняется закону Бенфорда. Это открытие так поразило и удивило ее членов, что, по их словам, это мог быть только продукт разумного замысла. Так не согласится ли Тед выступить в рамках их кампании за преподавание учения о сотворении мира в техасских школах?

Теду нравилось выискивать примеры действия закона Бенфорда в чистой математике.

Последовательность, каждый член которой в два раза больше предыдущего:

1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024…

Последовательность, каждый член которой в три раза больше предыдущего:

1, 3, 9, 27, 81, 243, 729, 2187, 6561, 19 683…

Последовательность, каждый член которой поочередно умножается на два и на три:

1, 2, 6, 12, 36, 72, 216, 432, 1296, 2592, 7776, 15 552…

Все эти последовательности подчиняются закону Бенфорда.

То же самое можно сказать и о последовательности чисел Фибоначчи, в которой каждое следующее число представляет собой сумму двух предыдущих:

1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144…

Чем больше членов последовательности вы анализируете, тем ближе распределение первых цифр чисел, входящих в нее, к распределению Бенфорда.

Тед также доказал, что любая последовательность, которая начинается со случайного числа и формируется по принципу «удвоить и прибавить 1», соответствует закону Бенфорда. То же самое касается и любой последовательности, начинающейся с произвольного числа и формирующейся по принципу «возвести в квадрат». Но, когда Тед приступил к анализу последовательности чисел, построенной по принципу «возвести в квадрат и прибавить 1», он обнаружил нечто неожиданное.

«С какого бы числа ни начиналась такая последовательность, она почти всегда подчиняется закону Бенфорда. Однако при некоторых исходных числах этого не происходит, причем найти эти числа довольно трудно. Сперва мне казалось, что их нет. Я думал: “Этого не может быть! Это просто невозможно!” Но мы все же нашли одно число, обладающее поразительным свойством: когда оно является первым членом последовательности, в которой каждый следующий член на единицу больше квадрата предыдущего, то каждое число такой последовательности начинается с цифры 9. Это просто невероятно. Это сбой в системе».

Вот это число: 9,94962308959395941218332124109326…

На самом деле для последовательности чисел, сформированной по принципу «возвести в квадрат и прибавить 1», существует бесконечное множество таких исходных чисел, но они размещены на цифровой оси настолько редко, что вероятность выбрать какое-то из них случайным образом равна нулю. По словам Теда, у закона Бенфорда масса секретов, которые еще предстоит открыть.

Закон Бенфорда – один из самых ярких примеров того, как процесс, в котором фигурирует большое количество неизвестных случайных факторов, может образовать очень простую числовую закономерность. Точная последовательность событий, приводящих к росту или падению курса акций или увеличению численности населения города, может оказаться слишком сложной для понимания, но результат этих событий хорошо упорядочен и довольно прост. Не исключено, что у нас не получится составить прогноз в отношении курса конкретных акций или численности населения определенного города, но мы можем быть уверены в одном: в целом эти показатели всегда подчиняются закону Бенфорда.

В книгах тоже часто встречаются простые числовые закономерности. Возьмем в качестве примера книгу Джеймса Джойса Ulysses («Улисс»){9}9
  Джойс Дж. Улисс. М.: Иностранка, 2013.


[Закрыть]
. В 40-х годах ХХ столетия исследователи Висконсинского университета на протяжении четырнадцати месяцев составляли список слов, которые использовались в этой книге[33]33
  Miles L. Hanley, Word Index to James Joyce’s Ulysses, University of Wisconsin Press, 1953.


[Закрыть]
. Они напечатали ее на гуммированной бумаге, вырезали отдельные слова и наклеили их на тысячах отдельных листков. Затем упорядочили эти слова по убыванию частоты их встречаемости в тексте. Полученные данные представляли интерес не только для студентов, изучающих лингвистику, но и для психологов, работающих с лексическими ассоциациями, а также для таких нестандартно мыслящих ученых, как профессор Гарвардского университета Джордж Кингсли Ципф, который выявил потрясающую закономерность[34]34
  George Kingsley Zipf, Human Behavior and the Principle of Least Effort, Addison-Wesley, 1949.


[Закрыть]
.


Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.

Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:

частота × ранг = 26 500

Эту формулу можно привести к такому виду:


В общем виде данное уравнение выглядит так:


Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в n раз больше, то частота его использования в n раз меньше.

Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:


Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме xy, мы говорим «x в степени y», и это значит, что число x умножается само на себя y раз. Как мы знаем со школьных лет, 42 = 4 × 4, а 23 = 2 × 2 × 2. Однако число y может быть не только целым числом. Следовательно, 21,5 означает, что число 2 умножается само на себя 1,5 раза, а это равно 2,83. Чем ближе значение числа y к 1, тем ближе xy к числу x.)


    Ваша оценка произведения:

Популярные книги за неделю