355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Пере Грима » Том13. Абсолютная точность и другие иллюзии. Секреты статистики » Текст книги (страница 4)
Том13. Абсолютная точность и другие иллюзии. Секреты статистики
  • Текст добавлен: 14 сентября 2016, 22:35

Текст книги "Том13. Абсолютная точность и другие иллюзии. Секреты статистики"


Автор книги: Пере Грима


Жанр:

   

Математика


сообщить о нарушении

Текущая страница: 4 (всего у книги 8 страниц)

* * *


«Живая» гистограмма. Каждый человек стоит в колонне, соответствующей его росту.

(источник: Эдвард Тафти. Наглядное отображение количественной информации. Цитируется работа Brian L. Joiner «Living Histograms», опубликованная в 1975 году в журнале International Statistical Review.)

Есть и еще одна причина, по которой нормальное распределение играет столь значительную роль. Очень часто в статистических исследованиях основное внимание уделяется средним значениям: анализируется средняя урожайность в зависимости от использованного удобрения, среднее значение выборки сравнивается с предполагаемым средним значением генеральной совокупности и так далее. Средние значения варьируются в зависимости от того, каким образом была взята выборка. Их вариацию на практике можно описать с помощью закона нормального распределения, даже если исходные данные генеральной совокупности не подчиняются этому закону. Например, число очков, выпадающее при броске игральной кости, совершенно не подчиняется закону нормального распределения. Это дискретное распределение с шестью возможными значениями: 1, 2, 3, 4, 5 и 6. Вероятность выпадения каждого из них одинакова. Если мы бросаем два кубика и анализируем среднее число выпавших очков, то частота выпадения различных средних значений уже не будет одинаковой.

Наиболее вероятно, что среднее значение будет равно 3,5. Если мы бросаем четыре кубика, то столбиковая диаграмма, представляющая вероятность возможного среднего числа выпавших очков, будет напоминать колокол Гаусса. Если мы будем бросать 10 кубиков, что равносильно взятию выборки величиной 10, то на диаграмме будет очевидно вырисовываться колокол Гаусса. Таким образом, распределение средних значений подчиняется нормальному закону.


Распределение средних значений стремится к нормальному, хотя исходные значения не подчиняются нормальному закону.

Тем не менее хотя этот закон распределения встречается очень часто, название «нормальный» – не самое удачное: можно подумать, что остальные чем-то необычны. Однако это название используется повсеместно, при этом некоторые предпочитают назвать его гауссовым распределением.

Если исходные данные по своей природе подчиняются нормальному закону (это также можно проверить графически или с помощью тестов), то их распределение полностью описывается всего двумя величинами: средним арифметическим, которое определяет центр колокола Гаусса, и среднеквадратическим отклонением, которое определяет форму колокола.


Среднее значение и среднеквадратическое отклонение – две величины, характеризующие нормальное распределение.

Если вес мешков с сахаром подчиняется нормальному закону, среднее значение равно 1000 г, среднеквадратическое отклонение – 5 г, то можно рассчитать, сколько мешков будут иметь вес свыше 1010 г, сколько – от 995 до 1010 г или менее 995 г. До недавнего времени для этого требовалось выполнять расчеты и сверяться со специальными таблицами (которые до сих пор включаются в некоторые учебники по статистике), но сегодня все расчеты можно выполнить автоматически с помощью электронных таблиц Excel. Например, вероятность того, что мешок сахара весит меньше 995 г, равна


Заметим, что приблизительно 16 % мешков имеют вес менее 995 г, но о весе конкретного мешка ничего определенного сказать нельзя. По этой же причине можно говорить об ожидаемой продолжительности жизни населения, но не о конкретной дате смерти отдельного человека.

Также существуют правила, основанные на том, что вне зависимости от среднего значения (μ, читается «мю») и среднеквадратического отклонения (σ, читается «сигма») 68 % значений будут лежать в интервале μ ± σ, 95 % – в интервале μ ± 2σ, 99,7 % – в интервале μ ± 3σ. Так, в прошлом примере среднее значение μ = 1000, среднеквадратическое отклонение σ = 5. В интервале 995—1005 будет лежать 68 % результатов. Следовательно, в этот интервал не попадает 32 % значений, по 16 % с каждой стороны. Это означает, что 16 % мешков будут иметь вес меньше 995 г.


Это правило также можно использовать для интерпретации среднеквадратического отклонения. Если мы рассмотрим распределение роста людей, среднее значение может равняться 170 см. В этом случае среднеквадратическое отклонение должно лежать в интервале 6–7 см, так как 1 или 2 % населения гарантированно имеют рост выше 190 см. Следовательно, это значение превышает среднее на три среднеквадратических отклонения.

Другие виды распределения. Рассуждения о «теоретических» моделях

Существуют и другие законы распределения вероятностей. Например, если случайная величина является непрерывной и все ее значения равновероятны, распределение называется равномерным. Когда мы используем функцию «=СЛЧИС ()» в Excel для генерации случайных чисел, результаты подчиняются именно этому закону. Существует много других законов распределения. На следующей иллюстрации показаны законы распределения, включенные в пакет статистических программ Minitab.


Распределения вероятностей, для которых можно вычислить вероятности напрямую с помощью пакета статистических программ Minitab.

Однако не следует путать модель с реальностью. Например, сфера очень часто встречается во Вселенной, но не существует объектов идеально сферической формы. Зачем же тогда нужны формулы вычисления площади поверхности или объема сферы? Они позволяют получить достаточно точные значения для применения на практике. Это же справедливо и для законов распределения вероятностей.

Один из самых часто используемых примеров нормального распределения – распределение роста людей. Однако если мы возьмем точные данные о росте миллиона взрослых жителей нашей планеты, то увидим, что они не подчиняются нормальному распределению с абсолютной точностью. Этого не произойдет и в том случае, если мы разделим людей на группы в зависимости от пола, расы и других характеристик.

Нормальное распределение – это качественная модель, которая позволяет с достаточной степенью точности оценить рост людей. Тем не менее это всего лишь модель, которая не полностью соответствует реальности. Это же справедливо и для других законов распределения вероятностей, так как на практике гипотезы не выполняются с абсолютной точностью. Все эти законы описывают лишь теоретические модели (определение «теоретическая» для модели является излишним), которые тем не менее крайне полезны.


Занимательные задачи: удивительные вероятности

Задачи теории вероятностей могут быть достаточно сложными, даже несмотря на относительную простоту формулировки (какова вероятность того, что в выигрышной комбинации национальной лотереи встретятся два последовательных числа?). Интерес представляют необычные вероятности, которые часто противоречат тому, что подсказывает нам интуиция. В то же время сложные задачи нетрудно решить, применив немного воображения. Рассмотрим несколько примеров.

Ложноположительные результаты обследования

При медицинском осмотре у человека нашли заболевание, которое встречается всего у 1 % населения. В 5 % случаев результат обследования является ложноположительным (обследование показывает, что человек болен, когда в действительности он здоров). Какова вероятность того, что этот человек действительно болен?

Вы можете подумать, что ответ – 95 %, но это неверно. Истинная вероятность намного меньше. Из каждой 1000 результатов 50 являются ложноположительными (5 %), 1 – истинно положительным. На каждый 51 положительный результат приходится лишь один истинно положительный. Значит, вероятность того, что пациент действительно болен, равна всего 1/51, то есть немного меньше 2 %.

Задача о днях рождения

В группе 30 студентов. Какова вероятность того, что два студента или более отмечают день рождения в один и тот же день?

Многие считают, что эта вероятность невелика, но в действительности она не настолько мала, как может показаться. Сначала нужно вычислить вероятность того, что два человека родились в разные дни. Первый из них может родиться в любой день года (365 благоприятных исходов из 365 возможных), второй может родиться в любой день за исключением того дня, в который родился первый (364 благоприятных исхода из 365 возможных):

Аналогично можно вычислить вероятность того, что три человека родились в разные дни:

Вероятность того, что все 30 студентов родились в разные дни, будет равна:

Существует всего два возможных случая: либо все студенты родились в разные дни, либо минимум двое из них родились в один и тот же день. Следовательно, вероятность того, что как минимум два студента празднуют день рождения в один и тот же день, равна

* * *

СОВПАДАЮЩИЕ ДНИ РОЖДЕНИЯ

Это может показаться удивительным, но вероятность того, что в группе из 23 человек двое или более отмечают день рождения в один и тот же день, немного больше 50 % (вероятность равна 50,7 %). Если приведенные рассуждения кажутся вам неубедительными, рассмотрим разные группы из 23 человек. Проблема заключается в том, как найти такие группы людей и узнать дату рождения каждого из них. Тем не менее эту проблему можно решить.

На футбольном поле одновременно находятся 23 человека (11 + 11 + 1 судья). Стартовые составы команд и даты рождения всех игроков нетрудно найти в Интернете. Сказано – сделано[1]1
  В данном случае «сказать» намного легче, чем «сделать». Автору помогла его студентка Филипа да Силва.


[Закрыть]
.

Рассмотрим матчи первого тура первого дивизиона чемпионата Испании по футболу 2010 года (матчи игрались 3 января). Из 10 матчей в 5 на поле выходили игроки, отмечающие день рождения в один и тот же день, а именно:



Однако не стоит думать, что если вероятность равна 50 %, то на 10 исходов обязательно будет приходиться 5 благоприятных, ведь при 10 бросках монеты решка необязательно выпадает 5 раз. Вероятности таковы:


* * *

В группе из 30 человек двое или больше родились в один день с вероятностью порядка 70 %. В группе из 23 человек эта вероятность несколько больше 30 %, в группе из 40 человек она составляет порядка 89 %.


Вероятность того, что в группе людей два человека или более родились в один день, зависит от размера группы.

Возможен и другой вариант этой задачи, обратный исходному: какова вероятность того, что в группе из 30 человек два человека или более умрут в один день (но необязательно в один и тот же год)?

Выигрышная комбинация выпадает дважды

Рассмотрим еще один удивительный пример из теории вероятностей. Один человек всю взрослую жизнь (допустим, 30 лет) играет в лотерею. Если каждую неделю разыгрывается два тиража, какова вероятность того, что за этот период одна и та же выигрышная комбинация выпадет больше одного раза?

Существует множество различных лотерей, но, как правило, выбираются 6 чисел от 1 до 49. Число возможных комбинаций в тираже равно 13 983 816 (это число сочетаний из 49 по 6), и лишь одна является выигрышной.

Допустим, что этот человек играет 100 раз в год, 3000 раз на протяжении всей жизни. Задача аналогична задаче о днях рождения, только в этом случае в «году» 13983816 дней, а группа состоит из 3000 человек, каждый из которых родился в один из этих дней. Какова вероятность того, что два человека или более родились в один и тот же день? Применив формулы из предыдущей задачи (здесь нам не обойтись без электронных таблиц), получим, что искомая вероятность равна 59 %. Поэтому неудивительно, если за этот период одна и та же выигрышная комбинация действительно выпадет дважды.

Последовательные числа в билетах национальной лотереи

В завершение этого раздела попробуем ответить на вопрос, которым вы наверняка задавались. Какова вероятность того, что в выигрышной комбинации лотереи выпадут два последовательных числа?

Она намного выше, чем может показаться, и равна 49,5 %. Вычислить точное значение с помощью формул комбинаторики не так-то просто, но порядок этой величины можно оценить с помощью Excel.

Для этого нужно выполнить следующие действия.

1. Расположить числа от 1 до 49 в столбце А.

2. Поместить случайные числа в столбец В.

3. Упорядочить столбец В, после чего порядок чисел в столбце А также изменится.

4. Числа в столбце А упорядочены случайным образом. Скопируйте первые шесть значений в столбец С. Эти числа составят выигрышную комбинацию.

5. В столбец D поместите 15 абсолютных значений разницы между числами выигрышной комбинации. В столбце на следующем рисунке представлены формулы, по которым рассчитываются значения в столбце D.


6. В первую строчку столбца Е поместите наименьшее значение из столбца D. Если это значение равно 1, это означает, что выигрышная комбинация содержит последовательные числа.

Выполнив эти действия, измените порядок чисел в столбце В, что снова повлечет изменение порядка чисел в столбце А. Результатом будет новая выигрышная комбинация, и все остальные числа пересчитаются автоматически. Excel удобен тем, что можно выполнить все необходимые действия один раз, а затем нажать клавишу F4, и все действия выполнятся заново. Можно проверить, что число 1 встретится в столбце Е примерно в половине случаев.

Если вам знаком какой-либо язык программирования, вы можете написать небольшую программу для симуляции розыгрыша лотереи и подсчитать, сколько раз выпадут последовательные числа.

Также можно обратиться к результатам прошлых тиражей. Результаты испанской национальной лотереи опубликованы на странице Государственной организации лотерей (www.onlae.es). Начиная с первого розыгрыша, о котором имеются данные, прошедшего 17 октября 1985 года, до 31 декабря 2009 года было проведено 2245 тиражей, в 1148 из которых (50,14 %) в выигрышной комбинации встречаются последовательные числа.

Последний аккорд: 22 августа 2002 года выигрышной комбинацией была последовательность 13, 21, 24, 26, 32 и 34. 10 декабря 2009 года… точно такая же! Это не так уж удивительно – вероятность подобного совпадения в 2245 тиражах равна 16,5 %.

Глава 3
Как представить целое, зная лишь его часть

Одна из наиболее типичных задач статистики – сделать выводы о целом на основании данных о его части. Это целое называется генеральной совокупностью. Генеральная совокупность может представлять собой множество рыб в озере, множество изделий, выпущенных заводом за последний год, множество жителей, имеющих право голоса на ближайших выборах, или множество людей, страдающих от определенного заболевания.

Тщательное изучение генеральной совокупности возможно крайне редко. Опросить всех избирателей, чтобы узнать, за кого они будут голосовать на следующих выборах, нереально и также нереально опросить всех, кто болеет определенной болезнью, чтобы узнать, как подействовало новое лекарство. Конечно, если нас интересует прочность изготовленных изделий, которую нельзя определить, не разрушив изделие, то можно разрушить все произведенные изделия, чтобы определить прочность каждого, но такой подход не выглядит самым разумным.

Вместо этого изучается часть генеральной совокупности, которая называется выборкой. На основе результатов, полученных при изучении выборки, оцениваются характеристики генеральной совокупности. Правила вычисления вероятностей позволяют нам получить информацию о качестве этой оценки с помощью ряда понятий, в частности «доверительный интервал» и «предельная ошибка».

Очевидно, что наши выводы будут справедливы тогда и только тогда, когда выборка будет репрезентативной. Если она не является репрезентативной, то очевидно, что по ней нельзя будет сделать какие-либо выводы о генеральной совокупности. В некоторых источниках повышенное внимание уделяется математическим аспектам (так как использование непонятных математических терминов – эффектный, хотя и дешевый прием), а способ формирования выборки не указывается. Правильное формирование выборки – достаточно дорогостоящий процесс, но этот аспект крайне важен, так как именно он гарантирует корректность выводов.


Оценка параметров генеральной совокупности с помощью репрезентативной выборки.


Сколько рыб в озере? Сколько машин такси в городе?

Далее мы рассмотрим два примера оценки параметров генеральной совокупности, в частности ее размера, с помощью выборок.

Рыбы

Подсчитать, сколько всего рыб в озере, непросто, особенно если озеро большое, а вода в нем мутная. Тем не менее биологи знают, как решить эту задачу. Разумеется, для этого нужно использовать методы статистики. Очень часто используется так называемый метод двойного охвата, который заключается в следующем.

1. Нужно выловить некоторое количество рыб, пометить их и выпустить обратно в озеро. Разумеется, ловить рыбу нужно так, чтобы не поранить ее. Для этого рыбу можно оглушить электрическим током. Метка не должна влиять ни на подвижность рыбы, ни на ее выживаемость. Также необходимо, чтобы метка сохраняла длительную устойчивость к воздействиям среды.

2. Должно пройти некоторое время (порядка нескольких дней), чтобы помеченные рыбы распространились по всему озеру. Затем нужно заново выловить определенное количество рыб (именно в этом заключается суть метода двойного охвата), необязательно такое же, как в первый раз.

3. Нужно произвести расчеты: если в озере N рыб, а мы пометили М из них, то соотношение помеченных рыб к общему их числу равно M/N. Объем повторно взятой выборки, которую можно считать репрезентативной выборкой рыбы в озере, равен С. Из С выловленных рыб R помеченных. Разумно предположить, что доля помеченных рыб во второй выборке равна доле помеченных рыб в озере, иными словами,

Таким образом, примерное число рыб в озере N равно

Рассмотрим пример с конкретными числами.

Сначала вылавливается и помечается М рыб (их можно считать случайной выборкой из N рыб, обитающих в озере). В нашем случае М = 13.


Мы выжидаем некоторое время, чтобы помеченные рыбы равномерно распределились по всему озеру, и вылавливаем С рыб, из которых имеют метку. В нашем случае С = 15, = 3.


Произведем вычисления. Число рыб в озере примерно равно:

N = M·C/R = 15·15/3 = 75


Но что означает «примерно равно»? Если вы подсчитаете число рыб на рисунке в нашем примере, то увидите, что их всего 67. Следовательно, погрешность в расчетах составляет 12 %. Эта ошибка больше или меньше, чем следовало ожидать? Какова возможная величина ошибки при использовании этого метода?

Статистика отвечает на эти вопросы, используя разумные предположения и математические инструменты. Однако чтобы получить достаточно точный результат, мы можем прибегнуть к помощи небольшой компьютерной программы, моделирующей вылов рыбы из озера. Мы можем повторить вышеописанные действия произвольное число раз и на основе примерной оценки числа рыб, полученной при каждом моделировании, оценить величину ошибки и частоту, с которой они возникают.

Если мы будем использовать те же числа, что и в нашем примере, то увидим, что в 85 % случаев число помеченных рыб во второй выборке будет варьироваться от 2 до 5. Используя выведенную нами формулу, получим, что число рыб в озере лежит в интервале от 45 до 112. В 15 % случаев число рыб будет лежать вне этого интервала.


Распределение числа помеченных рыб в повторной выборке (моделирование было выполнено 10 000 раз).

Оценка числа рыб бывает чаще избыточной, чем недостаточной. Среднее оценочное значение 82 также больше фактического числа рыб в озере. В этом случае говорят, что оценка является смещенной и не отражает истинного значения оцениваемой величины.

Оценка существенно улучшится, если внести в формулу небольшие изменения. Проблема в том, что объяснить, почему следует внести именно эти поправки, достаточно сложно.

Выполнив расчеты с помощью этой формулы, получим, что если в повторной выборке встретилось 2 помеченных рыбы, то оценка общего числа равна 85, если число помеченных рыб равно 5, то оценка общего числа равна 42. Следовательно, в 85 % случаев оценка численности рыб будет лежать в интервале от 42 до 85. Кроме того, в 27 % случаев число помеченных рыб будет равно 3, что соответствует числу в 64 рыбы, и это очень близко к истинному значению. Эта оценка является несмещенной: если мы повторим вышеописанные действия множество раз, то средняя оценка будет совпадать с истинным значением.

Также можно ввести поправочные коэффициенты, если вы считаете, что вероятность вылова разных рыб отличается, метка влияет на выживаемость рыб или метка может стираться. Эта тема очень подробно изучена и описана в книгах по экологии. Также это прекрасный пример того, как статистика может решать задачи, которые кажутся крайне сложными или вовсе невозможными.

Такси

Подсчитать число такси в городе намного проще, чем количество рыб в озере. Можно начать с поиска этой информации в Интернете. Так, например, на сайте администрации крупного города может быть указано, что общее число выданных лицензий равно 10481. Каждая лицензия соответствует одному автомобилю. Задача решена.


Однако если эта информация недоступна в Интернете, можно воспользоваться методами статистики. Номер лицензии написан на каждом автомобиле такси. Максимально возможным номером является число выданных лицензий. Когда мы покупаем новый автомобиль, нам выдается новый номер (следующий за последним выданным), а номер старого автомобиля уничтожается.

Однако с номером лицензии такси дело обстоит иначе (возможно, с некоторыми исключениями): число лицензий фиксировано, и если кто-то хочет приобрести ее, то может купить только у одного из ее нынешних обладателей. Номер лицензии при этом не изменится. Это значительно упрощает подсчеты. Не пользуясь ни телефоном, ни Интернетом, постояв в центре города всего 10 минут, можно очень точно определить число такси в городе. Посмотрим, как это делается.

Допустим, мы выбрали из генеральной совокупности следующие значения: 8, 14, 22, 27 и 35. Попробуем оценить число элементов генеральной совокупности на основе этой выборки. Оно будет однозначно больше 25, так как выборка содержит число 35, и крайне маловероятно, что оно будет равно 1000, так как все пять случайно выбранных элементов генеральной совокупности достаточно невелики. Точная оценка будет примерно равной 40 или 50.

Первое правило для оценки числа элементов генеральной совокупности может быть таким: общее число элементов в два раза больше среднего значения минус 1. Например, если генеральная совокупность состоит из 10 элементов 1, 2, 3, 4, 5, 6, 7, 8, 9 и 10, то среднее значение будет равно 5,5, а общее число элементов – 2·5,5–1. Если – среднее значение генеральной совокупности из N последовательных чисел, начинающихся с 1, то всегда выполняется следующее соотношение:

N = 2– 1

Если мы применим эту формулу к вышеприведенным данным о выборке, получим, что ее среднее значение равно 21,2, а примерное число элементов генеральной совокупности составит 2·21,2–1  41. Эта оценка очень близка к той, что мы предположили изначально.

Однако эта формула имеет один очень важный недостаток. Предположим, даны числа 3, 4, 6 и 15. Их среднее значение равно 7, а оценка общего числа элементов равна 13. Это очевидно неверно, так как выборка содержит число 15, следовательно, генеральная совокупность содержит минимум 15 элементов. Забавно, что результаты, полученные с помощью сложных методов, нередко противоречат элементарному здравому смыслу. Нужен иной способ. В действительности, чтобы определить общее число элементов совокупности в нашем примере, достаточно знать, сколько значений больше 35.


Достаточно разумный вариант – руководствуясь соображениями симметрии, предположить, что после последнего элемента находится столько же элементов, сколько перед первым. В нашем примере мы сложим 7 и 35 и получим примерное число элементов генеральной совокупности – 42. Этот метод неудобен тем, что мы не учитываем элементы, расположенные между элементами выборки. Между тем всегда следует использовать всю доступную информацию. Для этого мы добавим к последнему значению в выборке среднее расстояние между элементами выборки (первое расстояние будет равно числу элементов совокупности перед первым элементом выборки).


В нашем случае это среднее расстояние будет равно:

(7 + 5 + 7 + 4 + 7)/5 = 6

Следовательно, оценка общего числа элементов совокупности равна 41. Пусть х1, x2…, хn – значения, расположенные на 1, 2, n-м местах. В этом случае среднее расстояние, которое нужно прибавить, будет вычисляться по формуле:

Нетрудно видеть, что эта формула равносильна следующей:

(xn/n) – 1

Следовательно, более точную оценку общего числа элементов генеральной совокупности можно вычислить по формуле:

Насколько точна эта оценка? С помощью методов математической статистики можно доказать, что она является максимально точной из возможных. На языке специалистов такая оценка называется равномерно несмещенной оценкой с минимальной дисперсией.

Таким образом, нам достаточно записать номера лицензий 20 такси, прибавить к наибольшему из них его же значение, поделенное на 20, и вычесть 1. В нашем примере, если число лицензий равно 10481 и они пронумерованы последовательными числами, то в 95 % случаев оценка, выполненная по этой формуле, будет лежать в интервале от 9175 до 10990.

Очевидно, что этот метод подходит не только для подсчета числа такси в городах. Его также можно использовать, например, чтобы определить число участников массового забега, если всем им выданы последовательные номера. Службы разведки в прошлом посредством похожих методов оценивали вооружение врага. Мы знаем, что оружие имеет табельный номер, поэтому достаточно каким-то образом заполучить лишь несколько единиц, чтобы оценить общее количество оружия.


Какова доля домохозяйств, подключенных к Интернету?

Сначала нужно уточнить определения: что мы будем считать домохозяйством и подключением к Интернету. Нет смысла производить подробные расчеты, если нам неизвестно точное значение используемых понятий.

В одном газетном заголовке утверждалось, что половину сигарет выкуривают люди с психическими расстройствами. Это звучало так, будто половина курильщиков – ненормальные, что выглядит явным преувеличением. Однако в тексте заметки под психическим расстройством понималась зависимость от какого-либо вещества, поэтому не половину, а почти все сигареты выкуривают люди, страдающие от никотиновой зависимости, следовательно, имеющие «психическое расстройство». Многие слова, которые мы произносим в повседневной жизни, неоднозначны. Одно из таких слов – «семья». Что такое семья? Муж, жена и их дети? А если вместе с ними живут бабушка и дедушка, их следует считать членами семьи? Достаточно странно определять принадлежность человека к семье по тому, в каком доме он живет. Семью можно понимать и в более широком смысле, как, например, на свадьбах, где «семья невесты» и «семья жениха» насчитывают по несколько десятков гостей.

* * *

ОЦЕНКА ВЫИГРЫШНОЙ КОМБИНАЦИИ НАЦИОНАЛЬНОЙ ЛОТЕРЕИ

Нам прекрасно известно, что все числа национальной лотереи выпадают с одинаковой вероятностью. Но что можно сказать о среднем значении чисел выигрышной комбинации? 7 января 2010 года выигрышная комбинация испанской национальной лотереи состояла из следующих чисел: 19, 24, 25, 38, 43 и 49, их среднее значение равно 33. В субботу, 9 января, выпали числа 13, 26, 29, 30, 31 и 43; их округленное среднее значение равно 29. Все ли средние значения выпадают с одинаковой вероятностью или некоторые из них встречаются чаще, чем другие?

Определенные средние значения действительно встречаются чаще, поскольку, как мы объяснили в предыдущей главе, средние значения подчиняются закону нормального распределения. На следующей гистограмме представлено среднее значение чисел выигрышных комбинаций всех лотерей, начиная с 17 октября 1985 года и заканчивая 31 декабря 2009 года:


Средние значения чисел в выигрышных комбинациях.


Среднее значение будет с намного большей вероятностью лежать между 20 и 30, чем между 5 и 15. Почему бы нам не выбирать только те комбинации, в которых среднее значение чисел лежит в промежутке от 20 до 30? Ведь таких комбинаций намного больше, и вероятность того, что одна конкретная комбинация окажется выигрышной, всегда одинакова. Иными словами, если в розыгрыше участвует 1000 номеров, то какое число выпадет с большей вероятностью: лежащее в интервале от 500 до 550 или же число, лежащее вне этого интервала? Очевидно, что с большей вероятностью выпадет число вне этого интервала, но это не означает, что конкретное число внутри этого интервала выпадет с меньшей вероятностью, чем конкретное число вне этого интервала.

* * *

Равносильны ли понятия «дом» и «домохозяйство»? Очевидно, нет, так как если в доме никто не живет, он не является домохозяйством. Домохозяйством также нельзя считать дом, где кто-то живет только по выходным или в сезон отпусков. Является ли домохозяйством квартира, где живут студенты в течение учебного года? Связаны ли понятия «домохозяйство» и «семья»? Следовательно, необходимо четко сформулировать, что такое домохозяйство.

Определение подключения к Интернету представляет меньше трудностей, так как способ подключения, будь то ADSL-модем или оптический кабель, не имеет значения. Однако некоторые домохозяйства используют незащищенное беспроводное соединение соседей или бесплатное подключение из соседней библиотеки или кафе. Следует ли считать, что эти домохозяйства подключены к Интернету, или же нужно учитывать только тех, кто платит за подключение?


ДОМОХОЗЯЙСТВО, социально-экон. ячейка, объединяющая людей отношениями, возникающими при организации их совместного быта: ведении общего домашнего хозяйства, совместном проживании и т. д. В отличие от семьи, отношения родства или свойства между членами одного Д. необязательны: оно может включать жильцов, пансионеров, прислугу и других, а также состоять из одного человека, живущего самостоятельно.

Словарное определение понятия «домохозяйство».

Будем считать домохозяйством дом или квартиру, где большую часть года проживает один или несколько человек, связанных родственными отношениями. Будем предполагать, что домохозяйство подключено к Интернету, если подключение находится под его контролем и может быть отключено или подключено в любой момент.

Если мы возьмем выборку в 1000 из 100000 домохозяйств и в нашей выборке 51,9 % домохозяйств будут подключены к Интернету, значит ли это, что точно таким же будет процент для всей генеральной совокупности? Очевидно, что это необязательно так. Если мы сформируем другую выборку, также случайным образом, то результат, вероятно, будет отличаться, например он может быть равен 50,7 или 52,3 %.

По этой причине в представление результатов подобных исследований входит не только примерное значение, но и предельная ошибка. Например, результат оценки может быть равен (51,9 ± 2,3) %. Эти 2,3 %, которые мы прибавляем и вычитаем, и называются предельной ошибкой средней величины. Это означает, что мы получили конкретное значение, но не можем быть до конца уверены, что доля генеральной совокупности точно равна этому числу. Теория вероятностей позволяет определить точность, с которой произведена оценка, и вычислить предельную ошибку средней величины (исходные значения подчиняются закону биномиального распределения: мы анализируем конкретное домохозяйство и можем получить один из двух результатов – домохозяйство подключено к Интернету либо нет).


    Ваша оценка произведения:

Популярные книги за неделю