355 500 произведений, 25 200 авторов.

Электронная библиотека книг » Пере Грима » Том13. Абсолютная точность и другие иллюзии. Секреты статистики » Текст книги (страница 2)
Том13. Абсолютная точность и другие иллюзии. Секреты статистики
  • Текст добавлен: 14 сентября 2016, 22:35

Текст книги "Том13. Абсолютная точность и другие иллюзии. Секреты статистики"


Автор книги: Пере Грима


Жанр:

   

Математика


сообщить о нарушении

Текущая страница: 2 (всего у книги 8 страниц)

Графики роста девочек (вверху) и мальчиков (внизу) в возрасте от 5 до 19 лет, составленные Всемирной организацией здравоохранения, с медианой и 3-й, 15-й, 85-й и 97-й перцентилями.



Проценты: выглядят безобидно, но на самом деле опасны

Чтобы выделить какой-либо важный аспект множества данных, используются проценты («65 % подростков в возрасте от 10 до 17 лет признаются, что пользовались видеоиграми для взрослых»), но в книгах по статистике эта тема не рассматривается: считается, что она либо выходит за рамки статистики, либо слишком проста и поэтому не заслуживает упоминания. Знак процента можно встретить на простейших калькуляторах. Кажется, что процентами может оперировать любой, однако они часто вызывают путаницу, поэтому будет нелишним рассказать о них подробнее.

Общие вопросы

Нужно всегда помнить, от какой величины рассчитывается процент. Рассмотрим пример. Гель для душа раньше продавался в бутылках по 750 мл, теперь же – в бутылках по 1000 мл по той же цене. Сколько процентов вы получаете в подарок?

Правильный ответ зависит от того, от какого значения будет рассчитываться процент. Мы получаем бесплатно 33 % от исходного объема и 25 % от нового.

Также следует различать проценты и процентные пункты. Так, если прибыль предприятия возросла с 2 до 4 %, то говорят, что она возросла на 2 процентных пункта (но не на 2 %!).

Аналогично нужно различать проценты от исходной величины и проценты ее изменения. Лучше понять это различие вам поможет следующий пример. Объем продаж в прошлом году составил 10 миллионов евро. Цель на текущий год – увеличение объема продаж на 6 %. Объем продаж в нынешнем году составил 10,3 миллиона евро. На сколько процентов продавец выполнил намеченную цель?

Если целью продавца является рост дохода, то она выполнена всего на 50 %. Однако если мы будем считать целевым значением объем продаж в 10,6 миллиона, а фактическим – 10,3, то получается, что цель выполнена на 97,2 %.

Операции с процентами также стоит выполнять очень внимательно.

1. Если цена товара увеличилась на 20 %, а затем снизилась на 20 %, каким будет соотношение начальной и конечной цены? Цена товара изменится: она уменьшится на 4 %. Обозначив исходную цену за х, получим, что итоговая цена равна (х + 0,2х) – 0,2(х + 0,2х) = х – 0,04х.

2. Товар состоит из 10 компонентов. Стоимость каждого компонента возросла на 2 %. На сколько увеличится стоимость товара? Она возрастет на 2 %. Цена отдельных компонентов в этом случае не имеет значения. Если вы все еще сомневаетесь, выполните расчеты вручную и убедитесь в этом самостоятельно.

3. Если Иван зарабатывает на 1000 % больше Петра, он получает в 11 раз больше, а не в 10, как может показаться. Если он зарабатывает на 100 % больше, он получает в два раза больше, если на 200 % больше – то в три раза больше.

В действительности всё не так. Парадокс Симпсона

Когда приводятся проценты для нескольких групп, каждая из которых разбита на подгруппы, может показаться, что налицо определенная зависимость. Однако истинная зависимость будет прямо противоположной. Это явление известно под названием парадокс Симпсона. Рассмотрим пример.

Крупная компания открывает новый завод и создает 250 рабочих мест в службе продаж, монтажа и в складской службе. На рабочие места претендовали 355 мужчин и 325 женщин. Работу получили 190 мужчин (53,5 %) и 60 женщин (18,5 %). Уровень подготовки мужчин и женщин был абсолютно одинаков. Можно ли утверждать, что имеет место дискриминация женщин при приеме на работу? Нет, это не так. Исходные данные таковы:


В действительности процент принятых на работу в каждом отделе выше среди женщин. Причина в том, что в службе, куда было принято больше всего сотрудников, рабочие места получили много мужчин и мало женщин, а в других службах, где требовалось меньше сотрудников, ситуация была обратной.

В начале раздела мы приводили цитату о том, что 65 % молодых людей 10–17 лет пользовались видеоиграми для взрослых. Взята она из реального газетного заголовка. В статье объясняется, откуда взята цифра в 65 %: автор сложил положительные ответы 50 % юношей и 15 % девушек! Любопытно, каков был бы результат, если бы на этот вопрос положительно ответили 50 % юношей и 60 % девушек?


Графическое представление переменной

Решим еще одну задачу. Владелец пекарни обеспокоен тем, что, как ему кажется, вес готовых булок различается слишком сильно и некоторые булки могут весить меньше, чем допускается стандартом. Для выпечки используются две печи, в которых выпекают хлеб два оператора. В какие-то дни работает первый оператор, в какие-то – второй. В следующей таблице указан вес (в граммах) для выборки булок. Измерения производились в течение 20 дней:


Вес булки должен равняться (220 ± 10) граммов. Допустим, что представленная выборка является репрезентативной. Нужно ответить на вопросы, действительно ли существует проблема; что происходит; что нужно сделать, чтобы устранить проблему, если она вообще существует.

Если вы попытаетесь сделать какие-то выводы «на глаз» на основании данных, представленных в таблице, то, скорее всего, ошибетесь. Хотя речь идет всего о 160 значениях, выводы, сделанные «на глаз», скорее всего, будут неточными. Также не следует погружаться в объемные вычисления или использовать сложные методы. Достаточно представить данные графически, как показано далее.


Гистограмма веса 160 хлебобулочных изделий.

Эта диаграмма называется гистограммой. Она крайне полезна для анализа вариации данных.

В нашем примере гистограмма указывает, что проблема действительно существует, так как вес некоторых булок меньше минимально допустимого. Иными словами, речь идет не об исключениях, а о естественной вариации веса булок.

На следующих гистограммах представлены данные по каждой печи и по каждому оператору в отдельности. Из них четко видно, что неполадки присутствуют в печи № 2, так как центральное значение на соответствующей диаграмме смещено. С печью № 1 все в порядке, и данные для обоих операторов практически совпадают.


Вес булок для каждой печи и каждого оператора в отдельности.

Даже для очень малого объема данных, например для такого:

21,1; 17,8; 19,7; 18,6; 16,8; 21,7; 28,7; 20,1; 19,5; 17,8,

на простой точечной диаграмме видны подробности, которые можно упустить при простом анализе данных «на глаз». В этом случае видно, что одно значение существенно отличается от остальных, и следует проанализировать причины подобного отклонения (возможно, это простая опечатка: оператор ввел 28,7 вместо 18,7). Эти вопросы крайне важны, так как ошибка в исходных данных может перечеркнуть всю проделанную работу.


Представление множества данных с помощью точечной диаграммы.

Если мы хотим учесть порядок выборки данных, гистограммы и точечные диаграммы нам не помогут. Для этого нужно представить данные в виде временного ряда, как показано на следующем рисунке, где четко заметно увеличение среднего роста населения Испании на протяжении XX века. Разумеется, на основе графиков подобного типа нельзя делать экстраполяции: вовсе не факт, что через 1000 лет средний рост будет находиться у отметки 2 м 70 см.


Изменение среднего роста населения Испании в период с 1910 по 1982 год.

(Источник: X. СпийкерX. Перес и А. Камара. Изменение среднего роста населения Испании в XX веке по результатам исследования министерства здравоохранения. Журнал Estadistica Espahola, № 169, 2008 г.)

Помимо стандартных графиков, которые мы только что рассмотрели, круговых и им подобных диаграмм, можно использовать и другие, не столь известные. Существует, например, диаграмма «стебель – листья».

Рассмотрим практический пример. Группу из 92 студентов попросили измерить пульс. На гистограмме на следующей странице представлены полученные значения (все данные, использованные в этом примере, содержатся в файлах примеров пакета статистических программ Minitab).


Гистограмма и диаграмма «стебель – листья», на которых представлены данные о пульсе для группы из 92 студентов.

При построении диаграммы «стебель – листья» все значения делятся на две части. Наименее значимая часть (в этом случае единицы) образует «листья», другая (десятки и сотни) – «стебель». Наименьшим значением является 48, далее следует 54 и снова 54, затем три раза 58 и так далее до последнего значения, равного 100. Заметим, что строки диаграммы имеют ту же форму, что и столбцы гистограммы. Следовательно, диаграмма «стебель – листья» содержит информацию, представленную на гистограмме, и кроме этого обладает следующими свойствами.

1. Исходные данные можно восстановить. При взгляде на гистограмму можно увидеть, что существует значение в интервале между 45 и 50, но мы не можем сказать, чему оно равно. В диаграмме «стебель – листья» эта информация не теряется.

2. Диаграмма «стебель – листья» позволяет увидеть детали, которые остаются незамеченными на других графиках. Например, не следует думать, что студенты измеряли свой пульс в течение одной минуты. Если бы это было так, то примерно половина значений были бы четными, а половина – нечетными. Однако мы видим, что все значения четные. Это означает, что студенты измеряли пульс в течение 15 или 30 секунд, а затем умножали результат на 2 или на 4. Результаты, полученные таким образом, имеют большую погрешность по сравнению с результатами, полученными реальным измерением в течение одной минуты.

Иногда ученые разрабатывают особые диаграммы для определенных задач. В качестве примера можно привести диаграммы, которыми сопровождаются футбольные трансляции. С помощью ряда переменных на них отображается ход матча, указываются голевые моменты каждой команды, а также другая информация – от числа пасов в штрафную зону до забитых голов и незабитых пенальти.


Ход атак во время футбольного матча.

(источник: Elpais.com)

При построении графиков чаще всего используются компьютерные программы. Это могут быть пакеты статистических программ, программы для работы с электронными таблицами или системы обработки текстов.

Текстовый редактор, использованный при написании этой книги, позволяет с легкостью создавать и применять в расчетах диаграммы. С его помощью можно строить красивейшие трехмерные графики или простые плоские диаграммы. Нужно учитывать, что трехмерные диаграммы, как правило, более эффектны, но могут быть менее понятны. Тип диаграммы следует выбирать в зависимости от контекста и из соображений наглядности.


Графики, построенные в текстовом редакторе Word.

В завершение этого раздела, посвященного графическому представлению значений одной переменной, вернемся к нашему примеру с пекарней. Допустим, что в пекарне есть третья печь, для которой также были произведены измерения веса 80 готовых булок (столько же измерений было проведено для печи № 1). Как вы охарактеризуете вариацию веса хлеба, выпеченного в новой печи, по сравнению с печью № 1?


Как вы оцените печь № 3 по сравнению с печью № 1?

Если вам кажется, что вес хлеба, выпеченного в печи № 3, варьируется сильнее, чем вес хлеба, выпеченного в печи № 1, вы ошибаетесь. На обеих гистограммах представлено одно и то же множество данных. Они выглядят по-разному, так как был выбран разный масштаб. Вас сбил с толку выбранный способ представления данных. Мораль: при построении диаграмм для сравнения различных данных убедитесь, что диаграммы имеют одинаковый масштаб. Программа по умолчанию изменяет масштаб с учетом вариации данных. Нужно скорректировать масштаб вручную, иначе диаграммы будут неверно представлять данные и, образно говоря, вы попадете в сети, которые сами же и расставили.


Представление взаимосвязи между двумя переменными

Для представления связи между двумя переменными используются диаграммы, подобные следующей.


Соотношение цены и мощности двигателя 449 автомобилей с дизельным двигателем.

(источник: интернет-страница Королевского автомобильного клуба Испании, 10 ноября 2009 г., указанные параметры поиска: седан, дизель, 4 двери)

Можно заметить, что некоторые значения, например 150 л. с., встречаются чаще других. Также можно определить, какие автомобили дешевле аналогов с той же мощностью двигателя. Видна четкая взаимосвязь между переменными, но это не означает, что между ними существует причинно-следственная связь. Например, если мы построим подобный график, демонстрирующий связь ущерба, причиненного пожаром, с числом пожарных, задействованных при его тушении, станет очевидна четкая взаимосвязь: чем больше ущерб, тем больше пожарных, но это не означает, что ущерб причинили пожарные. Другой пример: школьники с большим размером ноги делают меньше орфографических ошибок, чем школьники с меньшим размером. В это трудно поверить, не так ли? Тем не менее чем старше дети, тем больше у них размер ноги и тем меньше они делают ошибок. В обоих случаях существует третья переменная, которая имеет взаимосвязь с двумя рассматриваемыми переменными. В первом случае это масштаб пожара, во втором – возраст школьника.

Однако в некоторых случаях причинно-следственная связь не столь очевидна. 28 декабря 1994 года в газете The New York Times была опубликована статья о возможном воздействии на здоровье умеренного потребления вина. Приводилась таблица с указанием среднего уровня употребления вина и уровня смертности от сердечно-сосудистых заболеваний в 21 стране. Эти данные представлены на диаграмме ниже.


Связь смертности от сердечно-сосудистых заболеваний с уровнем употребления вина в 21 стран.

(источник: The New York Times, 28 декабря 1994 г.)

Можно заметить, что в странах, где пьют больше вина, уровень смертности от сердечно-сосудистых заболеваний ниже. Но, как мы уже говорили, это не означает, что между этими двумя переменными обязательно существует причинно-следственная связь. Из этой диаграммы не следует, что если мы будем пить больше вина (разумеется, в разумных пределах), то риск инфаркта снизится. Страны, в которых употребляют больше всего вина, одновременно с этим являются его крупнейшими производителями. Это означает соответствующий климат, режим питания, обычаи – какой-то из этих факторов и может быть причиной низкого уровня болезней сердца. Впрочем, причиной действительно может быть умеренное потребление вина, но данные, которыми мы располагаем, этого не доказывают.

* * *

ПРОСТЫЕ ДИАГРАММЫ ДЛЯ РЕШЕНИЯ СЛОЖНЫХ ЮРИДИЧЕСКИХ ВОПРОСОВ

На президентских выборах в США в 2000 году, когда основными кандидатами были демократ Альберт Гор и республиканец Джордж Буш, их результаты оказались практически равными, что вызвало бурное обсуждение. В штате Флорида, где проживало около 6 миллионов избирателей, Буш одержал победу с преимуществом в 537 голосов. Кандидат, одержавший победу в этом штате, набирал необходимое для победы число голосов и становился президентом. Были поданы протесты, и окончательный вердикт должен был вынести суд. Не вдаваясь в юридические тонкости, приведем диаграмму, на которой отображены голоса, полученные Гором, в сравнении с голосами в пользу другого кандидата, Патрика Бьюкенена, в каждом из 67 округов штата Флорида.


Сравнение голосов в пользу Патрика Джозефа Бьюкенена и в пользу Альберта Гора в каждом из 67 округов штата Флорида.

(источник: Д. Мур. Learning from Data. «Statistics: A Guide to the Unknown», 4-е издание)


Первое, что бросается в глаза, – число голосов в Палм-Бич не подчиняется общей закономерности. Вместо закономерных 1500 голосов в его пользу было отдано 3 411 голосов. При взгляде на диаграмму становится понятно, что округ Палм-Бич должен обладать какой-то особенностью. Однако не было никакой причины, по которой Бьюкенен мог бы получить в этом округе значительно больше голосов, чем в остальных. Он сам и его сторонники заявляли, что 1000 голосов будет для них оптимистичным прогнозом. Вскоре стало ясно, что единственной особенностью была форма бюллетеня для голосования, использовавшегося в этом округе. Чтобы проголосовать за выбранного кандидата, нужно было проколоть отверстие в бюллетене. Из-за неудачного дизайна бюллетеней многие избиратели (очевидно, более 2000, достаточно взглянуть на график) проголосовали в пользу Бьюкенена, хотя в действительности хотели отдать свой голос Гору.

* * *

Масштаб может быть обманчив

Для конкретного множества данных среднее значение и среднеквадратическое отклонение – это конкретные значения, не допускающие разночтений. Однако в случае с графическим представлением данных это не так. Вид гистограммы для конкретного множества данных будет зависеть от выбранного масштаба (вы уже увидели это на примере печи № 3 в нашем примере с пекарней), а также от ширины интервалов и граничных значений интервалов. К примеру, при неизменной ширине интервалов при границах 190,192,194, … гистограмма будет выглядеть иначе, чем для граничных значений 191, 193, 193, …

Например, изменение значений экономического показателя за последние шесть месяцев можно представить графиком, изображенным слева, на котором показан впечатляющий рост, или графиком, изображенным справа, из которого следует, что значение показателя практически не изменилось. Различие между этими графиками заключается в выборе масштаба вертикальной оси.


Одни и те же изменения в разных масштабах.

Изменение масштаба горизонтальной оси также может преподнести немало сюрпризов. На следующем рисунке представлен график изменения объемов продаж за последние четыре года, построенный в мае 2010 года, когда были доступны данные лишь по апрель 2010 года. Это указано в подписи к графику, но создается впечатление, что объем продаж резко упал. В действительности же, учитывая, что на период до апреля включительно приходится треть годового объема продаж, прогнозное значение продаж на 2010 год превышает 150.


Четыре значения несравнимы между собой: за 2010 год доступны данные только до апреля включительно.

* * *

КАТАСТРОФА «ЧЕЛЛЕНДЖЕРА»

Все мы хотя бы раз видели фотографию космического челнока «Челленджер» на стартовой площадке: шаттл, похожий на самолет, вертикально закреплен на огромном топливном баке, полном горючего, по бокам которого находятся ракетные ускорители, выводящие челнок на орбиту. Эти ускорители, как и другие элементы челнока, невозможно перевозить в собранном виде, поэтому они изготавливаются и доставляются по частям, а сборка происходит на космодроме. Чтобы обеспечить отсутствие утечек в местах стыков и предупредить катастрофу, используются круглые уплотнительные кольца из каучука толщиной 6 мм и диаметром 12 м.

В ночь с 27 на 28 января 1986 года группа техников и руководители завода, производившего ракетные ускорители, провели телеконференцию с коллегами из NASA, чтобы обсудить возможность переноса запуска челнока на следующий день. Их беспокоило, что, по прогнозу, температура воздуха в день запуска должна была быть существенно ниже обычной – от 26 до 29 °F (от -2 до -3 °C). Они боялись, что при таких температурах уплотнительные кольца не обеспечат полную герметичность. Имелись данные с прошлых запусков, так как обломки двигателей после каждого запуска собирались и тщательно анализировались. В одном случае были зафиксированы дефекты уплотнительных колец, но серьезных происшествий не было отмечено ни разу. После анализа данных члены рабочей группы сделали вывод, что доказательства того, что низкие температуры могут негативно отразиться на уплотнительных кольцах, отсутствуют. Было принято решение не переносить запуск.

Утром следующего дня спустя 59 секунд после запуска сквозь одно из колец, которое было не полностью герметичным, начало прорываться пламя. Огонь быстро достиг топливного бака, что привело к взрыву шаттла и гибели семерых астронавтов, находившихся на его борту. Катастрофа шокировала весь мир и привела к радикальным изменениям в космической программе NASA.

Президент Рональд Рейган создал комиссию по расследованию инцидента, куда вошли видные представители научного сообщества. Комиссия определила, что анализ имеющихся данных был недостаточным. Одной из ошибок стало то, что не были приняты во внимание данные о полетах, в которых кольца не были повреждены (рис. 1). Подробный анализ параметров уплотнительных колец во время всех запусков позволил бы увидеть взаимосвязь между отмеченными дефектами и температурой воздуха. На рис. 2 четко видно, что данные, соответствующие температуре в момент планируемого запуска «Челленджера», отсутствуют, следовательно, нельзя гарантировать отсутствие неполадок при этой температуре. Кроме того, можно увидеть, что при понижении температуры число неполадок возрастает. На рис. 3 число колец, на которых были обнаружены дефекты (вне зависимости от их серьезности), заменено оценкой, определенной комиссией по расследованию катастрофы. На этом рисунке связь видна еще более четко. Это наглядный пример того, как с помощью простого графического анализа данных можно получить много информации об анализируемой проблеме.


Рис. 1. Каждая точка обозначает запуск, во время которого были зафиксированы повреждения уплотнительных колец. На вертикальной оси отмечено число происшествий, на горизонтальной – температура во время запуска (в °F).


Рис. 2. На удлиненной горизонтальной оси отмечена прогнозная температура в момент запуска «Челленджера». На графике также содержатся точки, соответствующие запускам, во время которых не было отмечено неполадок уплотнительных колец.


Рис. 3. Для каждого запуска была произведена оценка повреждений уплотнительных колец. Она отложена вдоль вертикальной оси.

(источник: Эдвард Тафти. Visual Explanations).

* * *

Графическое представление данных также может выглядеть по-разному в зависимости от выбранной переменной. Например, если объемы продаж вашей компании падают, что показано на графике слева внизу, можно построить график объема продаж с нарастающим итогом (справа), который, очевидно, будет расти.


Два вида представления информации о продажах: ежемесячном объеме (слева) и объеме с нарастающим итогом (справа).

Не думайте, что графики – это нечто бесформенное и их можно изменять в зависимости от того, какую мысль мы хотим донести. Можно построить наглядные и очень полезные графики, которые помогут с первого взгляда получить всю необходимую информацию, как, например, гистограммы в задаче с пекарней. Графики могут быть запутанными или даже давать ошибочное представление об информации при некорректно выбранной переменной или масштабе. Как правило, внимательность, здравый смысл и немного опыта помогут вам избежать подобных неточностей.


    Ваша оценка произведения:

Популярные книги за неделю