412 000 произведений, 108 200 авторов.

Электронная библиотека книг » Дуглас Хаббард » Как измерить все, что угодно [Оценка стоимости нематериального в бизнесе] » Текст книги (страница 11)
Как измерить все, что угодно [Оценка стоимости нематериального в бизнесе]
  • Текст добавлен: 18 апреля 2026, 22:30

Текст книги "Как измерить все, что угодно [Оценка стоимости нематериального в бизнесе]"


Автор книги: Дуглас Хаббард



сообщить о нарушении

Текущая страница: 11 (всего у книги 20 страниц)

И t-статистика, и нормальная z-статистика – разновидности так называемой параметрической статистики. Она предполагает конкретную форму распределения. Во многих случаях можно смело допустить, что распределение переменных является нормальным, но это не всегда так. Поэтому хотя параметрическая статистика и не опирается на субъективные оценки калиброванных экспертов, она все равно начинается с достаточно произвольного допущения о типе распределения.

В конечном счете разница между субъективным и объективным может не иметь большого значения, во всяком случае, на эффективность этих методов она не влияет. Единственное, что должно нас беспокоить, – как они работают на практике. Какая оценка интервала на основе малой выборки точнее – сделанная калиброванными экспертами или полученная с помощью параметрической статистики? Не ошибаются ли эксперты чаще, чем параметрическая статистика?

В эксперименте с калиброванными экспертами и леденцами специалисты постоянно давали более широкие (хотя и ненамного) интервалы значений, чем t-статистика. Это означает, что дополнительные несложные расчеты позволяют уточнить оценки калиброванных экспертов. Когда мы выбрали восемь леденцов, интервалы, предложенные самым осторожным и самым уверенным в себе экспертом, составляли 0,5–2,4 и 1–1,7 грамма соответственно. При выборке такого же размера t-статистика дала бы 90-процентный CI для среднего веса конфеты 1,21–1,57 грамма. Мы видим, что последний гораздо уже, чем самый узкий из интервалов, предложенных специалистами. Но хотя снижение неопределенности в нашем эксперименте и не было таким заметным, как можно ожидать, оно все равно оказалось значительным по сравнению с исходным состоянием. И как мы еще увидим в главе 10, дальнейшие исследования подтверждают эти выводы.

Итак, мы установили, что:

• когда исходная неопределенность высока, для ее существенного снижения достаточно изучить несколько объектов из генеральной совокупности;

• калиброванные эксперты сумели снизить неопределенность, отобрав из генеральной совокупности всего один объект, чего не может традиционная параметрическая статистика;

• оценки калиброванных экспертов обоснованны, но осторожны. Чтобы снизить неопределенность еще больше, нужно провести дополнительные расчеты.

Простейшие статистические методы получения выборок

Ясно, что эксперты могут сильно снизить исходную неопределенность, сделав всего нескольких наблюдений, а параметрический метод позволяет сократить ее еще больше. Но всегда ли калиброванные оценки уступают результатам, полученным с помощью параметрической статистики? Нет, не всегда. И t-статистика, и нормальная статистика учитывают только значения в выборочной совокупности, не принимая во внимание условия выборки, предварительную информацию, имевшуюся у эксперта перед проведением оценки, или наличие иных факторов. Другими словами, параметрические методы не позволяют воспользоваться многим из того, что мы называем здравым смыслом, так как не принимают во внимание информацию, интуитивно учитываемую калиброванными экспертами.

Предположим, что вместо взвешивания леденцов мы спросили у руководителей отделов продаж, сколько времени у них отнимает работа с отстающими торговыми представителями. Допустим, мы выбрали всего пять руководителей и они сказали, что тратят на эти цели 1, 6, 12, 12 и 7 часов в неделю. Применив t-статистику, получаем 90-процентный CI, составляющий 3,8–13 часов. Однако в статистическом уравнении не учтен тот факт, что 1 час – это временные затраты Боба, у которого, как всем известно, больше проблем с персоналом, чем у кого-либо другого, и который наверняка намеренно занизил этот показатель. А калиброванный эксперт, напротив, обязательно использовал бы эту дополнительную информацию. Оценка эксперта субъективна и поэтому кажется ненадежной, но в среднем она почти не уступает, а иногда и превосходит по точности оценку «объективной» статистики.

Более того, при очень малых выборках t-статистика часто дает доверительный интервал, который не имеет смысла с учетом известных ограничений. Предположим, что вы проанализировали ведомости учета рабочего времени и увидели, что ни один руководитель отдела продаж не тратит на общение со своими торговыми представителями более 12 часов в неделю, а затраты времени на общение с отстающими работниками еще меньше. И торговые представители, имеющие неважные показатели, утверждают, что общаются с руководителями не более 12 часов в неделю. Тогда верхняя граница нашего 90-процентного CI (13 часов) выглядит нереалистичной, но это лучший расчет t-статистики.

Я придумал другой, более простой подход, позволяющий не привлекать калиброванных экспертов и использующий только значения выборки. Вместе с тем он свободен от недостатков t-статистики. В главе 3 мы вскользь обсуждали Правило пяти. Как вы помните, оно гласит, что если выбрать случайным образом пять объектов из любой генеральной совокупности, то существует вероятность 93,8 % того, что медиана этой совокупности окажется в интервале между наибольшим и наименьшим значениями выборки. Но это лишь одно из правил, касающихся малых выборок. Если бы мы нашли метод определения 90-процентного CI непосредственно по значениям выборки, то быстро находили бы его без всяких расчетов.

Если выбрать восемь объектов, то наибольшее и наименьшее их значения зададут CI, гораздо более широкий, чем 90-процентный (в действительности, это был бы примерно 99,2-процентный CI). Но оказывается, что если взять вторые наибольшее и наименьшее значения в этой выборке, то получим интервал, гораздо более близкий к 90-процентному (примерно 93 %). При выборке из 11 объектов интервал окажется еще ближе к 90-процентному для третьих наибольшего и наименьшего значений.

Таблица 9.2 показывает, выборки какого размера позволяют получить CI, близкий к 90-процентному, просто взяв одно из самых высоких и одно из самых низких значений из нее. Например, при выборке 18 объектов верхняя и нижняя границы CI, близкого к 90-процентному, будут примерно равны шестым наибольшему и наименьшему значениям. Осторожности ради я специально выбирал размеры выборки, позволяющие получить не 90-процентный, а несколько более широкий CI. Третий столбец «Фактическая степень уверенности» показывает вероятность того, что медиана окажется в интервале, границами которого служат я-ное наибольшее и я-ное наименьшее значения. Не беспокойтесь о том, как использовать этот столбец. Достаточно знать, что получаемый CI максимально близок к истинному 90-процентному и не слишком узок (то есть является довольно осторожной оценкой).

Я называю этот 90-процентный CI определяемым без математических расчетов, так как все, что от нас требуется, – это записать несколько цифр, касающихся наибольшего и наименьшего значений выборки. Вам не придется рассчитывать ее дисперсию, извлекать квадратные корни или использовать таблицы t-значений. Составляя данную таблицу, я пользовался некоторыми непараметрическими методами и проверил полученные результаты методом Монте-Карло для малых выборок. Не стану утруждать вас подробностями, но ее использование существенно упрощает определение 90-процентного CI на основе малых выборок. Постарайтесь запомнить, что имея выборку из 5, 8, 11 или 13 объектов, для определения на ее основе границ 90-процентного CI нужно взять, соответственно, ее первое, второе, третье или четвертое наибольшее и наименьшее значения. Теперь можно быстро оценить 90-процентный CI, отобрав лишь несколько объектов для наблюдения, не доставая из кармана калькулятор.

Если говорить коротко, данный прием работает потому, что при расчете 90-процентного CI «середина» ряда значений особой роли не играет. Чтобы объяснить почему, нам придется еще раз вернуться к параметрическим методам. Они, как мы видели на примере параметрической t-статистики, требуют расчета дисперсии выборки. Из каждого значения в выборке вычитается среднее по выборке, а полученный результат возводится в квадрат. Сумма всех этих квадратов и есть дисперсия. Выполнив эти простые расчеты, вы обнаружите, что величина дисперсии почти целиком зависит от значений, намного отличающихся от среднего. Даже у больших выборок дисперсия обычно лишь на 2 % зависит от средней трети значений и на 98 % – от других двух третей наибольших и наименьших значений выборки. Когда размер выборки не превышает 12 объектов, дисперсия определяется всего двумя экстремальными точками – наибольшим и наименьшим значениями выборки.

Данный не требующий расчетов метод позволяет получить 90-процентный CI, лишь чуть-чуть более широкий, чем при использовании t-статистики, без связанных с ней проблем. Вспомним пример, в котором пять руководителей отделов продаж указали, что тратят на общение с отстающими торговыми представителями 1, 6, 12, 12 и 7 часов в неделю. С помощью t-статистики мы установили, что верхняя граница интервала – 13, но знаем, что по другим соображениям она должна быть ниже, и с помощью нашего не требующего расчетов метода получим интервал 1–12. Мы знаем, что 12 – вполне возможное значение верхней границы интервала, так как это одно из значений нашей выборки. Если отобрать еще шесть руководителей с затратами времени 4, 5, 10, 7, 9 и 10 часов в неделю, то выборка составит 11 объектов. Таблица показывает, что при таком размере выборки границами CI, близкого к 90-процентному, служат третьи наибольшее и наименьшее ее значения. С учетом этого получаем 90-процентный CI, составляющий 5–11 часов в неделю. А t-статистика в этом (довольно редком) случае даст нам несколько более широкий интервал 4,5–11,3 часа в неделю.

Важно отметить, что использованный мной непараметрический метод в отличие от t-статистики определяет 90-процентный CI для медианы, а не для среднего значения. Медианой генеральной совокупности называют такое значение, выше которого располагается ровно одна половина ее значений, а ниже – другая. Среднее генеральной совокупности – это сумма всех ее значений, деленная на размер. При смещенном (асимметричном) распределении генеральной совокупности медиана не совпадает со средним значением. Однако если допустить, что распределение близко к симметричному, то медиана и среднее совпадут. В этом случае наша таблица позволит определить 90-процентный CI и для медианы, и для среднего значения.

В некоторых случаях данное допущение оказывается натяжкой, но вообще-то в параметрической статистике мы делаем гораздо более сомнительные допущения. В параметрической статистике мы обязаны придать графику нашего распределения вполне определенную форму. А оценивая медиану по таблице 9.2, мы не делаем никаких допущений о распределении значений генеральной совокупности. Оно может быть и нерегулярным – горбатым (camel-back) (как график распределения населения США по возрасту, форма которого объясняется произошедшим после войны демографическим взрывом), и равномерным (как график распределения выигрышей при игре в рулетку). Таблица 9.2 позволяет определить диапазон значений медианы и в том, и в другом случаях. Но если распределение к тому же симметрично, неважно, равномерное оно, нормальное, горбатое или типа «бабочка» (bow-tie), то таблица годится и для определения диапазона среднего значения.

Пристрастный отбор методов выборочного обследования

Как обычный работник измерил бы популяцию рыб, обитающих в озере? Этот вопрос я всегда задаю участникам своих семинаров. Обычно в ответ слышу: «Осушил бы озеро». По мнению, например, среднего бухгалтера или даже менеджера среднего звена по ИТ, «измерить» означает «пересчитать». Поэтому когда речь заходит о численности (популяции) рыб, такие люди полагают, что их просят назвать точный итог, а не просто уменьшить неопределенность. С этой мыслью они и предлагают осушить озеро и, несомненно, сумели бы организовать дело так, чтобы каждая мертвая рыбешка была подобрана, брошена в кузов грузовика и сосчитана вручную. Возможно, кто-то пересчитал бы рыбу в грузовике еще раз и осмотрел бы дно осушенного озера, чтобы убедиться в точности подсчетов. Затем они сообщили бы, что всего в озере обитали ровно 22 573 рыбы, так что прошлогодние усилия по пополнению рыбных запасов озера не пропали даром. Правда, теперь вся эта рыба погибла.

А вот если поручить биологам измерить численность рыбной популяции в озере, то уж они не спутают слова «измерить» и «пересчитать». Взамен они, скорее всего, воспользуются методом, состоящим в выпуске пойманной рыбы и повторной ловле. Сначала биологи поймают и пометят некое число, скажем 1000, особей и снова выпустят их в озеро. После того как меченая рыба перемешается с немеченой, они отлавливают еще некое число особей. Допустим, поймали опять 1000 рыб, из которых 50 меченых. Это означает, что помечено 5 % всех имеющихся в озере рыб. Зная число первоначально меченых рыб – 1000, биологи делают вывод: в озере около 20 тыс. рыбин (1000 – это 5 % от 20 000).

Такого рода выборка подчиняется так называемому биномиальному распределению, но для больших чисел можно считать такое распределение нормальным. Ошибку оценки рассчитывают практически так же, как и ранее. Все, что нужно сделать, – это изменить порядок расчета дисперсии выборки, остальное не меняется. В данном случае дисперсию определяют как долю объектов в группе, численность которой мы пытаемся узнать, умноженную на долю объектов вне группы. Иными словами, берем долю меченой рыбы (0,05), умножаем ее на долю немеченой рыбы (0,95) и в результате получаем 0,0475.

Дальнейший порядок расчетов тот же. Делим дисперсию выборки на размер выборки и извлекаем квадратный корень из суммы: SQRT(0,0475:1000) = 0,007. Чтобы получить 90-процентный CI для доли меченых рыб в озере, к этой доле (0,05) прибавляем и вычитаем из нее 0,007, умноженные на 1,645 (z-значение 90-процентного CI). Результат: помечено 3,8–6,8 % всех рыб в озере. Мы знаем, что пометили 1000 рыб, тогда всего в озере от 1000/0,062 = 16 256 до 1000/0,032 = 25 984 особей.

Кому-то такой интервал покажется широким. Но предположим, что первоначально он выглядел как 2000—50 000 особей. Допустим также, что цель состояла только в том, чтобы определить, растет популяция или вымирает, и что ранее в озеро запустили 5000 мальков. Любое число свыше 6000 скажет нам о том, что популяция, как минимум, растет, а цифра свыше 10 000 – что запускать новых мальков больше не нужно. С учетом первоначального интервала значений и соответствующего порога полученная новая степень неопределенности – явный шаг вперед, а погрешность в данном случае вполне приемлема. На самом деле, и в первый, и во второй раз улов мог состоять не из 1000, а только из 250 рыб, но все равно мы были бы уверены, что популяция увеличилась так, что ее численность превысила 6000 особей.

Приведенный пример наглядно показывает, что выборочное обследование позволяет получить информацию даже о том, что никто не видит. Метод дает возможность определять, например, сколько человек остались не учтенными Бюро переписи населения США, сколько видов бабочек до сих пор не открыто в бассейне Амазонки, сколько несанкционированных попыток доступа в информационную систему было предпринято за прошедший период, а также сколько потенциальных клиентов не сумели выявить менеджеры компании. Если нельзя увидеть целиком какую-то группу объектов, это еще не означает, что измерить их численность тоже невозможно.

Метод выпуска пойманной рыбы и повторной ловли – лишь один из многочисленных приемов выборочного обследования. Несомненно, новые, более эффективные способы еще будут разработаны. Однако даже поверхностное знакомство с основными методами выборки позволяет правильно оценивать наблюдения и получать информацию, необходимую для решения самых разнообразных проблем.

ПРЕДНАМЕРЕННАЯ ВЫБОРКА

Преднамеренную (разовую) выборку можно сравнить со случайной моментальной фотографией людей, процессов или предметов в отличие от постоянного наблюдения за ними в течение некоего периода времени. Например, желая узнать, какую часть своего рабочего времени сотрудники тратят на данный вид деятельности, вы проверяете в один из дней, чем наугад выбранные люди заняты в настоящий момент. Окажись, что в 12 случаях из 100 работники участвовали в селекторном совещании, вы сделаете вывод: 12 % своего времени они тратят на селекторные совещания (90-процентный CI составляет 8–18 %). В этом примере, как и в случае с измерением численности рыбной популяции, мы имеем дело с биномиальным распределением. В каждый конкретный момент времени люди либо занимаются данным видом деятельности, либо нет, а вы просто спрашиваете, какую часть своего времени они на это тратят. И здесь размер выборки позволяет, как и ранее, считать распределение нормальным.

Но что, если удалось разово отобрать только 30 человек, из которых лишь пятеро занимаются интересующим вас видом деятельности? Достаточно ли этой информации? И вновь все зависит от степени исходной неопределенности до проведения выборочного обследования. Для ее снижения, возможно, этих данных и хватит. Рисунок 9.2 предоставляет способ быстрого определения 90-процентного CI для доли генеральной совокупности на базе малой выборки. Следуя указаниям на данном рисунке, вы получите такие результаты: нижняя граница 90-процентного CI – примерно 9 %, а верхняя – около 31 %. Предположим, что предыдущая оценка интервала дала итог 5–50 %, а порог, начиная с которого на базе той же информации придется принимать другое решение, – 40 %. Выборка такого размера вполне достаточна для принятия подобного решения.

КЛАСТЕРНАЯ ВЫБОРКА

Кластерное выборочное обследование – это случайная выборка из групп, проведение полного наблюдения или осуществление более концентрированной выборки в полученной группе. Например, если вы хотите узнать, какой процент семей имеет спутниковые тарелки или отделяет пластмассу от других бытовых отходов, иногда проще всего выбрать случайным образом в городе несколько кварталов, а затем провести сплошное обследование семей, проживающих в каждом из этих кварталов (на обследование семей, проживающих в разных концах города, ушло бы слишком много времени). В подобных случаях мы не можем исходить из того, что число объектов в случайной выборке должно равняться числу объектов в группах (в данном случае числу семей). Семьи, проживающие в одном квартале, могут быть очень похожими, поэтому нельзя считать, что размер случайной выборки определяется их числом. Когда семьи в квартале практически одинаковы, за размер выборки лучше принять число кварталов.


СТРАТИФИЦИРОВАННЫЕ ВЫБОРКИ

При стратифицированном отборе разные методы и (или) размеры выборки применяются к разным группам в составе одной генеральной совокупности. Этот подход имеет смысл, когда генеральная совокупность состоит из нескольких сильно отличающихся друг от друга, но внутренне однородных групп. Если вы владеете рестораном быстрого питания и хотите определить демографический состав своих клиентов, то, возможно, следует применять разные методы выборочного обследования к клиентам за столиками и к тем, кто берет еду на вынос. Если вы директор завода и хотите проверить, как соблюдается техника безопасности, то, возможно, методы наблюдения за сварщиками, мастерами и уборщицами должны различаться.

СЕРИЙНАЯ ВЫБОРКА

В учебниках по статистике метод серийной выборки обычно не освещается. Не обсуждали бы его и мы, называйся наша книга «Как измерить большинство вещей». Но в период Второй мировой войны данный подход широко использовался для сбора разведывательной информации[25]. Он может пригодиться и сегодня для решения некоторых бизнес-проблем. В годы Второй мировой разведчики союзников собирали сведения о производстве вражеской военной техники, в том числе немецких танков «Mark V». Сведения о производстве этих тяжелых танков были очень противоречивыми, и руководство разведки союзников не знало, чему верить. В 1943 г. работавшие на союзников статистики разработали метод определения объема производства на основе серийных номеров захваченных танков. Серийные номера следовали друг за другом и включали какую-нибудь дату. Однако по одному серийному номеру еще нельзя было точно сказать, когда был произведен первый танк серии (поскольку серия могла начинаться не с номера 001). Здравый смысл подсказывает, что минимальное месячное производство должно равняться, по крайней мере, разности между последним и первым серийными номерами машин, захваченных в данном месяце. Но нельзя ли узнать из этих номеров что-нибудь еще?

Подойдя к захваченным танкам как к случайной выборке из всей генеральной совокупности, статистики поняли, что могут рассчитать вероятность производства в разных объемах. Например, если в каком-то месяце было выпущено 1000 танков, то вероятность случайно захватить 10 произведенных в этот период машин с серийными номерами, отличающимися друг от друга не более чем на 50 единиц, крайне мала. Разброс номеров 10 танков, случайным образом выбранных из 1000, должен быть больше. Если же в этом месяце было произведено только 80 танков, то захват 10 из них с такими близкими номерами, по крайней мере, возможен.

Таблица 9.3 демонстрирует данные о выпуске танков «Mark V» по сведениям разведки и расчетам статистиков в сравнении с фактическим производством (сведения из захваченных после войны документов). Сравнение подтверждает эффективность статистического метода, основанного на анализе серийных номеров захваченных машин.

Более того, дать оценку, значительно более точную, чем исходные данные разведки, наверное, можно было по номерам нескольких танков. Рисунок 9.3 показывает, как по случайной выборке предметов с серийными номерами определяют размер всей генеральной совокупности. Следуя указаниям рисунка, рассмотрим пример, когда число трофеев составляет восемь объектов (которыми могут быть товары конкурирующей фирмы, найденные в мусоре страницы ее отчета и т. д.). Самый большой серийный номер – 100 220, а самый маленький – 100 070, так что в результате этапа 1 мы получаем 150. Результат этапа 2 – около 1,0 (в этой точке кривая верхней границы пересекает вертикальную линию для нашего размера выборки – 8). На этапе 3 мы производим простые вычисления (1+1,0) × 150 = 300 и получим значение верхней границы CI. Повторив эти шаги для нижней границы и среднего значения, получаем 90-процентный доверительный интервал 156–300 со средним значением 195 (обратите внимание, что среднее – это не середина диапазона, поскольку распределение асимметрично). Так что статистики могли сделать свои выводы, располагая всего восемью номерами захваченных танков.

Два предостережения: если захвачены машины одной бронетанковой части, ни одна из них не может считаться отобранной случайно, поскольку у них могут быть близкие номера. Однако обычно это сразу видно по самим номерам. Кроме того, когда на самом деле нумерация серии не совсем последовательная (то есть каждый следующий номер присваивался не следующему танку) и какие-то номера пропущены, данный метод требует определенной модификации. Отметим: необходимо, чтобы распределение используемых номеров легко обнаруживалось. Например, если используются только четные номера или номера, отличающиеся друг от друга на пять, то это должно быть очевидным из выборки.

Как это можно применить в бизнесе? «Серийные номера» (то есть последовательные серии) можно найти в современном мире где угодно. Так, компании бесплатно предоставляют конкурентам информацию о своем объеме производства, просто указывая на товарах серийные номера, которые может увидеть любой покупатель. (Однако, чтобы быть случайной, такая выборочная совокупность должна состоять из товаров, купленных в разных магазинах.) Аналогичным образом несколько страниц из выброшенного отчета конкурента или цифр из квитанции могут многое рассказать об остальных страницах отчета или обо всех квитанциях за данный день. Я вовсе не призываю вас копаться в отбросах, но исследование содержимого мусорных контейнеров нередко позволяет решить интересные задачи по измерению.

Определите порог


Обычно мы хотим что-то измерить, так как требуется обосновать какое-то решение. И для всех решений обычно имеется некое пороговое значение: если интересующий нас показатель окажется выше его, то мы примем одно решение, а если ниже, то другое. Но статистические методы в большинстве своем не занимаются выяснением, при каком значении X следует принять то или иное решение. Я хочу познакомить вас с таким статистическим методом, который позволяет не только снизить неопределенность в целом, но и сравнить интересующий показатель с важным пороговым значением.

Предположим, требуется определить средние затраты времени сотрудников на совещания, которые в наш век Интернета могли бы проводиться и дистанционно. Работники не теряли бы время на дорогу, а совещания не срывались бы из-за проблем с транспортом. Чтобы решить, следует ли проводить данное совещание дистанционно, нужно выяснить, что на нем происходит. Если сотрудники, которые и так постоянно общаются друг с другом, обсуждают рутинные вопросы, но ради этого кому-то приходится ехать издалека, то подобное мероприятие, наверное, лучше проводить дистанционно. Начнем с калиброванной оценки времени, необходимого среднему сотруднику на то, чтобы попасть на совещание, которое могло бы проводиться дистанционно (3–15 %). Далее определяем, что если этот показатель превысит 7 %, то инвестировать немалые средства в подобные виртуальные мероприятия стоит. Расчет ожидаемой стоимости полной информации показывает, что необходимо израсходовать не больше 15 000 дол. на исследования по этому вопросу. Согласно нашему правилу определения затрат на проведение измерений, можно потратить на эти цели примерно 1500 дол., так что если в компании тысячи сотрудников, то сплошной опрос всех участников совещаний абсолютно исключен.

Предположим, что мы выбрали 10 человек и после подробного анализа времени, которое они тратят на дорогу и проводившиеся в последнее время совещания, выяснилось, что только один сотрудник расходует менее 7 % своего времени на эти виды деятельности. Какова, с учетом этой информации, вероятность того, что интересующий нас средний показатель действительно меньше 7 % и подобные инвестиции совершенно неоправданны? Ответ на уровне здравого смысла – один к десяти, или 10 %. Но это как раз тот случай, когда здравый смысл совсем не так полезен, как немного математики. На самом деле эта вероятность намного меньше.

Рисунок 9.4 показывает, как можно оценить вероятность того, что медиана генеральной совокупности находится по одну сторону порога при условии, что половина или большинство значений малой выборки – по другую сторону.

Попрактикуйтесь в обращении с рисунком 9.4.

1. Найдите в верхней части диаграммы, где указаны размеры выборок, цифру 10. Проследите, куда ведет сплошная кривая, соединяющая эту цифру с вертикальной осью координат.

2. Найдите в нижней части рисунка, где указано число объектов выборки ниже порогового, цифру 1. Проследите, куда ведет соответствующая этой цифре вертикальная пунктирная линия.

3. Найдите точку пересечения кривой и пунктирной линий.

4. Соответствующий этой точке процентный показатель на вертикальной оси координат (0,6 %) показывает вероятность того, что медиана такой выборки меньше порогового значения.

Данная малая выборка сигнализирует: вероятность того, что среднее значение совокупности окажется ниже порога, заметно меньше 1 %. Хоть эта статистика и кажется контринтуитивной[26], но факт остается фактом: неопределенность положения медианы (или даже среднего значения) генеральной совокупности относительно порога можно снизить очень быстро. Предположим, что мы отобрали из генеральной совокупности всего четыре объекта и ни один из них не оказался ниже порогового. Обратившись снова к рисунку 9.4, мы обнаружим, что вероятность нахождения медианы ниже порога составляет чуть менее 4 %, а вероятность ее положения выше него – соответственно 96 %. То, что выборочная совокупность всего из четырех объектов настолько снижает неопределенность, может показаться удивительным, но несложные расчеты или моделирование методом Монте-Карло это подтверждают.

Обратите внимание, что неопределенность, связанная с порогом, может снижаться гораздо быстрее, чем неопределенность по поводу самого интересного для нас показателя. Бывает, после нескольких выборок остается довольно широкий диапазон, однако когда порог находится за его пределами, неопределенность, связанная с ним, снижается буквально до нуля.

Серьезным ограничением данного подхода является предположение о максимальной неопределенности порогового значения. Метод исходит из допущения, что изначально у нас нет никакой информации о том, по какую сторону порога может находиться медиана генеральной совокупности. Это означает, что придется начинать с 50-процентной вероятности того, что медиана находится по ту или иную сторону порога. Знай мы заранее, что медиана, скорее всего, ниже порога, наша диаграмма, хотя и неточная, все же дала бы полезный результат. Если же вероятность того, что значение медианы ниже порогового будет меньше вероятности ее положения выше порога, то диаграмма завысит вероятность того, что в действительности медиана ниже порога. В нашем примере диапазон 3–15 % указывает на то, что медиана, скорее всего, больше порогового значения 7 %. Диаграмма указывает, что вероятность обратного – 0,6 %, но, обладая информацией о нашем диапазоне, мы можем сказать, что эта вероятность даже меньше.

Если бы, однако, диапазон составлял 1–8 %, то с самого начала было бы понятно, что интересующий нас показатель расположен ниже порогового значения 7 %. В данном случае рисунок 9.4 занижает вероятность того, что этот показатель ниже порога. Попытаемся использовать другой ориентир для уточнения искомой величины. Найдем фактическое среднее значение исходного диапазона и рассчитаем вероятность его нахождения по ту или иную сторону порога. При данном диапазоне можно утверждать, что существует 50-процентная вероятность того, что это значение меньше 4,5 %. Допустим, что из 10 отобранных нами служащих ни у одного затраты времени не оказались меньше 4,5 %. Рисунок 9.4 свидетельсвует: в этой ситуации вероятность того, что истинное значение на самом деле меньше 4,5 %, составляет менее 0,1 %. Хотя эта информация и не дает точных данных о том, насколько маловероятно, что искомое значение меньше 7 %, все же становится очевидно, что этот вариант практически невозможен.


    Ваша оценка произведения:

Популярные книги за неделю