Текст книги "Психология развития: методы исследования"
Автор книги: Скотт Миллер
Жанр:
Психология
сообщить о нарушении
Текущая страница: 9 (всего у книги 48 страниц) [доступный отрывок для чтения: 18 страниц]
Аспекты измерения
До сих пор мы акцентировали внимание в основном на необходимости осуществлять выбор при переводе некоего глобального конструкта (например, агрессии) в некоторую специфическую, измеряемую форму (например, удары и пинки). Однако мы еще не обсудили параметры, по которым осуществляется измерение. Теоретики выделяют ряд параметров, или «граней» измерения (Messick, 1983). Часть из них мы рассмотрим в этом разделе, остальные – в дальнейшем.
Одно из кардинальных решений, которое нужно принять исследователю, касается определения конкретного аспекта поведения, который он будет изучать. Предположим, что наш воображаемый исследователь агрессии у дошкольников выбрал в качестве критерия агрессии удары. Однако все еще остается нерешенным вопрос, что конкретно в этих ударах будет измеряться. Исследователь, к примеру, может решить работать с частотой действий, то есть оценивать, как часто ребенок наносит удары. Такой прямой подсчет, вероятно, даст наиболее очевидный индекс того, что принято подразумевать под «уровнем агрессии». Альтернативных! вариант – работать не с частотой, а с интенсивностью, то есть оценивать, не как часто ребенок наносит удары, а какой силы эти удары. Интенсивность также имеет очевидную связь с тем, что понимается под «агрессией». Есть и еще один вариант: сосредоточиться не на частоте или интенсивности, а на временных характеристиках поведения. Исследователь, к примеру, может решить измерять латентность или скорость агрессивной реакции или же общую продолжительность эпизодов нанесения ударов. Эта трихотомия «частота—интенсивность—продолжительность» применима не ко всем видам поведения, изучаемым в психологии развития; однако во многих случаях ее вполне можно использовать. Если же такая возможность отсутствует, обычно имеются другие параметры, которые поддаются измерению. Редко какой результат подразумевает лишь единственный способ его измерения.
Выбор аспекта поведения для измерения предполагает наличие решения о способе измерения и, следовательно, ограничен внешними поведенческим проявлениями. Объектом измерения не всегда становится внешнее поведение. Исследователя агрессии могут интересовать и агрессивно окрашенные мысли или фантазии, то есть подспудное психическое содержание, а не фактическое поведение. Чтобы сделать вывод о психическом содержании, ему все равно необходимо выделить некую измеряемую реакцию (например, самоотчеты об агрессивно окрашенных фантазиях); однако в этом случае поведение – это лишь средство к достижению цели. Аналогично исследователь агрессивных эмоций должен получить вербальные отчеты об этих эмоциях; однако вновь объектом изучения служит нечто отличное от внешних поведенческих проявлений. В качестве альтернативы исследователь мог бы выбрать обходной путь и измерять не поведенческие реакции, а физиологические показатели (например, повышение частоты сердечных сокращений, повышение артериального давления) в ответ на ситуацию, провоцирующую агрессию. Эмоции – это только один из конструктов, которые позволяют производить не выраженные внешне измерения. В дальнейшем мы еще встретим множество примеров подобных конструктов.
Обратите внимание, что описанные в предыдущем абзаце варианты оценки иллюстрируют различные направления измерений. Одно из них – от явного к внешне не выраженному. В одних случаях нас интересует само поведение, в других – не наблюдаемые, более общие конструкты (мысли, мотивы, потребности и т. д.), которые предположительно лежат в основе видимого поведения. В одних случаях специфический объект наших измерительных операций – явное поведение (например, удары), в других – это некий скрытый недоступный для прямого наблюдения процесс (например, частота сердечных сокращений). Наконец, в некоторых случаях имеющееся в наличии и специфическое совпадает, в других – нет. Если говорить об ударах, то здесь присутствует совпадение – нас интересует, как часто ребенок бьет других детей, и мы измеряем частоту ударов. Исследователя же эмоций, скорее всего, не интересует частота сердечных сокращений сама по себе; частота сердечных сокращений – это лишь ключ к эмоциональному состоянию. Это различие определяют как различие между признаком и специфической моделью. Иногда мы измеряем специфические модели конструкта, то есть частные случаи (удары, плач, улыбки и т. д.) интересующего нас поведения. А иногда – только признаки, не конструкт сам по себе (поднятие бровей, изменение частоты сердечных сокращений и т. д.), по которым можно судить об этом конструкте. И разумеется, одна и та же характеристика может выступать либо в роли признака, либо в роли специфической модели, в зависимости от ее функции в конкретном исследовании. При изучении плача приступы плача, естественно, – специфические модели. При изучении привязанности приступ плача это признак – обычно один из множества, – по которому судят о характере привязанности.
Последнее разграничение касается целей измерения, то есть того, что мы собираемся делать с полученными данными. В некоторых случаях цель – выявление индивидуальных различий между испытуемыми, оценка степени различия испытуемых из одной выборки по параметру агрессии, привязанности или чего-либо еще. Такая цель особенно часто стоит перед корреляционным исследованием, в котором осуществляется попытка выявления связи между вариациями значений одной группы показателей (например, индивидуальных различий в уровне агрессии у детей) и вариациями значений другой группы показателей (например, различий в полученном воспитании). В других исследованиях в центре внимания находятся не столько индивидуальные различия, сколько непосредственные детерминанты изучаемого поведения. Возьмем в качестве примера гипотетическое исследование социального подкрепления и агрессии. Цель такого исследования могла бы состоять в определении отношений между колебаниями уровня агрессии и наличием или отсутствием подкрепления, а не в оценке того, кто из детей более или менее агрессивен. Или же рассмотрим экспериментальное изучение связи просмотра телепрограмм с эпизодами насилия и агрессивного поведения, подобное тому, которое провели Либерт и Бэрон (Liebert & Baron, 1972). Вновь цель не в выявлении индивидуальных различий в уровне агрессии; цель – узнать, изменяется ли уровень агрессии как функция от характера телепрограмм, которые смотрят дети.
Описанное выше различие иногда называют различием между свойством и состоянием. При измерении свойства нас интересует вопрос, каковы люди вообще, при этом цель, как правило, состоит в выявлении связи измеряемой характеристики с неким другим показателем или некими другими показателями в одной и той же выборке. При измерении состояния нас интересует вопрос, каковы люди в данный момент, при этом цель, как правило, состоит в выявлении связи вариаций непосредственных поведенческих реакций с некоей потенциальной детерминантой изучаемого поведения. В обоих случаях, несомненно, важно выбирать адекватную операционализацию изучаемого конструкта. Более того, конкретные измерительные операции могут быть общими и для оценки состояния, и для оценки свойства. Если, к примеру, определенный итоговый индекс физических актов (ударов, пинков, щипков и т. д.) выступает как критерий индивидуальных различий по уровню агрессии, то этот же критерий, вероятно, может быть использован и в экспериментальном исследовании эффектов просмотра программ с эпизодами насилия. Однако, даже если критерии совпадают, способы измерения этих параметров и их использования могут быть разными в разных видах исследования, Когда в центре внимания находятся индивидуальные различия между людьми, первостепенное значение приобретает оценка специфических моделей поведения в выборке: возможность упорядочить результаты испытуемых по определенному параметру за-
висит от возможности оценить репрезентативные модели поведения каждого испытуемого. Когда же в центре внимания находится влияние экспериментальных манипуляций на изучаемое поведение, вопрос измерений в выборке, а также индивидуальные различия отходят на второй план: теперь нас скорее всего будет интересовать общий, сравнимый с другими, тип поведения, который позволяет выявить искомый эффект. В действительности в этом случае имеющиеся индивидуальные различия становятся даже помехой, поскольку вносят дисперсию ошибки, которая может искажать эффект, представляющий исследовательский интерес.
В этом разделе анализировался ряд направлений, по которым различаются измерения. Все они сведены в табл. 4.1. Как уже отмечалось, более полное освещение этой темы (например, Messick, 1983) добавило бы ряд новых граней. Однако, несмотря на это многообразие параметров измерения, принцип, который следует уяснить, довольно прост: мы выбираем стратегии измерения согласно конкретным целям исследования.
Таблица 4.1 Аспекты измерения
Направление | Описание |
Аспект поведения | Какой из аспектов поведения (например, частота, интенсивность, временные параметры) измеряется |
Явное/внешне не выраженное | Явный объект измерения (наблюдаемое поведение) или неявный (например, некие |
физиологические изменения) | |
Признак/специфическая модель | Является ли критерий признаком, по наличию которого судят о конструкте, или специфической моделью данного конструкта |
Свойство/состояние | Находятся в центре внимания устойчивые индивидуальные различия между испытуемыми или непосредственный эффект экспериментальных манипуляций |
Качество измерения
Как было сказано выше, измерение – это процесс принятия решений: выбора ограниченного количества методов оценки конструкта из значительно большей совокупности методов. В этом разделе мы рассмотрим некоторые факторы, определяющие, насколько удачен выбор того или иного способа измерения.
Как говорилось в главе 2, «изменчивость» зависимой переменной подразумевает, что получаемые результаты с некоторой долей вероятности изменяются как функция от факторов, изучаемых исследователем. Поэтому один из критериев качества измерения состоит в том, чтобы оно давало необходимый уровень и диапазон значений переменной. В противном случае показатели будут так скученны, что ни один эффект не проявится. Чаще всего этот вопрос обсуждают, говоря о корреляционном исследовании и проблеме ограничения диапазона переменных (смотри главы 3 и 7); однако он имеет отношение и к эксперименту. Рассмотрим вновь исследование Черри и Парка (Cherry & Park, 1993), описанное в главе 2. Предположим, что в качестве стимульного материала для оценки памяти они предъявляли бы не 24, а 4 предмета. В этом случае большинство испытуемых, вероятно, безупречно справились бы с заданием, и не было бы никакой возможности обнаружить эффект контекста (схемы или модели), на выявление которого было направлено исследование.
Эта гипотетическая переформулировка исследования Черри и Парка иллюстрирует один из возможных видов ограничения диапазона: так называемый эффект верхнего предела. Об эффекте верхнего предела говорят, когда задание слишком легкое, и поэтому большинство испытуемых получает баллы, находящиеся на верхней границе шкалы или очень близко от нее. Возможна и противоположная ситуация – скученность показателей у нижней границы шкалы вследствие слишком высокого уровня трудности заданий. Эта проблема, как вы наверное догадались, называется эффектом нижнего предела.
При проявлении достаточной предусмотрительности обычно удается избежать эффектов и верхнего, и нижнего пределов. Поиску оптимального уровня трудности может помочь предварительное исследование с аналогичными заданиями и выборкой. Если сомнения все же остаются, для уточнения критериев можно провести пилотажное исследование. Но как бы ни был предусмотрителен исследователь, он все равно может столкнуться с трудностями, если одни и те же задания и процедуры должны использоваться с испытуемыми, находящимися на разных уровнях развития. Задание, умеренно трудное для одной возрастной группы детей, может вызвать эффект верхнего предела детей старшего возраста, эффект нижнего предела – у детей младшего возраста.
Обсуждая подбор заданий для разных возрастных групп, мы затрагиваем глобальный вопрос эквивалентности измерения. Как говорилось в главе 3, проблема эквивалентности измерений становится актуальной всякий раз, когда в исследовании сравниваются группы испытуемых. В психологии развития наиболее часто этот вопрос встает при сравнении возрастных групп, однако может иметь значение и при сравнении любых групп, сформированных естественным путем. При изучении различий между полами по уровню когнитивных способностей, к примеру, важно отбирать материал, одинаково знакомый и интересный как для мальчиков, так и для девочек. При сравнении разнообразных этнических и культурных общностей важно – и зачастую весьма затруднительно – подобрать методики, которые подходили бы для представителей всех этих групп. Довольно трудно бывает подобрать критерии, адекватные для одной группы испытуемых. Трудность измерения возрастает в несколько раз, когда цель исследования состоит в выявлении межгрупповых различий.
Из сказанного об эквивалентности измерений следует, что одного типа операционализации изучаемого конструкта зачастую бывает недостаточно. Методика, пригодная для одной группы, может оказаться непригодной для другой группы. Это явление – частный случай общей закономерности: Даже когда не производится сравнение групп, результаты использования лишь одной методики – неустойчивый базис для получения выводов. КукиКэмпбелл (Cook& Campbell, 1979) называют применение только одного типа измерительных операций монооперациональным искажением. По их мнению, одна операция практически всегда дает недостаточное представление об изучаемом конструкте, то есть раскрывает лишь некоторые аспекты того (агрессий, интеллекта, половой типизации и т. д.), что мы пытаемся измерить. Наряду с этим любое измерение включает ряд специфических для каждого задания дополнительных факторов (например, определенный порядок слов в инструкции, характер стимульного материала, конкретный человек, выполняющий функции экспериментатора), и поэтому трудно с помощью только одного типа измерений узнать, какая часть полученных результатов действительно имеет значение, а какая – следствие действия дополнительных факторов. Можно быть гораздо более спокойными за наши выводы при использовании нескольких форм измерения. Этот принцип вам уже знаком; в главе 3 мы говорили то же самое об опасности монометодического подхода при изучении причинно-следственных связей. Правилом для обоих случаев является использование конвергентных операций, а не единственного метода исследования.
В этом разделе, посвященном качеству исследования, остается рассмотреть еще два конструкта, крайне значимых для оценки измерения: надежность и валидность. Надежность характеризует согласованность пли воспроизводимость измерений. Вопрос состоит в следующем: будут ли результаты повторных применений некой методики одинаковы или весьма близки? Чем выше степень согласованности при неоднократном применении, тем выше надежность. Цель измерения всегда заключается в максимизации надежности, Валидность, как и везде, имеет отношение к точности – в данном случае, к точности измерений. Вопрос состоит в том, точно ли отражают полученные в ходе измерения значения изучаемый конструкт, то есть измеряем ли мы именно то, что предполагали измерять? Валидность, очевидно, вопрос, касающийся всего процесса измерения. Это глобальная цель, охватывающая все частные моменты, обсуждавшиеся в данном разделе.
Всегда, когда мы что-либо измеряем, встают вопросы надежности и валидности. Однако на практике эти конструкты чаще всего рассматриваются в их отношении к двум видам измерения: к стандартизованным тестам и к обсервативным оценкам. Стандартизованным тестам и методу наблюдения посвящены оставшиеся разделы этой главы; в контексте этих двух форм измерения я более подробно остановлюсь на вопросах надежности и валидности.
Тесты
Для определения, достойна ли некая измерительная операция называться тестом, не существует общепринятых критериев. В том смысле, в котором данный термин употребляется здесь, это измерительный инструмент, выполняющий функцию оценки ряда важнейших психологических характеристик. Существует множество психологических характеристик и еще больше тестов, претендующих на их измерение; список их включает несколько тысяч наименований (например, Burps, 1978). На страницах этой книги вы встретите ряд примеров: методики оценки темперамента в младенчестве (глава 10), Я-концепции у дошкольников (глава 12), полоролевого развития у старших детей (глава 12) и интеллекта в разные периоды жизни (главы 10, 11 и 13). Приведенные в качестве примера тесты – как и все тесты вообще – различаются по объекту оценки, по возрастным группам, для которых они предназначены, по схеме получения ответов и способам использования результатов тестирования. Однако общим для них всех является то, что они должны отвечать двойному критерию – валидности и надежности.
Валидность
При оценке валидности теста ставится следующий вопрос: измеряет ли тест то, что, как предполагается, он должен измерять? Если это, к примеру, IQ-тест, действительно он измеряет различия в уровне интеллекта или различия показателей испытуемых обусловлены чем-то другим? Очевидно, что недостаточно назвать тест тестом интеллекта, нужны другие критерии. В целом, существует три типа критериев валидности.
Первый – тест должен отвечать требованиям содержательной валидности. Термин содержательная валидность означает адекватность, с которой задания теста характеризуют изучаемое понятие. Включает ли тест все важнейшие аспекты объекта, которые мы хотим измерить, и правильно ли оценивается значение каждого из них? Предположим, наш тест должен оценивать знания арифметики на уровне 4-го класса. Тест, содержащий примеры только на сложение, будет обладать недостаточной содержательной валидностью. Значительно лучшей содержательной валидностью будет обладать тест, включающий репрезентативную подборку задач на сложение, вычитание, умножение и деление.
Добиться содержательной валидности желательно, но это не всегда легко. Даже в отношении такого строго структурированного предмета, как элементарная арифметика, могут возникнуть расхождения, касающиеся адекватности подобранных заданий. К примеру, сколько должно быть примеров с двузначными, а сколько – с трехзначными числами; в какой контекст или в какие контексты должны быть помещены эти примеры? Когда объектом является нечто более сложное, чем элементарная арифметика, добиться содержательной валидности бывает практически невозможно. Как бы ни был широк диапазон подобранных вопросов теста, сомнительно, чтобы с помощью одного контент-анализа можно было бы продемонстрировать полноту и репрезентативность подбора вопросов для оценки любого из возможных аспектов «интеллекта». В таких случаях необходимы другие индексы валидности.
Вторая форма валидности – критериальная валидность. Здесь вопрос состоит в том, связаны ли результаты выполнения теста испытуемым с определенным внешним критерием характеристики, оцениваемой этим тестом. В случае теста на знание арифметики разумным критерием были бы отметки по арифметике за учебный год. Тест, значительно коррелирующий с этими отметками, обладал бы необходимой критериальной валидностью. В случае с интеллектом характерным критерием является возможность с помощью IQ-тестов спрогнозировать уровень школьной успеваемости или успешность выполнения стандартизированных тестов достижения; в действительности, исторически именно потребность в инструментах прогноза школьной успеваемости заставила приступить к разработке первого IQ -теста (тест Симона—Бине, 1905 год). Чаще всего критериальная валидность – это главная форма валидности тестов, основная функция которых состоит
в получении прогностической прагматической оценки. Поэтому именно критериальная валидность лежит в основе использования тестов академических способностей (Scholastic Aptitude Test – SAT) или письменных экзаменов для выпускников (Graduate Record Examinations – GRE) с целью прогноза успеваемости в колледже; использования результатов забега на 40 ярдов с целью прогноза успехов профессиональных футболистов и т. д.
Выделяют две формы критериальной валидности. Тест, коррелирующий с неким наличествующим в данный момент внешним критерием, считается обладающим текущей валидностью. Доказав, к примеру, что IQ, измеряемый во втором классе, коррелирует со школьной успеваемостью во втором классе, мы продемонстрировали бы текущую валидность нашей методики оценки IQ. О тесте, коррелирующем с неким внешним критерием в будущем, говорят, что он обладает прогностической валидностью. Доказав, что IQ, измеренный во втором классе, связан с успеваемостью в старших классах, мы продемонстрировали бы прогностическую валидность.
Последняя форма валидности, которую мы рассмотрим, называется конструкт-ной валидностью. Среди психометристов конструктная валидность считается наиболее важной формой валидности теста. К сожалению, из всех видов валидности исследователю ее труднее всего добиться, а автору учебника – труднее всего разъяснить. Я ограничусь лишь краткими предварительными замечаниями об этом сложном понятии. Более подробное изложение данной темы можно найти во многих источниках, включая работы Кронбах (Croiibach, 1990), Керлингер (Kerlinger, 1986) и Наннэлли (Nunnally, 1978).
Характерной особенностью конструктной валидности является ее теоретическая направленность. Как замечает Керлингер (Kerlinger, 1986), «это не просто вопрос валидизации теста. Необходимо попытаться валидизировать теорию, стоящую за тестом» (р. 420). Исходным пунктом поэтому становится некая концепция конструкта (интеллекта, креативности, Я-концепции, тревожности и т. д.), который мы хотим измерить. На основе этой концепции можно выдвинуть ряд гипотез. Это могут быть гипотезы об эффекте определенного рода экспериментальных манипуляций. Предположим, что мы пытаемся валидизировать некую методику измерения тревожности. Можно выдвинуть гипотезу о том, что повышение напряженности тестовой ситуации приведет к повышению показателя, полученного при помощи данной методики, и наоборот, снижение напряженности приведет к снижению этого показателя. Подобные результаты явились бы свидетельством наличия конструктной валидности.
Для установления конструктной валидности, помимо экспериментальных тестов, имеют значение и корреляционные данные. Прогнозируемые корреляции бывают двух видов. Одни гипотезы касаются вопроса о том, какие параметры конструкта положительно коррелируют с некими другими параметрами.
Рис, 4.1. Пример матрицы «свойствах методы. Буквами обозначены свойства или конструкты, а числами – методы исследования
Разрабатывая, к примеру, тест тревожности, мы могли бы предположить, что самоотчеты о переживании чувства тревоги коррелируют с физиологическими изменениями, которые рассматриваются как индикаторы тревоги (например, повышение частоты сердечных сокращений). Наличие прогнозировавшейся корреляции между показателями, имеющими общую теоретическую основу, называется конвергентной валидностью. Другие гипотезы касаются вопроса о том, какие показатели не должны коррелировать друг с другом. Например, при валидизации теста тревожности необходимо доказать, что некоторые физиологические изменения не связаны с самоотчетами о переживании чувства тревоги, таким образом, исключая общее возбуждение как объяснение полученных результатов. Дифференциация показателей, имеющих разную теоретическую основу, называется дивергентной (или дискрими-нантной) валидностью.
Весьма оригинальное решение вопроса конструктной валидности предложили Кемпбелл и Фиске (Campbell & Fiske, 1959), разработавшие матрицу «свойства X методы» (СМ). Использование матрицы СМ подразумевает анализ корреляций между предполагаемыми свойствами или конструктами, каждый из которых измеряется при помощи разных методов. В примере, проиллюстрированном на рис. 4.1, исследуется три свойства, каждое из которых оценивается при помощи трех методов, результатом чего является 9 показателей (А1,А2 и т. д.), составляющих массив таблицы. Конвергентную валидность демонстрировали бы достаточно высокие коэффициенты корреляции между показателями каждого столбца, то есть показателями, которые, как предполагается, характеризуют один и тот же конструкт и отличаются только методами, посредством которых они были получены. Дивергентную валидность демонстрировали бы низкие коэффициенты корреляции между любыми показателями, не попадающими в один столбец. Особенно интересны в этом отношении корреляции между показателями каждой строки – то есть, показателями, полученными при использовании одного и того же метода оценки. Иногда положительные корреляции между результатами обусловлены только методическим сходством заданий, а не характером измеряемых параметров. К примеру, в ряде тестов требуется быстрая реакция в условиях ограничения времени; тогда, что бы ни измеряли тесты, испытуемые, чувствующие себя в такой обстановке более уверенно, справятся с заданиями лучше. О корреляциях, являющихся результатом частичного совпадения методов, говорят, что они отражают дисперсию общности методов. Матрица СМ позволяет определить вклад дисперсии общности методов во все полученные корреляционные связи.
Как следует из вышесказанного, конструктная, как и критериальная валидность в большинстве случаев оценивается через проверку ожидаемых корреляций между результатами измерений. Однако между этими двумя видами валидности имеются существенные различия. Критериальная валидность обычно оценивается по какому-то одному внешнему показателю, например школьной успеваемости, в отношении которого мы хотим сделать прогноз; конструктная же валидность оценивается по целой системе предполагаемых взаимосвязей. Цель определения критериальной валидности, как правило, – в прагматическом прогнозе; цель определения конструктной валидности – валидизация лежащей в основе теста теории. Поэтому то, что последняя из рассмотренных форм валидности носит то же название, что и одна из форм валидности эксперимента, о которой рассказывалось в главе 2, не случайно (хотя и может смутить читателя). В обоих случаях сутью вопроса является теоретическая обоснованность: в одном – в отношении измерения, в другом – в отношении исследования в целом.