Текст книги "Интеллект успеха"

Автор книги: Роберт Стернберг

Жанр:

Самопознание

сообщить о нарушении

Текущая страница: 6 (всего у книги 23 страниц) [доступный отрывок для чтения: 6 страниц]

Назад к карточке книги

Как составляются тесты проверки умственных способностей

Каким принципам следуют авторы и издатели при создании подобных тестов? Существует два основных подхода к построению тестов, хотя один из них используется гораздо чаще другого.

Эмпирический подход

В данном подходе проводится серия наблюдений над людьми, которые преуспели в некоторой конкретной области, например в школе. После этого вопросы строятся так, чтобы отделить тех, у кого есть максимальные шансы добиться успеха, от тех, у кого эти шансы минимальны. Или даже еще проще: можно выбрать задания, с которыми дети постарше справятся с большей вероятностью, чем дети младшего возраста. Фактически именно таким образом поступал Бине – выбирал задания, позволявшие отделять старших детей от младших. Подобный подход выглядит достаточно разумным. В конце концов, с возрастом дети, как правило, умнеют. Однако с этим подходом связаны некоторые важные проблемы, приведшие в настоящее время к ряду дилемм, которые приходится решать при тестировании умственных способностей.

Одна из трудностей состоит в том, что выборки, на основе которых разрабатываются тесты, состоят фактически из одних детей. Вспомните, что тесты первоначально использовались и по-прежнему используются преимущественно для того, чтобы выделить очень одаренных детей среди их менее одаренных сверстников. В результате такие тесты, как правило, больше подходят детям, чем взрослым. Это и создает дилемму. Дети массу времени тратят на решение математических задач, тогда как взрослые могут по много лет вообще не заниматься подобными вещами. Когда зрелые люди пытаются поступить в колледж или аспирантуру, им предлагают выполнить стандартные тесты типа SAT или GRE, где нужно помнить теоремы из курсов алгебры и геометрии, а они, возможно, слышали о них в последний раз лет десять тому назад. Очевидно, эти тесты не могут служить таким же критерием оценки взрослых людей, каким они служат для учеников или недавних выпускников школ. Ничего удивительного в том, что люди старшего возраста часто при тестировании показывают слабые результаты.

Таким образом, структура и содержание тестов отражает в большей степени программу средней школы, чем те вещи, с которыми приходится сталкиваться зрелым людям в повседневной жизни. Эти тесты более уместно относить к критериям оценки «учебного интеллекта». Более того, школьная система, на которой они основаны, – это западная школьная система, которая принята вовсе не во всем мире. Даже в Соединенных Штатах ученики могут получать альтернативное образование; так, например, юные религиозные евреи ходят в синагогу, где основополагающие принципы черпаются из Талмуда, а не из классической западной литературы.

Вторая, связанная с первой, проблема обусловлена самим процессом тестирования. В младших классах дети еще не знакомы с процедурой тестирования. Лично я с большей настороженностью отношусь к результатам тестирования учеников до четвертого класса (то есть тех, кому еще не исполнилось девять-десять лет), поскольку маленьким детям часто в новинку сама обстановка тестирования. Я все еще помню свой первый тест в третьем классе с ответами на отдельных листочках. Это был «Тест проверки базовых способностей для штата Айова», который считался тестом достижений. У меня буквально стоит перед глазами то, как я подошел к последнему заданию и с ужасом обнаружил, что у меня осталось несколько незаполненных клеток для ответов. Я просто запутался и вносил ответы в позиции, которые соответствовали совсем другим вопросам. Но учительницу это не волновало. По результатам теста она сделала вывод о том, что уровень моих знаний в рамках тестируемого материала очень низок.

С годами ученики приобретают навыки выполнения тестов. Сама обстановка тестирования становится для них более привычной. Но дети, не посещавшие школы западного образца, могли никогда не сталкиваться с подобными заданиями. Точно так же люди среднего и старшего возраста, как на Западе, так и в других местах, могут годами не иметь ни малейшего представления о таких тестах. Для них процедура тестирования и даже мысль о ней могут быть сопряжены с переживаниями или страхом. И опять-таки, нельзя интерпретировать результаты их тестирования на основе тех же критериев, что и у молодежи.

Исследования показали, что немаловажное значение могут иметь и определенные особенности тестируемых. Например, чернокожие дети могут оказаться в менее выгодном положении при выполнении типичных тестов проверки умственных способностей. Могут сказаться и менее очевидные различия. Много лет назад, работая в летние месяцы в «Psychological Corporation», одном из крупнейших издательств тестов, которое находилось тогда в Нью-Йорке, я участвовал в приеме экзаменов. В компании решили, что для достижения максимально равноправных условий тестирования необходимо записать все задания на магнитофонную пленку. В таком случае каждый испытуемый будет слышать один и тот же голос, читающий инструкции с одинаковым для всех темпом и дикцией. В теории все выглядело замечательно. На практике все оказалось не так гладко.

Например, можно было ожидать, что для записи пригласят профессионального диктора с разборчивой, четкой артикуляцией и, возможно, с тем приятным «ванильным» акцентом уроженцев Среднего Запада, который легче всего воспринимается слушателями. Но по каким-то причинам президент компании решил начитать инструкции к тесту сам. Профессиональным диктором он не был. Что более существенно, его характерный техасский выговор основательно запутал, по всей видимости, немало ньюйоркцев. Его чтение было, возможно, по душе жителям Хьюстона, но многим жителям Нью-Йорка приходилось напрягаться, чтобы понять, о чем идет речь.

А что еще хуже, идея о том, что все будут одновременно выполнять инструкции, записанные на пленку, сыграла со многими злую шутку. Я наблюдал, как некоторые испытуемые терялись во время теста, у них буквально опускались руки – они еще не закончили одно задание, а механический голос из магнитофона уже диктовал следующее. Но когда сотрудники, в обязанности которых входило принятие решений о приеме испытуемых на работу, получали результаты тестирования, они видели аккуратные, чистые компьютерные распечатки, и создавалось впечатление, что так же четко и гладко проходил и сам тест.

В качестве последнего недостатка эмпирического подхода к построению тестов можно заметить, что авторы этих тестов, как правило, не задаются вопросом о том, что представляет собой интеллект. Они просто используют подтвержденные практикой критерии, например то, что позволяет отличить детей младшего возраста от детей постарше. Но дети с годами становятся в среднем выше и тяжелее. Авторы тестов не предлагают использовать для измерения интеллекта линейку или весы; рост и вес не являются критерием интеллекта. Но то, что на практике предлагается использовать для этих целей и в конечном итоге включается в тесты, вовсе не выглядит более обоснованным, чем измерение роста и веса. При отсутствии теории интеллекта нельзя дать четкого определения этого понятия, если, конечно, не удовлетвориться сомнительной формулировкой «интеллект – это то, что измеряется тестами»; данное рабочее определение предложил ныне покойный профессор Гарвардского университета с весьма уместной фамилией – Боринг (boring (англ.) – скучный, занудный).

Тесты, основанные на теории

Второй подход построения тестов состоит в создании теории интеллекта, на основе которой затем вырабатываются тесты. Преимущество такого подхода, очевидно, в том, что вы вооружены четким определением понятия интеллекта. Потребители тестов – психологи, школы или служащие, которые приобретают этот товар, – могут решать, нравится им данная теория или нет, и на основе этого решения покупать или не покупать тесты. Во многих отношениях такой подход к тестированию является более честным. Издатели тестов говорят, что они понимают под интеллектом, а потребители могут принять эту точку зрения или отвергнуть ее. Здесь нет лукавства с ярлыками: вам открыто говорят, что продают.

Но лишь очень немногие тесты проверки умственных способностей создаются на основе теорий интеллекта. Почему? Потому, что такой подход вынуждает издателей тестов принимать определенную концепцию интеллекта. А они, как правило, избегают этого: либо потому, что сами имеют весьма смутное представление об этом, либо для того, чтобы побольше продать своей продукции. Они рассуждают подобно производителям пищевых продуктов до принятия законов о точности содержания ярлыков и наклеек: чем меньше люди знают о том, что им предлагают, тем меньше вероятность, что они от этого откажутся. Сегодня, если вам не нравятся продукты с высоким содержанием жира, вы просто их не покупаете. Раньше, не зная содержания жира в конкретном продукте, вы вполне могли бы и купить его, повышая таким образом общий объем его продаж. Что касается тестов, то ввиду отсутствия четких теоретических основ вы часто покупаете то, о чем имеете достаточно смутное представление.

Как оцениваются тесты проверки умственных способностей

Безусловно, потребители тестов не являются полными идиотами и хотят получить адекватную информацию об этом товаре – их приходится убеждать, что тесты небесполезны хотя бы в некоторых процессах принятия решений (или, по крайней мере, производят такое впечатление).

Валидность

Первую важную информацию такого рода, которая будет постоянно обсуждаться в данной книге, часто называют «критерием валидности». Вопрос здесь состоит в том, насколько результаты тестирования измеряют то, что они должны измерять в соответствии со своим назначением. Отражают ли они то, что от них действительно ожидают? Например, критерием валидности тестов проверки умственных способностей часто служат оценки, которые ученики получают в школе; а если речь идет о программах профессиональной подготовки, критерием может быть последующая эффективность на рабочих местах.

В так называемых технических руководствах по использованию тестов приводится масса статистических материалов, связанных с критериями валидности тестов. Но здесь, опять-таки, не все так просто. В какой степени нас должны беспокоить оценки в школе? Разве они служат показателем того, что один человек умнее другого? Или должны ли нас волновать показатели стандартизованных тестов достижений? Мой сын начал выпускать свою газету в школе, он постоянно готовит материалы в уже существующую школьную газету, пилотирует самолет, переводит в местной больнице на английский язык жалобы и другие медицинские проблемы испаноязычных пациентов. По-моему, неплохие достижения для семнадцатилетнего парня. Однако ни одно из них не относится к тем критериям, по которым проверяется валидность тестов проверки интеллектуальности. А разве взрослых людей волнуют полученные когда-то оценки? Может быть, кандидатов на ответственные посты в промышленности отбирают на основе этих оценок? Сомневаюсь!

С моей точки зрения, очень печально, что мы относимся к результатам тестирования способностей как к официальным, важным данным, а к внеклассной деятельности детей – как к чему-то второстепенному. И поскольку часто бывает удобно прикрываться количественными результатами, мы предпочитаем просто считать, а не серьезно анализировать такую деятельность. В результате ученик, посещающий три внешкольных клуба, оценивается выше того, кто придумал и организовал один клуб. Наилучшим предсказателем интеллекта успеха в будущем является интеллект успеха в прошлом. И предсказания должны базироваться на успешной деятельности в реальном мире в течение длительного периода времени, а не на успехах в мире тестирования, длительность существования которого составляет всего три часа.

Уже не один год я заявляю: тесты не измеряют то, что действительно важно для подлинного успеха и в учебе, и на работе. В частности, я утверждаю, что на уровне аспирантуры, где готовятся профессионалы, тесты не измеряют навыки и способности, которые важны для получения работы. В конце концов, я решил подтвердить свои слова объективными фактами. Вместе с Венди Вильямсом мы исследовали значимость предсказаний приемного письменного экзамена (GRE). В выборку были включены абитуриенты за двенадцатилетний период (166 студентов), обучавшиеся в рамках нашей программы по психологии для аспирантов. Результаты прогнозов GRE сравнивались с оценками, полученными в первый и второй год аспирантуры, а также, что более важно, с оценкой студентов преподавателями с точки зрения (а) аналитических способностей, (б) творческих способностей, (в) практических способностей, (г) исследовательских способностей, (д) способностей к преподаванию, (е) подготовленных диссертаций. Безусловно, в аспирантуре последний показатель имеет гораздо большее значение, чем полученные оценки.

Ну и какими оказались результаты? Рассматривая совместно мужчин и женщин (последние на равных основаниях участвовали и в тестах, и в самой программе), мы обнаружили, что GRE устойчиво прогнозирует оценки, получаемые в течение первого года программы, но не более. Хотя уровень оправданности предсказаний и здесь был более чем скромен. Для GRE-тестов на вербальное мышление общая корреляция составляла 0,18 (0 – отсутствие корреляции, 1– полная корреляция) – результат на грани статистической значимости. Для аналитических способностей корреляция была равна 0,17 – опять-таки на пределе статистической значимости. Максимальная корреляция, что не удивительно, была получена для теста достижений в психологии – 0,37. Достижения в тесте явились наилучшим предсказанием достижений в программе. Какие-либо другие важные критерии тест не прогнозировал. Он не предсказывал даже оценки на втором году обучения. Стало понятно, почему издатели теста, приводя информацию о валидности теста, уделяли такое внимание оценкам в течение первого года обучения!

Интересные особенности были обнаружены после того, как мы провели классификацию по половому признаку. Один из субтестов – аналитический – с умеренной точностью, но статистически значимо прогнозировал некоторые из наиболее важных критериев, но только для мужчин. Например, для мужчин корреляция показателей аналитического GRE-теста с оценкой преподавателями аналитических способностей аспирантов составляла 0,31. Для женщин эта корреляция была равна всего 0,05. Фактически, для женщин тест вообще не давал статистически значимых предсказаний. Таким образом, комбинация результатов для мужчин и женщин дает обманчивую картину эффективности теста в прогнозировании успеха в аспирантуре. Хотя достижения мужчин и женщин в рамках нашей программы в общем равнозначны, предвестники их успехов существенно различаются. Причины этих расхождений пока неизвестны.

Мы полагаем, что на основании проведенных исследований можно сделать несколько полезных выводов. Во-первых, тесты предсказывают прежде всего оценки, и часто именно оценки оказываются их единственным удачным прогнозом. Нет ничего плохого в предсказании оценок – они также важны, тем более что мы постоянно себя в этом убеждаем, – но жизнь вовсе не сводится к одним только оценкам. Во-вторых, точность прогноза не одинакова для различных групп, о чем нельзя забывать, анализируя результаты тестирования. Женщинам приходится решать ряд проблем, которые неведомы мужчинам. Кроме того, как показывают исследования, женщины часто убеждены, что не способны выполнять определенные задачи, в результате чего они действительно очень слабо справляются с этими задачами. Когда человек настраивается на неудачу, вероятность неудачного исхода заметно возрастает.

Мы не были особо поражены результатами наших исследований GRE-тестирования, равно как не были удивлены и реакцией на них в различных группах, где мы показывали эти результаты. Те, кто с самого начала скептически относился к тестам, кивали головой – дескать, ничего другого мы и не ожидали. Но горячие приверженцы тестирования со скепсисом отнеслись как раз к нашим изысканиям. Они, например, заявили, что для подлинной проверки теста необходима информация о том, насколько преуспели бы в программе те, кто не был принят.

В определенном смысле они правы. Было бы замечательно узнать, как бы пошли дела у тех, кто не был принят. Лично я считаю, что у большинства из них все было бы в порядке. Но проблема в том, что мы не можем провести подобные исследования – именно потому, что такие люди не были допущены к участию в программе, причем чаще всего на основании результатов тестирования. То есть чтобы разубедить скептиков, необходимо провести исследования, которые провести невозможно. Но зато можно сделать что-то довольно близкое к этому. В течение года или нескольких лет мы могли бы принимать всех абитуриентов, независимо от результатов тестирования, и посмотреть, как они проявят себя в различных аспектах программы. В этом случае базовая выборка была бы свободна от того смещения, которое «портит» выборку, сформированную по результатам тестирования. Идеальным с точки зрения эксперимента был бы, безусловно, случайный прием абитуриентов. Но, конечно же, никто не захочет закрывать глаза на результаты тестирования в течение года или двух, а руководство факультета будет против набора аспирантов по случайному принципу. Таким образом, система остается на прежнем месте, а люди – при своих убеждениях, которые, похоже, так никогда и не удастся переломить.

Наши исследования GRE-тестов и другие подобные данные указывают на необходимость получения дополнительной информации о валидности тестов – помимо той, что обычно приводится в технических руководствах. Нужны более универсальные критерии, а также данные о валидности тестов для различных групп людей и различных ситуаций. Часто подразумевается, что, раз тесты работают для одной группы, они будут работать и для других, хотя на практике можно наблюдать обратное.

Надежность (достоверность)

При оценке тестов их издатели и потребители уделяют пристальное внимание еще одной характеристике. Речь идет о надежности (достоверности), которая определяет, насколько устойчиво тест измеряет то, для чего он предназначен. Другими словами, если тест выполняется один раз, а затем еще раз, будут ли совпадать результаты?

Многие из распространенных тестов достаточно надежны – в противном случае они бы и не завоевали такую популярность. Но здесь речь идет об усредненных показателях. Встречаются люди, результаты которых флуктуируют в умеренных пределах, а есть и такие, у которых разбежки от теста к тесту могут быть значительными. Так, например, с помощью специальных пособий и курсов подготовки многим удается улучшать результаты выполнения таких тестов, как SAT и GRE, или других аналогичных конкурсных тестов.

В связи с доступностью таких книг и курсов, а также с учетом того, что они позволяют в среднем заметно повышать показатели тестирования, возникает вопрос о равноправии. Как быть с теми, кто не знает о существовании таких курсов, кто не может себе их позволить или у кого нет на них времени? Безусловно, издатели тестов будут настаивать, что даваемые книгами и курсами преимущества не так уж велики. В среднем, конечно, нет. Но для отдельных людей они существенны, а что более важно, когда речь идет о миллионах решений, принимаемых в течение года по результатам миллионов тестов, даже очень маленькие различия приведут в среднем к весьма впечатляющим последствиям. Для некоторых соответствующая книга или курсы могут сыграть важную роль, и ввиду неравноправного доступа к ним результаты тестирования для различных людей не могут интерпретироваться единым образом. Поэтому общая надежность тестов призвана нивелировать подобные нежелательные последствия неравноправия.

Издатели также отдают предпочтение таким тестам, в которых отдельные задания конкретного субтеста измеряют примерно одну и ту же характеристику. Они даже приводят статистические данные, демонстрирующие однородность различных элементов субтеста по отношению к измеряемой характеристике. Хотя за такую согласованность результатов приходится расплачиваться. Чем больше элементов теста измеряют одно и то же, тем меньше диапазон проводимых измерений. Другими словами, согласованность достигается за счет широты охвата. Узость используемых тестов, похоже, мало кого волнует; но тесты ведь действительно очень ограничены! Мы имеем надежные хорошие измерения пассивного интеллекта. Но как использовать результаты этих измерений?

Назад к карточке книги "Интеллект успеха"