Валидность методик. Соотношение валидности и надежности

Другим после надежности ключевым критерием оценки качества методик является валидность. Вопрос о валидности методи­ки решается лишь после того, как установлена достаточная ее надеж­ность, поскольку ненадежная методика не может быть валидной. Но самая надежная методика без знания ее валидности является практи­чески бесполезной.

Следует заметить, что вопрос о валидности до последнего времени представляется одним из самых сложных. Наиболее укоренившимся определением этого понятия является то, которое приведено в книге А. Анастази: «Валидность теста - понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает» .

Валидность по своей сути - это комплексная характеристика, вклю­чающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность, практическая полезность.

По этой причине не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сто­рону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Другими словами, понятие валидно­сти включает в себя разные ее виды, имеющие свой особый смысл. Проверка валидности методики называется валидизацией.

Валидность в первом ее понимании имеет отношение к самой мето­дике, т. е. это валидность измерительного инструмента. Такая провер­ка называется теоретической валидизацией. Валидность во втором понимании уже относится не столько к методике, сколько к цели ее использования. Это прагматическая валидизация.

Обобщая, можно сказать следующее:

♦ при теоретической валидизации исследователя интересует само свойство, измеряемое методикой. Это, по существу, означает, что проводится собственно психологическая валидизация;

♦ при прагматической валидизации суть предмета измерения (пси­хологического свойства) оказывается вне поля зрения. Главный акцент сделан на то, чтобы доказать, что нечто, измеряемое мето­дикой, имеет связь с определенными областями практики.

Провести теоретическую валидизацию , в отличие от прагматиче­ской, порой оказывается значительно труднее. Не вдаваясь пока в кон­кретные детали, остановимся в общих чертах на том, как проверяется прагматическая валидность: выбирается какой-нибудь независимый от методики внешний критерий, определяющий успех в той или иной деятельности (учебной, профессиональной и т. п.), и с ним сравнива­ются результаты диагностической методики. Если связь между ними признается удовлетворительной, то делается вывод о практической зна­чимости, эффективности, действенности диагностической методики.


Для определения теоретической валидности найти какой-либо не­зависимый критерий, лежащий вне методики, гораздо труднее. Поэто­му на ранних стадиях развития тестологии, когда концепция валидно­сти только складывалась, бытовало интуитивное представление о том, что тест измеряет:

1) методика называлась валидной, так как то, что она измеряет, про­сто очевидно;

2) доказательство валидности основывалось на уверенности иссле­дователя в том, что его метод позволяет понять испытуемого;

3) методика рассматривалась как валидная (т. е. принималось ут­верждение, что такой-то тест измеряет такое-то качество) только потому, что теория, на основании которой строилась методика, очень хорошая.

Принятие на веру голословных утверждений о валидности методи­ки не могло продолжаться длительное время. Первые проявления дей­ствительно научной критики развенчали такой подход: начались по­иски научно обоснованных доказательств.

Таким образом, провести теоретическую валидизацию методики - это доказать, что методика измеряет именно то свойство, качество, которое она по замыслу исследователя должна измерять.

Так, например, если какой-то тест разрабатывался для того, чтобы диагностировать умственное развитие детей, надо проанализировать, действительно ли он измеряет именно это развитие, а не какие-то дру­гие особенности (например, личность, характер и т. п.). Таким образом, для теоретической валидизации кардинальной проблемой является отношение между психологическими явлениями и их показателями, посредством которых эти психологические явления пытаются познать. Это показывает, насколько замысел автора и результаты методики со­впадают.

Не столь сложно провести теоретическую валидизацию новой ме­тодики, если для измерения данного свойства уже имеется методика с доказанной валидностью. Наличие корреляции между новой и ана­логичной уже проверенной методикой указывает на то, что разра­ботанная методика измеряет то же психологическое качество, что и эталонная. И если новый метод одновременно оказывается более ком­пактным и экономичным в проведении и обработке результатов, то психодиагносты получают возможность использовать новый инстру­мент вместо старого.

Но теоретическая валидность доказывается не только путем сопо­ставления с родственными показателями, а также и с теми, где, исходя из гипотезы, значимых связей не должно быть. Таким образом, для проверки теоретической валидности важно, с одной стороны, устано­вить степень связи с родственной методикой (конвергентная валид­ность) и отсутствие этой связи с методиками, имеющими другое тео­ретическое основание (дискриминантная валидность).

Гораздо труднее провести теоретическую валидизацию методики тогда, когда такой путь проверки невозможен. Чаще всего именно с такой ситуацией сталкивается исследователь. В таких обстоятельствах только постепенное накопление разнообразной информации о изуча­емом свойстве, анализ теоретических предпосылок и эксперименталь­ных данных, значительный опыт работы с методикой позволяет рас­крыть ее психологический смысл.

Важную роль для понимания того, что методика измеряет, играет сопоставление ее показателей с практическими формами деятельно­сти. Но здесь особенно важно, чтобы методика была тщательно прора­ботана в теоретическом плане, т. е. чтобы имелась прочная, обосно­ванная научная база. Тогда при сопоставлении методики с взятым из повседневной практики внешним критерием, соответствующим тому, что она измеряет, может быть получена информация, подкрепляющая теоретические представления о ее сущности.

Важно помнить, что если доказана теоретическая валидность, то ин­терпретация полученных показателей становится более ясной и од­нозначной, а название методики соответствует сфере ее применения. Что касается прагматической валидизации, то она подразумевает проверку методики с точки зрения ее практической эффективности, значимости, полезности, поскольку диагностической методикой име­ет смысл пользоваться только тогда, когда доказано, что измеряемое свойство проявляется в определенных жизненных ситуациях, в опре­деленных видах деятельности. Ей придают большое значение особен­но там, где встает вопрос отбора.

Если опять обратиться к истории развития тестологии , то можно выделить такой период (20-30-е гг. XX в.), когда научное содержание тестов и их теоретический багаж интересовали в меньшей степени. Важно было, чтобы тест работал, помогал быстро отбирать наиболее подготовленных людей. Эмпирический критерий оценки тестовых заданий считался единственно верным ориентиром в решении научных и прикладных задач.

Использование диагностических методик с чисто эмпирическим обоснованием, без отчетливой теоретической базы нередко приводило к псевдонаучным выводам, к неоправданным практическим рекомен­дациям. Нельзя было точно назвать те особенности, качества, которые тесты выявляли. По существу они являлись слепыми пробами.

Такой подход к проблеме валидности тестов был характерен вплоть до начала 50-х гг. XX в. не только в США, но и в других странах. Те­оретическая слабость эмпирических методов валидизации не могла не вызвать критики со стороны тех ученых, которые в разработке тестов призывали опираться не только на голую эмпирику и практику, но и на теоретическую концепцию. Практика без теории, как известно, слепа, а теория без практики мертва. В настоящее время теоретико-практическая оценка валидности методик воспринимается как наибо­лее продуктивная.

Для проведения прагматической валидизации методики, т. е. для оценки ее эффективности, действенности, практической значимости, обычно используется независимый внешний критерий - показатель проявления изучаемого свойства в повседневной жизни. Таким кри­терием может быть и успеваемость (для тестов способностей к обу­чению, тестов достижений, тестов интеллекта), и производственные достижения (для методик профессиональной направленности), и эф­фективность реальной деятельности - рисование, моделирование и т. д. (для тестов специальных способностей), субъективные оценки (для тестов личности).

Американские исследователи Д. Тиффин и Е. Мак-Кормик, прове­дя анализ используемых для доказательства валидности внешних кри­териев, выделяют четыре их типа [по 31):

1) критерии исполнения (в их число могут входить такие, как коли­чество выполненной работы, успеваемость, время, затраченное на обучение, темп роста квалификации и т. п.);

2) субъективные критерии (они включают различные виды ответов, которые отражают отношение человека к чему-либо или к кому-либо, его мнение, взгляды, предпочтения; обычно субъективные критерии получают с помощью интервью, опросников, анкет);

3) физиологические критерии (они используются при изучении вли­яния окружающей среды и других ситуационных переменных на организм и психику человека; замеряется частота пульса, давле­ние крови, электросопротивление кожи, симптомы утомления И т. д.);

4) критерии случайностей (применяются, когда цель исследования касается, например, проблемы отбора для работы таких лиц, ко­торые менее подвержены несчастным случаям).

Внешний критерий должен отвечать трем основным требованиям:

♦ он должен быть релевантным;

♦ свободным от помех;

♦ надежным.

Под релевантностью имеется в виду смысловое соответствие диаг­ностического инструмента независимому жизненно важному критерию. Другими словами, должна быть уверенность в том, что в крите­рии задействованы именно те особенности индивидуальной психики, которые измеряются и диагностической методикой. Внешний крите­рий и диагностическая методика должны находиться между собой во внутреннем смысловом соответствии, быть качественно однородны­ми по психологической сущности. Если, например, тест измеряет ин­дивидуальные особенности мышления, умение выполнять логические действия с определенными объектами, понятиями, то и в критерии нужно искать проявление именно этих умений. Это в равной степени относится и к профессиональной деятельности. Она имеет не одну, а несколько целей, задач, каждая из которых специфична и предъяв­ляет свои условия к выполнению. Из этого вытекает существование нескольких критериев выполнения профессиональной деятельности. Поэтому не следует проводить сопоставление успешности по диагно­стическим методикам с производственной эффективностью в целом. Необходимо найти такой критерий, который по характеру выполняе­мых операций соотносим с методикой.

Если относительно внешнего критерия неизвестно, релевантен он измеряемому свойству или нет, то сопоставление с ним результатов психодиагностической методики становится практически бесполез­ным. Оно не позволяет прийти к каким-либо выводам, которые могли бы дать оценку валидности методики.

Требования свободы от помех вызываются тем, что, например, учеб­ная или производственная успешность зависит от двух переменных: от самого человека, его индивидуальных особенностей, измеряемых методиками, и от ситуации, условий учебы, труда, которые могут при­внести помехи, «загрязнить» применяемый критерий. Чтобы в какой-то мере избежать этого, следует отбирать для исследования такие груп­пы людей, которые находятся в более или менее одинаковых условиях. Можно использовать и другой метод. Он состоит в корректировке влияния помех. Эта корректировка носит обычно статистический ха­рактер. Так, например, производительность следует брать не по абсо­лютным значениям, а в отношении к средней производительности ра­бочих, работающих в аналогичных условиях.

Когда говорят, что критерий должен иметь статистически достовер­ную надежность, это означает, что он должен отражать постоянство и устойчивость исследуемой функции.

Поиски адекватного и легко выявляемого критерия относятся к очень важным и сложным задачам валидизации. В западной тестологии мно­го методик дисквалифицировано только потому, что не удалось найти подходящего критерия для их проверки. Например, у большей части анкет данные по их валидности сомнительны, так как трудно найти адекватный внешний критерий, отвечающий тому, что они измеряют.

Оценка валидности методик может носить количественный и каче­ственный характер.

Для вычисления количественного показателя - коэффициента ва­лидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреля­ции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности?

Практика показала, что их не должно быть меньше 50, однако луч­ше всего более 200. Часто возникает вопрос, какой должна быть вели­чина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валид­ности был статистически значим. Низким признается коэффициент валидности порядка 0,20-0,30, средним - 0,30-0,50 и высоким - свы­ше 0,60.

Но, как подчеркивают А. Анастази , К. М. Гуревич и др., не всегда для вычисления коэффициента валидности правомерно ис­пользовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорцио­нален успеху в выполнении диагностической пробы. Позиция зару­бежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40 % решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии. Нагляд­ный пример из монографии К. М. Гуревича : почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень боль­шой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наи­более адекватным способом установления валидности может быть кри­терий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так, еще на заре XX в. американский исследователь Ф. Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешал им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы диспер­сионный анализ или вычисление корреляционных отношений.

Как показал опыт работы зарубежных тестологов, ни одна стати­стическая процедура не в состоянии полностью отразить многообра­зие индивидуальных оценок. Поэтому часто для доказательства валид­ности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого свой­ства. В этом случае речь идет об использовании приемов, не опира­ющихся на статистическую обработку.

Вопросы и задания

1. Дайте определение понятию «стандартизация методик».

2. Что такое репрезентативная выборка? Как она строится?

3. Назовите приведенные в главе критерии оценки результатов ди­агностических испытаний.

4. Что такое надежность методики? Назовите виды надежности.

5. Что такое валидность методики? Назовите ее основные виды.

1. Анастази А. Психологическое тестирование: В 2 кн. / Под ред. К. М. Гуревича, В. И. Лубовского. Кн. 1. - М., 1982.

2. Бурлачук Л. Ф. Психодиагностика. - СПб., 2003.

3. Бурлачук Л. Ф., Морозов С. М. Словарь-справочник по психоло­гической диагностике. - Киев, 1989.

4. Гайда В. К., Захаров В. П. Психологическое тестирование. - Л., 1982.

5. Гуревич К. М. О надежности психофизиологических показате­лей // Проблемы дифференциальной психофизиологии. Т. 6. - М., 1969.

6. Гуревич К. М. Надежность психологических тестов // Психоло­гическая диагностика. Ее проблемы и методы. - М., 1975.

7. Гуревич К. М. Статистика - аппарат доказательства психологи­ческой диагностики // Проблемы психологической диагности­ки. - Таллин, 1977.

8. Гуревич К. М. Что такое психологическая диагностика. - М., 1985.

9. Гуревич К. М. Проблемы дифференциальной психологии. - М.; Воронеж, 1998.

10. Носс И. Н. Введение в технологию психодиагностики. - М., 2003.

11. Общая психодиагностика / Под ред. А. А. Бодалева, В. В. Столина. - М., 1987.

12. Основы психодиагностики / Под ред. А. Г. Шмелева. - Ростов н/Д, 1996.

Для вычисления количественного показателя - коэффициента валидности - сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Сколько испытуемых необходимо для расчета валидности? Практика показала, что их не должно быть меньше 50, однако лучше всего более 200 Часто возникает вопрос, какой должна быть величина коэффициента валидности, чтобы она считалась приемлемой? В общем отмечается, что достаточно того, чтобы коэффициент валидности был статистически значим. Низким признается коэффициент валидности порядка 0,20- 0,30, средним - 0,30-0,50 и высоким - свыше 0,60.

Но, как подчеркивают А. Анастази (1982), К.М. Гуревич (1970) и др, не всегда для вычисления коэффициента валидности правомерно использовать линейную корреляцию. Этот прием оправдан лишь тогда, когда доказано, что успех в какой-то деятельности прямо пропорционален успеху в выполнении диагностической пробы. Позиция зарубежных тестологов, особенно тех, кто занимается профпригодностью и профотбором, чаще всего сводится к безоговорочному признанию того, что для профессии больше подойдет тот, кто больше выполнил заданий в тесте. Но может быть и так, что для успеха в деятельности нужно обладать свойством на уровне 40% решения теста. Дальнейший успех в тесте уже не имеет никакого значения для профессии Наглядный пример из монографии КМ Гуревича: почтальон должен уметь читать, но читает ли он с обычной скоростью или с очень большой скоростью - это уже не имеет профессионального значения. При таком соотношении показателей методики и внешнего критерия наиболее адекватным способом установления валидности может быть критерий различий.

Возможен и другой случай: более высокий уровень свойства, чем это требует профессия, служит помехой профессиональному успеху. Так Ф Тейлор нашел, что наиболее развитые работницы производства имеют невысокую производительность труда. То есть высокий уровень их умственного развития мешает им высокопроизводительно трудиться. В этом случае для вычисления коэффициента валидности более подошел бы дисперсионный анализ или вычисление корреляционных отношений.

Как показал опыт работы зарубежных тестологов, ни одна статистическая процедура не в состоянии полностью отразить многообразие индивидуальных оценок. Поэтому часто для доказательства валидности методик используют другую модель - клинические оценки. Это не что иное, как качественное описание сущности изучаемого


свойства. В этом случае речь идет об использовании приемов, не опирающихся на статистическую обработку.

Существует несколько видов валидности, обусловленных особенностями диагностических методик, а также временным статусом внешнего критерия Во многих работах (А Анастази, 1982; Л.Ф Бурлачук, СМ. Морозов, 1989; КМ. Гуревич, 1970; Б.В Кулагин, 1984; В Черны, 1983; "Общая психодиагностика", 1987 и др) называются чаще всего следующие:

1. Валидность "по содержанию". Этот прием используется в основном в тестах
достижений. Обычно в тесты достижений включается не весь материал, который
прошли учащиеся, а какая-то его небольшая часть (3-4 вопроса). Можно ли быть
уверенным в том, что правильные ответы на эти немногие вопросы свидетельствуют об
усвоении всего материала. На это и должна ответить проверка валидности по
содержанию. Для этого проводится сопоставление успешности по тесту с экспертными
оценками учителей (по данному материалу). Валидность "по содержанию" также
подходит к критериально-ориентированным тестам. Иногда этот прием называют
логической валидностью.

2. Валидность "по одновременности", или текущая валидность, определяется с
помощью внешнего критерия, по которому информация собирается одновременно с
экспериментами по проверяемой методике. Другими словами, собираются данные,
относящиеся к настоящему времени успеваемость в период испытания,
производительность в этот же период и т д. С ним коррелируют результаты успешности
по тесту.

3. "Предсказывающая" валидность (другое название - "прогностическая"
валидность). Определяется также по достаточно надежному внешнему критерию, но
информация по нему собирается некоторое время спустя после испытания. Внешним
критерием обычно бывает выраженная в каких-нибудь оценках способность человека к
тому виду деятельности, для которой он отбирался по результатам диагностических
испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик -
предсказанию будущей успешности, применять его очень трудно. Точность прогноза
находится в обратной зависимости от времени, заданного для такого прогнозирования.
Чем больше проходит времени после измерения, тем большее количество факторов
требуется учитывать при оценке прогностической значимости методики. Однако учесть
все факторы, влияющие на предсказание, практически невозможно.

4. "Ретроспективная" валидность. Она определяется на основе критерия,
отражающего события или состояние качества в прошлом. Может быть использована
для быстрого получения сведений о предсказательных возможностях методики. Так, для
проверки того, в какой мере хорошие результаты теста способностей соответствуют
быстрому обучению, можно сопоставить прошлые оценки успеваемости, прошлые
экспертные заключения и т.д. у лиц с высокими и низкими на данный момент
диагностическими показателями.

При приведении данных о валидности разработанной методики важно точно указать, какой вид валидности имеется в виду (по содержанию, по одновременности и т.д.). Желательно также сообщать сведения о численности и особенностях индивидов, на которых проводилась валидизация. Такая информация позволяет пользующемуся методикой исследователю решить, насколько валиден этот прием для той группы, к


которой он собирается его применять. Как и в случае с надежностью, необходимо помнить, что в одной выборке методика может обладать высокой валидностью, а в другой - низкой. Поэтому если исследователь планирует использовать методику на выборке испытуемых, существенно отличающейся от той, на которой проводилась проверка валидности, ему необходимо заново провести такую проверку. Приводимый в руководстве коэффициент валидности применим только к группам испытуемых, подобным тем, на которых он определялся.

Литература

Анастази А. Психологическое тестирование" В 2 кн. / Под ред. К.М. Гуре-вича, В И. Лубовского М., 1982. Кн 1.

Гуревич К.М О надежности психофизиологических показателей // Проблемы дифференциальной психофизиологии М., 1969 Т VI. С 266-275.

Гуревич К.М Надежность психологических тестов // Психологическая диагностика Ее проблемы и методы М, 1975 С 162-176.

Гуревич КМ Статистика - аппарат доказательства психологической диагностики//Проблемы психологической диагностики Таллин 1977. С 206-225

Гуревич К.МЧ^о такое психологическая диагностика М., 1985.

ДИАГНОСТИКА УМСТВЕННОГО РАЗВИТИЯ И ОБЩИХ СПОСОБНОСТЕЙ

§ 1. УМСТВЕННОЕ РАЗВИТИЕ И ИНТЕЛЛЕКТ

Умственное развитие характеризуется совокупностью знаний, умений и набором умственных действий, которые сформировались в процессе приобретения этих знаний. Таково общепринятое в отечественной психологии понимание умственного развития. По существу, умственное развитие - это характеристика способов, форм и содержания мышления человека.

Современная психология и педагогика убедительно доказывают, что уровень мыслительной деятельности определяется содержанием знаний и умений, которые учитель дает учащимся (М.Н. Шардаков, 1963, В.В. Давыдов, 1986). Важен не только объем, но и качество знаний, т.е их глубина, осмысленность, динамичность. Характер усвоенных знаний определяет и качество освоенных умственных действий. Уровень умственного развития является основой, базой для усвоения новых знаний и умений, возникновения и функционирования новых умственных действий. По мнению К.М. Гуревича и Е.И. Горбачевой (1991), одним из признаков умственного развития следует считать присущую ему качественную направленность, избирательность по отношению к различным областям теории и практики, что проявляется в развитии различных видов мышления - лингвистического, естественнонаучного, математического. Но наиболее общей характеристикой уровня умственного развития является все же подготовленность функционирования мышления в пределах возрастного социально-психологического норматива. Иначе говоря, уровень умственного развития должен в первую очередь отражать наиболее типичные, общие, характерные возрастные особенности мыслительной деятельности, касающиеся как объема и качества знаний и умений, так и запаса определенных умственных действий.


В этом плане проблема умственного развития смыкается с проблемой интеллекта, или общей умственной способности. Интеллект - не сумма знаний и умственных операций, а то, что способствует их успешному усвоению. Достигнутый индивидом уровень умственного развития зависит от его интеллектуальных способностей. Поэтому нельзя не согласиться со справедливым утверждением Н.С. Лейтеса, что "умственное развитие не является чем-то внешним по отношению к способностям. Внутренняя близость умственного развития и умственных способностей не могут вызывать сомнения" (Н.С. Лейтес, 1960).

Но несомненно и другое: уровень умственного развития зависит не только от интеллекта, он обусловлен многими факторами, такими, как условия жизни, особенности учебного заведения, методы обучения и пр. В отечественной психологии имеется целое направление исследований, показывающих тесную связь между уровнем умственного развития и содержанием обучения, а также характером воспитательных методов (В.В. Давыдов, 1972, 1986; А.З. Зак, 1979, 1984). Например, одни и те же знания могут обусловить разный тип мышления учащегося (эмпирический или теоретический), все зависит от организации учебного процесса (А.З. Зак, 1984).

О роли метода обучения в формировании мышления говорят исследования, связанные с теорией поэтапного формирования умственных действий. В работах, базирующихся на этой теории, представлены теоретически и методически разработанные способы планомерного и управляемого развития мышления (Н.Ф. Талызина, 1975).

Итак, если в прошлом мышлению не обучали или делали это более или менее бессознательно, нецеленаправленно, считая, что мышление либо есть, либо его нет, а уровень мыслительной деятельности не зависит от обучения, то сегодня прогрессивные психологи и педагоги показывают, что продуктивному мышлению можно научить.

В связи с этой проблемой естественно возникает вопрос о соотношении умственного развития с понятием "обучаемость". Какие психологические сущности отражают эти термины, одинаковые или разные?

Проблема обучаемости школьников детально изучалась в лаборатории Н.А. Менчинской. З.И. Калмыкова, выбрав в качестве основного показателя темп продвижения, нашла, что чем выше уровень развития, тем выше темп продвижения, т.е. обучаемость (1968). Позднее Калмыкова стала отождествлять ее с умственными способностями, что, на наш взгляд, является неправомерным, так как обучаемость слишком зависима от методов и средств обучения, личности учителя и пр. Более того, обучаемость нельзя отождествлять и с уровнем умственного развития. Н.С. Лейтес на основе собственных исследований пришел к выводу, что если уровень умственного развития школьников возрастает от младших классов к старшим, то обучаемость не прогрессирует аналогичным образом (1971). Напротив, обучаемость школьников младших классов в некоторых отношениях превосходит обучаемость школьников последующих классов. Поэтому нельзя оценивать уровень умственного развития ребенка на основе его обучаемости, не принимая во внимание возрастные особенности индивидов.

Из всего вышесказанного следует вывод о неправомерности отождествления понятий "уровень умственного развития", "интеллект" и "обучаемость". Диагностика этих психологических феноменов также должна быть различной.


Но практически диагностика умственного развития возникла как тестирование интеллекта и в этом русле развивалась на протяжении первой половины XX века. Интеллектуальные тесты явились продолжением шкал Бине-Симона, о которых шла речь в гл. I.

§ 2. ДИАГНОСТИКА ИНТЕЛЛЕКТУАЛЬНОГО УРОВНЯ ТЕСТ Д ВЕКСЛЕРА

Наиболее удачная и жизнеспособная адаптация тестов Бине-Симона, названная шкалами Стэнфорд-Бине, в течение многих лет служила единственным инструментом для измерения интеллектуальных способностей, а также использовалась в качестве критерия валидности новых интеллектуальных тестов. Этим в значительной степени объясняется тот факт, что IQ стал представляться символом интеллекта, а не показателем по определенному тесту. Сыграла свою роль и относительная стабильность IQ, установленная при повторных испытаниях одних и тех же групп индивидов через некоторый промежуток времени, о причине чего будет сказано позднее.

Остановимся на другом типе индивидуальных тестов, предназначенных для тех же целей, что и шкала Стэнфорд-Бине. В 1939 г. была опубликована первая форма шкал Дэвида Векслера, известная как шкала интеллекта Векслера-Белльвью. Она предназначалась для тестирования взрослых. Она имела ряд методических недостатков (это касалось величины и репрезентативности нормативной выборки и надежности субтестов) и позднее была переработана. В 1955 г. была опубликована одна из последних шкал интеллекта для взрослых (WAIS). Она содержала 11 субтестов. 6 субтестов составляли вербальную шкалу и 5 - шкалу действия. В вербальную шкалу входили субтесты на осведомленность, понимание, решение арифметических задач, нахождение сходства, запоминание цифр и определение словарного запаса. Шкала действия состояла из субтестов "Цифровые символы", "Завершение картинок", "Конструирование блоков", "Расположение картинок", "Сборка объектов".

При стандартизации шкалы Векслера нормативная выборка состояла из 1700 испытуемых с равным количеством мужчин и женщин. Испытуемые в возрасте от 16 до 64 лет были распределены по 7 возрастным уровням. При комплектовании выборки исследователи опирались на данные переписи населения США за 1950 г. Учитывалось пропорциональное распределение населения по географическим районам, принадлежность к городскому или сельскому населению, к белой или цветной расе, учитывались также уровень образования и профессия. На каждом возрастном уровне в выборку были введены один мужчина и одна женщина, находящиеся в учреждении для умственно отсталых.

Для пожилых людей были установлены дополнительные нормы путем тестирования выборки лиц пожилого возраста, состоящей из 475 человек в возрасте от 60 лет из типичного города среднего запада. Для каждого возраста были установлены стандартные IQ со средним значением 100 и а, равной 15. Показатели надежности шкалы высоки и расположены от 0,93 до 0,97 (в зависимости от шкал и отдельных субтестов). Валидность, установленная по корреляции с тестами Стэнфорд-Бине, около 0,87, а валидность по внешнему критерию (с оценками в колледже) порядка 0,40-0,50.

Помимо шкал для взрослых, Векслером были созданы шкалы для детей (от 6,0 до 15 лет 11 мес.). Последнее издание WISC было опубликовано в 1974 г. В него были включены 12 субтестов. По сравнению со шкалой для взрослых тест для детей включает еще один дополнительный субтест "Лабиринты".


Стандартизация проводилась на выборке, состоящей из 100 мальчиков и 100 девочек по каждому годовому интервалу; общая численность выборки равнялась 2200. Она подбиралась так же тщательно на основе переписи населения США 1970 года, как это было сделано и для взрослых. Среднее значение показателей для каждой из шкал и для полного теста - 100ио= 15.

Показателями валидности были коэффициенты корреляции, полученные в результате сопоставления с показателями выполнения теста Стэнфорд-Бине. Они находились в пределах от 0,6 до 0,73. Коэффициенты надежности по методу ретеста для вербальной шкалы равнялись 0,93, для шкалы действий - 0,90, для полной шкалы - 0,95.

Векслером была создана также шкала для дошкольников и младших школьников (для возраста от 4 до 6,5 лет). Эта шкала была опубликована в 1967 г. Она состоит из 11 субтестов, 8 из которых представляют собой облегченные и адаптированные варианты заданий WISC, а остальные 3 были разработаны в качестве замены непригодных по тем или иным причинам субтестов WISC. В вербальной шкале таким новым субтестом был субтест "Предложения" (тест на запоминание, в котором от ребенка требуется вслед за экспериментатором повторять каждое произносимое им предложение). Новый субтест "Дом животного" сходен с субтестом "Цифровые символы". Субтест "Геометрические схемы" требует от ребенка скопировать 10 простых чертежей.

Стандартизация проводилась так же тщательно, как и для других векслеровских шкал. Размер референтной выборки был 1200 детей.

Выборка была стратифицирована относительно переписи США 1960 г. Стандартный IQ имел среднее 100 и квадратичное отклонение 15. Коэффициенты надежности при повторном тестировании равнялись для вербальной шкалы 0,86, для шкалы действия 0,89, для полной шкалы - 0,92. Валидность определялась путем корреляции с тестом Стэнфорд-Бине; коэффициенты корреляции по вербальной шкале равнялись 0,76, для шкалы действия - 0,56. Коэффициент по полной шкале равен 0,75.

Итак, в настоящее время имеются три формы шкал Векслера. Все они характеризуются высокими формальными показателями. От тестов Стэнфорд-Бине эти шкалы отличаются некоторыми важными параметрами:

1) задания одного типа в этих тестах не сгруппированы по возрастным уровням, а
объединены в субтесты и расположены в порядке возрастающей трудности;

2) субтесты разделяются на вербальные (объединяемые в вербальную шкалу) и
действия (объединяемые в шкалу действия); для каждой шкалы в отдельности
вычисляется IQ.

Помимо использования шкал Векслера для измерения общего интеллекта они применяются и как вспомогательное средство психиатрического диагноза.

Рассмотрим еще один тест интеллекта, относимый к разряду групповых. § 3. ТЕСТ Р. АМТХАУЭРА

Один из известнейших групповых тестов, широко используемых в немецкоязычных странах, - Тест структуры интеллекта Рудольфа Амтхауэра. Он создан в 1953 г. (последняя редакция осуществлена в 1973 г) и предназначен для измерения уровня интеллектуального развития лиц в возрасте от 13 до 61 года.


Тест отличается хорошими методическими показателями: коэффициент ретестовой надежности (интервал 1 год) - 0,83-0,91; коэффициент параллельных форм - 0,95; надежности частей теста (по методу "расщепления") - 0,97. Валидность, определяемая по связи с успеваемостью, - 0,46; с экспертными оценками уровня интеллектуального развития - 0,62.

Стандартизация теста проводилась на выборке из 4076 испытуемых, средний показатель по сырым (первичным) баллам равнялся 82. После стандартизации новая средняя равнялась 100, о = 10.

Тест разрабатывался в первую очередь для диагностирования уровня общих способностей в связи с проблемами профессиональной психодиагностики. При его создании Р. Амтхауэр исходил из концепции, согласно которой интеллект является специализированной подструктурой в целостной структуре личности и тесно связан с другими компонентами личности, такими, как волевая и эмоциональная сферы, интересы и потребности.

Интеллект понимался Амтхауэром как единство некоторых психических способностей, проявляющихся в различных формах деятельности. В тест им были включены задания на диагностику следующих компонентов интеллекта: вербального, счетно-математического, пространственного, мнемического.

Тест состоит из девяти субтестов, каждый из которых направлен на измерение различных функций интеллекта. Шесть субтестов диагностируют вербальную сферу, два - пространственное воображение, один - память. Во всех группах заданий, за исключением 4-6 субтестов, используются задачи закрытого типа

Субтест 1. Логический отбор исследование индуктивного мышления, чутья языка. Задача испытуемого заключается в том, чтобы закончить предложение одним из приведенных слов. Пример задания: Противоположностью понятия "верность" является

а) любовь; б) ненависть; в) дружба; г) предательство; д) вражда.

Субтест 2. Определение общих черт: исследование способности к абстрагированию, обобщению, оперированию вербальными понятиями В задачах предлагается пять,слов, из которых четыре объединены определенной смысловой связью, а одно лишнее. Это слово и следует выделить в ответе.

Пример: а) рисунок; б) картина; в) графика; г) скульптура; д) живопись.

Субтест 3. Аналогии: анализ комбинаторных способностей. В заданиях предлагаются три слова, между первым и вторым существует определенная связь. После третьего слова - прочерк. Из пяти прилагаемых к заданию вариантов необходимо выбрать такое слово, которое было бы связано с третьим таким же образом, как и первые два.

Пример: дерево - строгать, железо - ?

а) чеканить; б) сгибать; в) лить; г) шлифовать; д) ковать.

Субтест 4. Классификация: оценка способности выносить суждение, обобщать Испытуемый должен обозначить два слова общим понятием Пример дождь - снег Правильным ответом будет слово "осадки".


Субтест 5. Задания на счет: оценка уровня развития практического математического мышления, сформированности математических навыков. Пример-Сколько километров пройдет товарный поезд за 7 часов, если его скорость 40 км/ч?

Субтест 6. Ряды чисел: анализ индуктивного мышления, способности оперировать числами. В заданиях требовалось установить закономерность числового ряда и продолжить его.

Пример- 6, 9, 12, 15, 18, 21, 24, ?

Субтест 7. Выбор фигур: исследование пространственного воображения, комбинаторных способностей. В заданиях приводятся разделенные на части геометрические фигуры. При выборе ответа следует найти карточку с целой фигурой, которой соответствуют разделенные части.

Субтест 8. Задания с кубиками: исследуется то же, что и в 7-м субтесте. В заданиях предъявлялись изображения кубиков с различно обозначенными гранями. Кубики были определенным образом повернуты и перевернуты в пространстве, так что иногда появлялись новые, неизвестные испытуемому грани. Необходимо было определить, какой из пяти кубиков-образцов изображен на каждом рисунке.

Субтест 9. Задания на способность сосредоточить внимание и сохранить в памяти усвоенное. Предлагается запомнить ряд слов, которые объединены в таблице по определенным категориям, например, цветы: тюльпан, жасмин, гладиолус, гвоздика, ирис; или животные: зебра, уж, бык, хорек, тигр. Время заучивания - 3 минуты. Затем тетради с заданиями собираются, и испытуемым выдаются листы с вопросами такого типа: С буквы "б" начиналось слово:

а) растения; б) инструменты; в) птицы; г) произведения искусства; д) животные.

Общее время обследования (без подготовительных процедур и инструктажа испытуемых) - 90 минут. Время выполнения каждого субтеста ограничено и колеблется от 6 до 10 минут.

В нашей стране адаптированный вариант теста Амтхауэра был использован при обследовании учащихся 8-10 классов городских и сельских школ. Получены данные о достаточно высокой надежности и валидности этого теста (М.К. Акимова с соавторами, 1984).

Р. Амтхауэр при интерпретации результатов теста предполагал, что с его помощью можно судить о структуре интеллекта испытуемых (по успешности выполнения каждого субтеста). Для грубого анализа "умственного профиля" он предлагал подсчитать отдельно результаты по первым четырем и по следующим пяти субтестам. Если суммарная оценка первых четырех субтестов превышает суммарную оценку следующих пяти субтестов, значит у испытуемого больше развиты теоретические способности. Если наоборот, то практические способности.

При интерпретации полученных в отечественных исследованиях данных примененялся новый критерий, который был предложен К.М. Гуревичем и назван социально-психологическим нормативом (СПН). Социально-психологический норматив - это система требований, которые общность предъявляет каждому из своих членов и которым каждый должен соответствовать, если не хочет быть отторгнутым своей общностью. Оценка результатов тестирования в этом случае должна основываться на


степени близости к СПН, который дифференцируется в образовательно-возрастных группах. Использование в качестве критерия выполнения СПН выдвигает на первый план качественный анализ данных.

§ 4 НЕЯЗЫКОВЫЕ ТЕСТЫ, ТЕСТЫ ДЕЙСТВИЯ И СВОБОДНЫЕ ОТ ВЛИЯНИЯ КУЛЬТУРЫ ТЕСТЫ

Особо рассмотрим тесты интеллекта, разработанные для испытания людей, которых невозможно адекватно оценить с помощью вербальных тестов. Речь идет о младенцах, о детях с дефектами речи, с некоторыми психическими и физическими недостатками, о говорящих на иностранном языке, неграмотных, а также о лицах из неблагоприятной культурной среды и некоторых других. Для исследования этих групп испытуемых применяются либо тесты действия, либо неязыковые тесты, либо тесты, свободные от влияния культуры.

Одним из первых тестов действия, разработанных для испытания умственно отсталых детей, является тест воспроизведения прежнего порядка на доске. Созданный Э. Сегеном еще в 1866 г., он применяется и в настоящее время. Тест состоит в следующем. На доске расположены от 2 до 5 предметов; экспериментатор снимает их и складывает в определенном порядке. Испытуемый должен как можно быстрее вернуть предметы на прежнее место. Допускается три пробы; показателем по тесту является самое короткое время, необходимое для выполнения задания. Тесты, подобные этому, но большей трудности, применяются для испытания иностранцев. Широко применяется Лабиринтный тест Портеуса, разработанный в 1914 г. и усовершенствованный в 1959 г. Он состоит из серии изображенных линиями лабиринтов возрастающей трудности. От испытуемого требуется, не отрывая карандаша от бумаги, провести кратчайший путь от входа до выхода из лабиринта. Этот тест используется для исследования самых разных групп людей, включая умственно отсталых, правонарушителей и др.

Подобные тесты действия были объединены в шкалу тестов исполнения Артура в 1930 г., стандартизированную на единой выборке и единообразную по методу оценки каждого теста. Вторая форма этой шкалы была выпущена в 1947 г. Она состоит из 4 модифицированных старых тестов и одного нового, стандартизирована на новой выборке и применяется в качестве замены первой формы при повторном тестировании.

Несколько слов о тестировании младенцев и дошкольников (до 5 лет). Тестирование этого контингента испытуемых проходит индивидуально. Большинство тестов являются либо тестами действия, либо устными тестами; некоторые включают элементарные действия с карандашами и бумагой; часть тестов измеряет сенсорное и моторное развитие. Наиболее часто для тестирования младенцев применяется разработанная Р.Б. Кеттеллом Шкала интеллекта ребенка, охватывающая возрастные уровни от 2 до 30 месяцев. Н. Бейли была подготовлена. Шкала развития ребенка, предназначенная для детей от рождения до 15 месяцев. Шкала состоит из 3 частей: Умственная шкала направлена на оценку сенсорного развития, памяти, способности к научению, зачатков развития речи; Моторная шкала измеряет уровень развития мышечной координации и манипулирования; Запись о поведении ребенка предназначена для регистрации эмоциональных и социальных проявлений поведения, объема внимания, настойчивости и т д.

Шкалы Бейли нормированы на выборке из 1262 детей, имеют высокие показатели


надежности и валидности. По мнению видного тестолога А Анастази (1982), шкалы Бейли выгодно отличаются от других методик для детей раннего возраста и весьма полезны для раннего распознавания всякого рода нарушений и отклонений развития ребенка.

Обычно тесты для младенцев и дошкольников стандартизированы на выборках, меньших по величине и репрезентативности, чем нормативные выборки других тестов. Они менее надежны, чем тесты для старших возрастов. Определение валидности этих тестов затруднено из-за недостатка пригодных критериев. Валидность тестов для младенцев определяется, главным образом, по двум критериям: возрастные различия и предсказание последующего развития уровня интеллекта. С точки зрения первого критерия тесты для младенцев в целом показывают неплохую валидность. Однако их предсказательная валидность очень низка: так, корреляции показателей теста Кеттелла для детей в возрасте до года и теста Стэнфорд-Бине для детей трехлетнего возраста близки к 0.

Остановимся на некоторых важных проблемах, возникающих при тестировании представителей разных культурных групп. Изначальная связь тестирования интеллекта с культурой определенной социальной группы ограничивает сферу применения тестов. Они оказываются неадекватными для обследования лиц, принадлежащих к иной культуре, нежели та, в которой эти тесты создавались. Поэтому перед исследователями встала проблема создания таких интеллектуальных тестов, которые были бы свободны от влияния культуры. При создании таких тестов пытаются чаще всего исключить параметры, по которым эти культуры различаются.

Наиболее известный параметр - язык, другой параметр - скорость выполнения теста, еще одно различие - наличие информации, специфичной для некоторых культур. Эти типы различий между культурными группами привели к тому, что тесты для испытания представителей разных культур делают преимущественно неязыковыми, исключают влияние скорости выполнения, в них не используется информация, специфичная для некоторых культур.

Однако следует с полной определенностью сказать, что совершенно исключить влияние культурных различий на тестовые результаты не представляется возможным. Каждый тест, по мнению Анастази, благоприятен для лиц той культуры, в которой он был разработан. Важно отметить, что не только содержание теста, но также эмоциональные и мотивационные факторы ситуации опытов влияют на исполнение теста. Каждая культура стимулирует развитие одних способностей и образцов поведения и не поощряет, а подавляет развитие других. Поэтому по тестам, разработанным в американской культуре, американцы будут выгодно отличаться от других народов, а по результатам тестов, разработанных в другой культуре, не похожей на американскую, напротив, американцы, возможно, не будут соответствовать установленным нормам.

В отношении валидности тестов, разрабатываемых для сравнительного испытания представителей разных культур, сведения неутешительны. Эти тесты обладают малой валидностью в любой культуре, так как конструируются из элементов, равно знакомых (насколько возможно) во многих культурах, и, следовательно, измеряют тривиальные функции. По существу, устранение культурных различий из теста означает исключение из него интеллектуальных компонентов. "Свобода от культуры" есть просто "свобода от интеллекта" (Дж. Брунер, 1977).


Первым неязыковым групповым тестом был армейский тест "Бета", разработанный в период первой мировой войны (1918) для испытания солдат-иностранцев и неграмотных. В настоящее время используется переработанная и заново стандартизированная в 1946 г. форма этого теста. Она состоит из 6 субтестов, таких, как "Лабиринты", "Завершение картинок", "Нарисованные нелепости" и др.

В так называемых чистых, не тронутых культурой тестах стремятся исключить некоторые главные культурные различия не только в языке, но и в знаниях, интеллектуальных умениях. Пример такого рода тестов - Интеллектуальный тест, свободный от влияния культуры, разработанный Р.Б. Кеттеллом. Этот тест типа "карандаш-бумага", охватывающий 3 возрастных и интеллектуальных уровня: от 4 до 8 лет и умственно отсталых взрослых, от 8 до 13 лет и взрослых средних умственных способностей, от 10 до 16 лет и взрослых с высокими умственными способностями. Среди субтестов имеются такие, как "Выбор точки, завершающей серию", "Дополнение данной матрицы", "Лабиринты" и др. Данные о надежности и валидности этого теста неполны и получены на меньших, чем обычно принято, нормативных группах.

Интересным примером теста, "свободного от влияния культуры", является тест Гудинаф-Харриса, в котором испытуемому (старше 5 лет) дается задание "нарисовать мужчину" (первая форма) и "нарисовать женщину" (вторая форма). Надежность этого теста велика, порядка 0,90. Валидность, найденная по корреляции с показателями других тестов интеллекта, несколько превышает 0,50. Однако авторы этого теста, рассмотрев исследования, относящиеся к нему, пришли к выводу, что предложенный ими тест в большей степени зависит от различий в культурном окружении, чем это первоначально ожидалось. Нельзя не согласиться с высказанным ими мнением, что поиск свободного от культуры теста интеллекта - иллюзия.

Завершая обзор зарубежных интеллектуальных тестов, отметим, что для большинства из них характерен высокий методический уровень. В западной, главным образом американской, психологии созданы и продолжают создаваться и совершенствоваться методики с высокой надежностью, валидностью, а также репрезентативностью выборок, на которых эти показатели получены.

§ 5 ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТА

Итак, на протяжении длительного периода тесты интеллекта служили средством измерения, как предполагалось, некоторой психологической реальности, о сущности которой имелись весьма смутные представления. Сведение интеллектуальных различий к коэффициенту умственного уровня вытекало из представлений об интеллекте как общей врожденной способности, лежащей в основе всех наших достижений и измеряемой с помощью тестов Эти представления подтверждались относительной стабильностью IQ, установленной при повторных испытаниях одних и тех же групп индивидов через некоторый промежуток времени.

Существует, по крайней мере, две основные причины стабильности IQ Первая причина - это стабильность, относительная неизменность окружающей среды. В большинстве случаев дети остаются в том же самом окружении, на одном и том же социально-экономическом уровне, в той же культурной среде долгие годы. Поэтому любые недостатки или преимущества для интеллектуального развития, которые испытуемые имели на ранней стадии развития, сохраняются и в интервалах между повторными тестированиями.


Вторая причина относительной стабильности IQ заключается в том, что умения и навыки, полученные на ранних этапах развития, сохраняются и служат предпосылками для последующего обучения.

Однако относительная стабильность IQ носит статистический характер. Иначе говоря, лишь в групповых исследованиях могут быть получены достаточно высокие корреляции между повторными исследованиями. Изучение же отдельных индивидов обнаруживает большие сдвиги показателей IQ, полученных через временные интервалы. Тестология к настоящему времени накопила множество фактов, неопровержимо свидетельствующих об изменчивости того, что измеряется коэффициентом IQ. Исследования, в которых собраны эти факты, группируются по двум направлениям. Одно направление доказывает зависимость тестовых оценок от окружающей среды, которая включает в себя множество самых разных показателей (материальная обеспеченность и уровень образования родителей, характер работы отца, занятость матери, размер семьи, наличие домашней библиотеки и др).

Как и оценки надежности, оценки валидности теста получают в форме коэффициентов корреляции. Однако в отличие от интерпретации коэффициента надежности при интерпретации коэффициента корреляции как оценки валидности принимают во внимание гораздо больше и теоретических, и практических соображений. В целях иллюстрации мы ограничимся здесь обсуждением интерпретации доказательств валидности по критерию, поскольку именно с этой ситуацией чаще всего сталкивается большинство индустриально-организационных психологов.

Коэффициент корреляции.

При обсуждении надежности теста было отмечено, что большинство психологов сочтут приемлемой оценку надежности в диапазоне свыше 0,80-0,90, при условии, что она основана на компетентно проведенном исследовании. При интерпретации коэффициентов валидности по критерию нет таких четких ориентиров. За те примерно 90 лет, в течение которых проводится тестирование при приеме на работу, эти коэффициенты редко превышали r = 0,50; этот показатель кажется довольно низким по сравнению с коэффициентами надежности, превышающими 0,80 или даже 0,90. Однако следует помнить, что коэффициент надежности, в сущности, является мерой корреляции между двумя оценками одной и той же характеристики. В отличие от этого, коэффициент валидности по критерию является оценкой корреляции между двумя различными показателями - результатами теста и какой-либо другой оценкой поведения.

Поведение в целом определяется сложным комплексом множества причин, и какой бы то ни было тест может, по-видимому, оценить лишь немногие из релевантных для Данного поведения прогностических факторов. Например, для прогнозирования абсентеизма часто используют оценки удовлетворенности работой, но все работающие люди знают, что решение не пойти на работу в один из дней может и не иметь никакого отношения к удовлетворенности работой или к ее отсутствию. Если воспользоваться терминологией главы 2, то удовлетворенность работой может быть одним из детерминантов абсентеизма, но ее влиянием объясняется лишь небольшая часть дисперсии этой критериальной переменной.

Процентная доля дисперсии критерия, которая объясняется с помощью результатов данного теста, называется коэффициентом детерминированности. Математически этот показатель вычисляется путем возведения в квадрат коэффициента корреляции между тестом и критерием. Если между тестом и оценкой выполнения работы (критерием) существует корреляция с r = 0,50, то коэффициент детерминированности будет равен 0,25 (25 %). Другими словами, около 75 % (1,00 - 0,25) различий в выполнении работы не учитывается, поскольку существует много других факторов, которые не измеряются данным тестом, но влияют на то, как люди выполняют свою работу.

Детеминанты.

Диапазон значений коэффициента детерминированности ограничен, и в настоящее время верхним пределом является значение примерно 25 %. Поэтому может показаться, что не имеет смысла направлять значительные ресурсы на конструирование, доказательство валидности и использование тестов в организациях с целью прогнозирования. Однако здесь идет речь о статистическом прогнозе, то есть о прогнозе, который определяется величиной дисперсии критерия (такого как выполнение работы), объясняющейся влиянием предсказывающей переменной (результат теста).

На практике индустриально-организационные психологи часто считают, что тест с коэффициентом валидности по критерию 0,30 (9 % дисперсии) полезен и во многих ситуациях его использование повышает эффективность принятия решений. Концепция полезности релевантна измерениям любого типа, проводимым для принятия любых кадровых решений, но лучше всего это видно на примере показателя успешности приема на работу в организацию.

Термин показатель успешности приема на работу обозначает долю или процент принятых на работу сотрудников, которые успешно справляются со своими задачами. Этот процентный показатель может снижаться за счет ошибок при отборе, относящихся к двум типам. Если приняты на работу люди, которые работают плохо, то это ошибка ложного положительного отбора . Противоположная ситуация, когда принято решение не нанимать людей, которые в дальнейшем работали бы хорошо, - это ошибка ложного отрицательного отбора. Связь между этими ошибками и правильными решениями о приеме на работу показана на рис. 3.5.

Черта отсекаемая по прогнозу (predictor cutoff score )

Рис. 3.5. Ошибки в процессе отбора График предоставлен доктором философии Джоном Ф. Бишшнгом (John F. Binning), кафедра психологии Государственного университета штата Иллинойс, г. Нормал.

На графике, представленном на рис. 3.5, показана связь между результатами отборочного теста, использованного при приеме на работу (предсказывающая переменная), и общей оценкой выполнения работы (критерием). В целях иллюстрации предполагается, что все новые сотрудники, принятые на работу в эту компанию в данный период времени, проходили тестирование. Однако результаты теста не использовались для отбора, а были зафиксированы и сохранены, чтобы воспользоваться ими впоследствии, когда появятся оценки выполнения работы этими сотрудниками. (Это, конечно, та же самая процедура, что и составление прогноза валидности по критерию.)

Имеются еще два предположения о ситуации, которую отображает график, представленный на рис. 3.5. Во-первых, предполагается, что если бы тест использовался для отбора сотрудников, то кандидаты, получившие менее 50 баллов, не были бы приняты на работу. Пятьдесят баллов - это черта отсекания по прогнозу. Во-вторых, предполагается, что сотрудники, получившие оценку выполнения работы выше среднего балла (3) шкалы, считаются в организации успешными, а остальные таковыми не считаются. Оценка 3 - это черта отсекания по критерию.

С учетом этой информации о графике на рис. 3.5 становится яснее смысл ошибок ложного положительного и ложного отрицательного отбора и правильных решений о приеме на работу. Каждая точка точечного графика отображает положение одного сотрудника с точки зрения результата теста и оценки выполнения работы. Точки, попавшие в квадрант IV, относятся к сотрудникам, которые получили баллы выше черты отсекания по прогнозу и должны были стать хорошими работниками, но им выставлены низкие оценки выполнения работы; отсюда и название «ложный положительный отбор».

Сотрудники, положение которых отображается точками из квадранта I, попали в противоположную ситуацию. Если бы при приеме на работу учитывались результаты теста, то их бы не наняли, но их показатели выше черты отсекания по критерию; отсюда название «ложный отрицательный отбор». Наконец, точки из квадрантов II и III отображают положение сотрудников, у которых оценки выполнения работы соответствуют прогнозу и относительно которых были приняты правильные решения (истинный положительный или отрицательный отбор).

При принятии решений об отборе люди в организациях сосредоточиваются на случае, представленном на рис. 3.5 в квадранте II - это ситуация, когда успешных сотрудников удается выявить заранее. То, насколько использование отборочного теста позволяет увеличить количество случаев, попадающих в квадрант II по сравнению с квадрантом IV, зависит от трех факторов:

1. Показатель успешности приема на работу без использования теста (иногда его называют базовым уровнем).

2. Коэффициент валидности теста по критерию.

3. Соотношение числа кандидатов на каждое рабочее место и количества вакансий (отборочное соотношение).

Число кандидатов, из которых надо выбрать одного человека для заполнения одного рабочего места, называется отборочным соотношением (selection ratio). Если это соотношение равно 1:1 (всего один кандидат на каждое место), то не надо принимать решения и нет оснований использовать тест. С другой стороны, если кандидатов больше, чем рабочих мест, то надо принимать решения. Полезность конкретного теста определяется тем, поможет ли он тому, кто принимает решения, лучше справиться со своей задачей.

Опубликованы таблицы, с помощью которых можно сразу же ответить на вопрос о полезности теста, если известны текущий показатель успешности приема на работу, коэффициент валидности по критерию отборочного теста и отборочное соотношение. На рис. 3.6 приведена выдержка из таблиц Тейлора - Расселла (Taylor & Russel, 1939). На этом рисунке отражена следующая ситуация:

1. Показатель успешности приема на работу без использования нового теста равен 50 % (успешно работает половина принятых на работу сотрудников).

2. С помощью исследования валидности установлено, что критериальная валидность нового теста r = 0,41 (с помощью теста можно выявить около 17 % различий в выполнении данной работы).

3. Отборочное соотношение равно 50 % (в среднем на каждое вакантное место претендуют два кандидата).

Как показывает жирная черная линия на рис. 3.6, компания, которая должна нанять только половину людей, претендующих на рабочие места (отборочное соотношение 50 %), может увеличить свой показатель успешности от 50 % до более чем 65 %, используя отборочный тест с коэффициентом критериальной валидности r = 0,41. Такое повышение показателя успешности может привести к существенной экономии средств, которая обсуждалась в статье Шмидта и Хантера (Schmidt & Hunter, 1981) (отрывок из нее приведен в начале этой главы в рубрике «Психология в действии»).

Предсказывающее значение r для различных отборочных соотношений при условии, что 50 % сотрудников из группы сочтены работающими успешно

Рис. 3.6. Выдержка из таблиц Тейлора-Расселла

Из статьи Н. С. Taylor and J. Т. Russell, «The Relationship of Validity Coefficients to the Practical Effectiveness of Tests in Selection: Discussion and Tables». Journal of Applied Psychology, 1939, 23, 565-578.

Таблицы Тейлора-Расселла уже более 50 лет помогают индустриально-организационным психологам и другим специалистам оценивать полезность тестов. Чтобы подчеркнуть историческую ценность этих таблиц, здесь приведен один из первых графиков; в настоящее время обычно используются затабулированные данные. В таблицах, разработанных Гизелли и Брауном (Ghiselli & Brown, 1955), непосредственно показано процентное увеличение эффективности работы при различных значениях коэффициента валидности. Таблицы Нейлора и Шайна (Naylor & Shine, 1965) особенно полезны в тех случаях, когда невозможно провести четкое различие между успехом и неудачей в работе, из-за чего нельзя пользоваться таблицами Тейлора-Расселла.

Для вычисления количественного показателя – коэффициента валидности – сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию у тех же лиц, используются разные виды линейной корреляции (по Спирмену, по Пирсону).

Объем выборки: не должно быть меньше 50, однако лучше всего более 200.

Величина коэффициента валидности : низким признается коэффициент валидности порядка 0,20 – 0,30 , средним – 0,30,- 0,50 и высоким свыше 0,60.

Расчетэкспертной (оценочной) эмпирической валидность

где, Y – экспертная оценка, х – бал по тесту испытуемого

Проблема нормы

Норма – ключевое понятие теории и практики психодиагностики. Проблема нормы наиболее сложный вопрос психологии. Сложность нормы выражается в наличии ряда подходов к ее определению.

Имея объективное основание, норма изменчива во времени. Следовательно, возникает трудность ее однозначного и точного определения.

Для устанавливающего диагноз психолога, норма выступает в различных аспектах. Подходы к определению нормы:

I. Адаптационное понимание нормы . В рамках данного подхода норма трактуется в терминах приспособления (адаптации). Оптимальное состояние – обеспечение приспособления к окружающей среде. Такое понимание хорошо согласуется со здравым смыслом и имеет опору в обыденном сознании. Такое понимание нормы основано на социально-биологической природе человека и необходимости приспособления к окружающей среде. Концепция выживания. С т.з. этой концепции нормально все способствующее поддержанию жизни человека.

Критерий адаптации :

психика выполняет функции приспособительного процесса

1) выживание (признак)

2) давать потомство

Критика:

Неправомерность использования метода естественного отбора к человеку т.к. итоги онтогенеза – смена биологических закономерностей социальными;

Нелепость следствия концепции при строгом предерживании ее основания.

Следствие : психически больной человек нормален по факту его существования.

II. Концепция культурного релятивизма . Релятивизм – относительность. Данный подход строится на оценке поведения человека с т.з. социальных норм. Соответственно социальные нормы используются как критерий, отличающий нормальное поведение от отклоняющегося. Культурный релятивизм конкретизирует требования к поведению человека, определяя границы социальной среды, к которой он принадлежит. В связи с этим нормативное поведение человека относящегося в одной культуре к норме может быть не соответствующей ей в другой.



Критика: человек принадлежит к множеству социумов предъявляющих требования, которые часто противоречат друг другу, следовательно, возникает вопрос: что есть норма?

III. Родовая норма. Оптимальное состояние объекта психодиагностики связанно с обретением человеком его всеобщей родовой сущности. Научные показатели родовой сущности (признаки):

Отношение к другим как к самоцености;

Творческий характер жизнедеятельности;

Вера в осуществимость намеченного;

Внутренняя ответственность перед собой и другими людьми

Стремление к обретению сквозного смысла жизни.

Критика :

Высокий уровень абстракции признаков нормы и отклонений.

IV. Статистическая норма. В рамках данного подхода норма понимается как типичное, широко распространенное, среднее (массовое, обычное). В основе лежат данные биологии, медицины, психиатрии, согласно которым человечество делится на огромное большинство: 95% - нормы и незначительное меньшинство, имеющее признаки отклонений.

Во всем биологическом есть и норма и патология. Объяснение: с т.з. теории эволюции изменение среды изменяет и организм. Незначительные и медленные изменения среды, а так же значительные и быстрые. В этом случае основные особи не приспособлены. Вид выживает за счет 5 % патологии – компенсаторный механизм приспособления к окружающей среде. Нормальное – это типичное среднее.

Норма задается по средствам средних показателей по ряду признаков. Статистическая норма – сопоставление индивидуальных данных и группового распределения показателей в выборке стандартизации. Статистическая норма определяет отклонение положения индивида в некоторой группе. Определяет, как он выглядит на фоне других.

Статистическая норма предполагает описание с использованием 2-х величин:



1) Среднее арифметическое (х);

2) Стандартное отклонение (s)

[х ± s] - результат в этом пределе и есть норма.

Недостатки статистической нормы :

1. Смысл статистической нормы уровень об следуемого на фоне других. Но ничего не говорит о действительных возможностях деятельности. Пример: поступление в ВУЗ.

2. Необычные психические проявления положительного характера статистическая норма рассматривает как отклонение. Пример: эйдетическая память.

Норма – единство общего и специфического. 2 предельных случая:

Максимальная общность – такой подход требует описания объекта психодиагностики, только как общего предполагает сравнение обследуемого с группой. При этом наблюдают: чем шире круг объектов, к которым преложима норма, тем менее конкретным содержанием она обладает. Норма абстрактна, односторонняя и пустая.

Максимальная конкретность – требует описания объекта психодиагностики, только как особого и уникального. Предполагает сравнение обследуемого с самим собой. Все нормально по отношению к самому себе, следовательно, происходит потеря критерия для оценки диагностических данных – норма снимается как научная проблема, норма единство общего и специфического. Трудность нормы в нахождении оптимального сочетания для рассматриваемой области.

V. а) Норма как отсутствие отклонений . Характеризует норму через отсутствие отклонение и находит выражение в формуле: Все что не С (a, b, c) есть А. Где С – отклонение, a, b, c, - признаки отклонения, А – норма.

Этот подход предполагает установление нормы через исключение отклонений без раскрытия ее положительного содержания. Описание нормы в терминах отклонений. Пример: Менисотский опросник (MMPI), основа классификации заболеваний по Крейчмеру.

б) Норма предполагает сходство структуры больной и здоровой психики.

A (a’, b’, c’) есть слабая степень выраженности С (a, b, c), где А – норма; a’, b’, c’ – признаки отклонений слабо выраженных; С – отклонение; a, b, c – признаки отклонения сильно выраженного.

Этот подход строиться на предположении, что психически здоровый человек соответствует норме до тех пор, пока эти признаки в выражении не превосходит положенных границ. Такой вариант описания нормы позволяет оценить психику здорового человека в профилактических целях с т.з. потенциальной угрозы дезадаптации. Пример: Методика акцентуаций характера. Понятие минимального диагностического числа. Если превосходит, следовательно, акцентуации есть и наоборот. Различие степени выраженности больного и здорового.

VI. Описательная или норма как идеальное психическое здоровье. Норма устанавливается через характеристику признаков психического здоровья. Основание – общечеловеческие ценности, признаки продуктивной деятельности здоровой самоактуализирующейся личности (интерес к внешнему миру, наличие жизненной функции, которая упорядочивает накопленные опыт, способность к юмористически окрасить действия, установление душевных контактов с окружающими, целостность психики). По данным организации здравоохранения, признаки - это причинно обусловленность психических явлений, максимальная приближенность субъективных образов к объектам действительности, соответствие реакций силе и частоте внешних раздражителей, критический подход к обстоятельствам жизни, адекватная реакция на общественные обстоятельства, способность самоуправления поведением в соответствии с нормами, установившимися в разных группах, чувство постоянства и идентичности переживания в однотипных обстоятельствах, изменение способов поведения в различных ситуациях.

Трудности подхода :

1. Отсутствие на практике в большинстве случаев полного набора признаков идеального психического здоровья.

2. Неоднородность ряда описательных критериев требует дополнительных уточнений.

VII. Интуитивный . В качестве критерия для оценки диагностических данных используются невербальные характеристики. Этот подход опирается на опыт психодиагностической работы и результаты обследования клиента. Он ставит эффективность в зависимость от квалификации психолога. Может относится к области искусства. Пример: Врач улавливает свою реакцию на пациента. У медиков – диагноз первого взгляда, интуитивная оценка ситуации.

Вывод: отсутствие единого представления о норме ведет к тому, что каждый из подходов отображает одну сторону и имеет свои ограничения. Это классическая проблема т.к. норма изменчива во времени.


РАЗДЕЛ 3. ПСИХОДИАГНОСТИЧЕСКИЙ ИНСТРУМЕНТАРИЙ

Измерение соотношения. Коэффициент валидности выражает величину корреляции между показателем теста и мерой критерия. Этот коэффициент позволяет характеризовать валидпость единственным числовым показателем, и поэтому его часто приводят в руководствах к тестам, указывая его величину для каждого из использованных критериев. Данные, по которым вычисляется коэффициент валидности, могут к тому же быть представлены в виде таблицы ожидаемых результатов или диаграммы ожидаемого отсева (см. главу 3). Собственно говоря, такие таблицы и диаграммы - наглядные иллюстрации того, что коэффициент валидности означает для тестируемого. Напомним, что в таблицах ожидаемых результатов приводятся вероятности достижения определенного уровня выполнения критериальной деятельности испытуемым, получившим определенный показатель по данному тесту. Например, с помощью табл. 3-6, зная показатель ученика по тесту числового рассуждения из батареи Дифференциальных тестов способностей (DAT), можно определить вероятность получения им той или иной оценки по математике в 7-м классе. Для тех же данных коэффициент валидности составляет 0,60. Если, как в приведенном примере, тестовая и критериальная переменные являются непрерывными, то применим уже знакомый нам коэффициент корреляции произведения моментов Пирсона. Если же исходные данные выражены в иной форме (скажем, при использовании дихотомического критерия «выполнено-невыполнено» - см. рис. 3-7), вычисляются другие виды коэффициентов корреляции. Соответствующие вычислительные процедуры можно найти в любом типовом учебнике по статистике.

Условия, влияющие на величину коэффициентов валидности. Как и в случае с надежностью, важно точно определять характер группы, на которой вычисляется коэффициент валидности теста. Один и тот же тест может измерять различные функции, если его дать лицам разного возраста, пола, уровня образования, рода занятий и т. д. Люди с разным жизненным, учебным и профессиональным опытом могут, па-пример, воспользоваться разными методами для решения одной и той же тестовой задачи. Следовательно, тест может обладать высокой валидностью относительно заданного критерия в одной популяции и низкой или нулевой валидностью - в другой. Или, скажем, оказаться валидной мерой разных функций в двух популяциях. Поэтому в технических руководствах к тестам, предназначенным для работы с разнотипными популяциями, следует приводить соответствующие данные о понуляционной обобщаемое™ (populationgeneralizah"dity). Кроме того, когда имеет место значительная внутрипопуляционная вариация тестовых показатели"!, коэффициент валидности теста может заметно различаться в разных частях диапазона показателей и должен проверяться в соответствующих подгруппах (R. Lee, & Foley, 1986).



Вопрос неоднородности выборки имеет для измерения валидности такое же значение, как и для измерения надежности, поскольку обе характеристики обычно приводятся в виде коэффициентов корреляции. Напомним, что при прочих равных условиях чем шире размах распределения показателей, тем выше будет корреляция. Это обстоятельство необходимо иметь в виду при интерпретации коэффициентов валидности, приводимых в руководствах к тестам.

Специфическая проблема, присущая многим выборкам валидизации, связана с пре-"отбором (preselection). Например, новый тест, валидизируемый для целей профотбора,

Часть 2.

может проводиться на группе недавно нанятых работников, в отношении которых со временем будут доступны такие меры критерия, как эффективность труда. Вполне вероятно, однако, что эти работники представляют собой верхнюю (лучшую) часть выборки из всех тех, кто хотел поступить на эту работу. Поэтому нижний конец распределения тестовых показателей и критериальных мер в такой выборке окажется обрезанным. Эффектом такого предотбора, естественно, будет снижение коэффициента валидности. При последующем использовании теста, когда его будут проводить со всеми поступающими на работу в целях их отбора, можно ожидать некоторого повышения его валидности.

Коэффициенты валидности могут также измениться через какое-то время вследствие изменения норм отбора. В качестве примера сравним коэффициенты валидности, полученные с интервалом в 30 лет при обследовании студентов Йельского университета (Burnham, 1965). Определялась корреляция между прогнозирующим показателем, основанным на тестах Совета колледжей, и успеваемостью в старших классах, с одной стороны, и средним баллом первокурсника - с другой. Оказалось, что за 30 лет корреляция снизилась с 0,71 до 0,52. Анализ соответствующих двумерных распределений данных легко выявил причину этого снижения. Дело в том, что в связи с повысившимися требованиями при приеме в колледж группа студентов во втором случае стала более однородной, чем в первом, по отношению как к прогнозирующему показателю, так и к мерам критерия. Отсюда и падение корреляции, несмотря на то что точность прогноза успеваемости в колледже осталась, в общем, прежней. Иными словами, наблюдаемое снижение корреляции вовсе не свидетельствовало о том, что прогнозирующие показатели стали менее валидными, чем 30 лет назад. А ведь именно к такому выводу можно было бы прийти, упустив из виду различия в однородности групп.

Для правильной интерпретации коэффициента валидности следует принимать во внимание и форму связи между тестом и критерием. Вычисление пирсоновского коэффициента корреляции предполагает, что эта связь линейна и остается неизменной во всем диапазоне распределения. Исследование связи тестовых показателей с выполнением работы показало, что эти условия, в общем, выполняются (Coward, & Sa-ckett, 1990; Hawk, 1970). Все же особые обстоятельства могут изменять характер этой связи, и пользователю теста следует быть всегда готовым к такому повороту событий. Пусть для выполнения некоторой работы требуется лишь минимальный уровень понимания читаемого, достаточный для прочтения инструкций, названий и т. д. Но как только этот минимальный уровень превзойден, то от дальнейшего развития данного умения успешность выполнения работы уже не зависит, т. е. между тестом и выполнением работы существуют нелинейные отношения. Изучение двумерного распределения или диаграммы рассеяния, построенной по показателям теста на понимание читаемого и мерам критерия, в этом случае показало бы, что уровень выполнения работы растет, пока умение понимать читаемое не достигает требуемой степени, после чего он остается примерно тем же. Следовательно, точки на диаграмме группируются вокруг кривой, а не прямой линии.

В других случаях линия наилучшего соответствия может быть и прямой, но точки, соответствующие индивидуальным данным, могут отклоняться от нее в верхнем конце шкалы больше, чем в нижнем. Предположим, что успешное выполнение теста академических способностей - необходимое, но не достаточное условие для успешного завершения некоторого учебного курса. Это значит, что учащиеся с низкими показа-

Глава 6. Валидность: измерение и интерпретация

телями по данному тесту получат скорее всего неудовлетворительные оценки, тогда как среди учащихся с высокими показателями одни получат положительные оценки, а другие, из-за недостаточной мотивации, отсутствия интереса или других неблагоприятных условий, не сдадут экзамена. В этой ситуации будет наблюдаться большая вариативность выполнения критериальной деятельности у учащихся с высокими тестовыми показателями, чем с низкими. Такое условие в двумерном распределении называется гетероскедастичностью." Пирсоновская корреляция предполагает гомо-скедастичность, т. е. одинаковую вариабельность во всем диапазоне двумерного распределения. В приведенном примере двумерное распределение было бы веерообразным - широким в верхнем конце и узким в нижнем. Уже визуального анализа двумерного распределения обычно бывает достаточно для установления характера связи между тестом и критерием. Таблицы ожидаемых результатов и диаграммы ожидаемого отсева также правильно показывают относительную эффективность теста на разных уровнях.

Величина коэффициента валидности. Какова должна быть величина коэффициента валидности? На этот вопрос нет единого ответа, так как при интерпретации коэффициента валидности нужно учитывать ряд сопутствующих обстоятельств. Разумеется, корреляция должна быть достаточно высокой для того, чтобы быть статистически значимой на приемлемом уровне, таком как 0,01 или 0,05 (см. главу 4). Иными словами, прежде чем делать какие-либо выводы о валидности теста, нужно иметь обоснованную уверенность в том, что полученный коэффициент валидности не появился в результате случайных колебаний выборки из генеральной совокупности с нулевой корреляцией.

Установив значимую корреляцию между тестовыми показателями и критерием, необходимо еще оценить ее величину в аспекте тех целей, ради которых и создавался данный тест. Если мы собираемся предсказывать точное значение критериального показателя у конкретных лиц (скажем, средний балл студента в колледже), коэффициент валидности можно интерпретировать исходя из стандартной ошибки оценки (standard error of estimate, или сокращенно, SE„ ), которая аналогична ошибке измерения, обсуждавшейся в связи с надежностью. Напомним, что ошибка измерения указывает допустимый предел возможной ошибки индивидуального показателя в результате ненадежности теста. Аналогично этому, ошибка оценки указывает допустимый предел возможной ошибки прогнозируемой величины индивидуального критериального показателя в результате недостаточной валидности теста.

Ошибка оценки вычисляется по следующей формуле:

гд - е г 1, - квадрат коэффициента валидности и SD V - стандартное отклонение критериального показателя. Заметим, что при полной валидности (г п, = 1,00) ошибка оценки была бы равна нулю. С другой стороны, если валидность теста равна нулю, то ошибка оценки достиг ает величины стандартного отклонения распределения критерия \ s E es , = SD y -v/l - 0 = SD y ). При этих условиях вероятность правильного прогноза не

Термины «гомоскедастичность» и «гетероскедастичность» (букв, «одинаковая рассеянность» и «Неодинаковая рассеянность» соответственно) введены в статистику А. А. Чупровым. - Примеч. н «Уч. ред.

Часть 2. Технические и методологические принципы

превышает вероятности случайного угадывания, и диапазон ошибки предсказания равен ширине распределения критериальных показателей. Между этими двумя пределами И будут заключаться ошибки оценки, соответствующие тестам с варьирующей валидностью.

Обращаясь к формуле для SE a , покажем, что выражение Jl-/Ј позволяет определить величину ошибки оценки относительно ошиб ки простого угадывания (т. е. при нулевой валидности). Иными словами, если ^|1 - г£ = 1,00, то ошибка оценки столь же велика, как и при случайном угадывании критериального показателя у конкретного испытуемого. Использование такого теста не дало бы нам никакого выигрыша в точности предсказания. Если же коэффициент валидности равен 0,80, Tajl-rЈ =0,60, и максимальная ошибка составляет 60 % от величины той, которая была бы при случайном угадывании. Выражаясь иначе, использование этого теста позволяет нам предсказывать индивидуальные результаты в критериальной деятельности с пределом ошибки, который на 40 % меньше, чем в случае угадывания.

Может показаться, что даже при такой необычайно высокой валидности, как 0,80, ошибка предсказываемых показателей довольно значительна. Если бы главной функцией психологических тестов было предсказание точного положения индивидуума в критериальном распределении, такая перспектива выглядела бы совершенно обескураживающей. Когда мы рассматриваем тесты в аспекте ошибки оценки, большинство из них представляются не особенно эффективными. Однако чаще всего при тестировании нет необходимости предсказывать точный результат критериальной деятельности каждого обследуемого человека, но требуется лишь определить, кто из них превзойдет некоторый минимальный стандарт выполнения, или критический показатель выбранной в качестве критерия деятельности. Каковы шансы у Мери Грин закончить медицинское училище, у Тома Хиггинса усвоить курс вычислительной математики, а у Беверли Брюса преуспеть в качестве астронавта? Кто из поступающих на работу, скорее всего, будет хорошим клерком, страховым агентом, механиком? Такая информация полезна не только для профотбора, но и для профориентации. Например, студенту полезно и выгодно знать, что у него хорошие шансы благополучно окончить юридический факультет, даже если мы не можем с уверенностью сказать, будет ли его средний балл 74 или 81.

Тест может заметно повысить свою предсказуемостную эффективность, если для него будет установлена любая значимая корреляция с критерием, какой бы низкой она ни была. При некоторых обстоятельствах валидность порядка 0,20-0,30 уже оправдывает включение теста в программу отбора. Для многих целей тестирования оценивание тестов с точки зрения их стандартной ошибки оценки является неоправданно строгим. В большинстве случаев должны применяться другие способы оценивания тестов, те, которые бы учитывали типы решений, принимаемых на основе их результатов. О некоторых из них пойдет речь в следующем разделе.

error: