Logo GenDocs.ru

Поиск по сайту:  

Загрузка...

Валидность тестов - файл 1.rtf


Валидность тестов
скачать (598 kb.)

Доступные файлы (1):

1.rtf599kb.17.11.2011 10:01скачать

содержание

1.rtf

  1   2   3
КОРОЛЁВСКИЙ ИНСТИТУТ

УПРАВЛЕНИЯ, ЭКОНОМИКИ И СОЦИОЛОГИИ


КАФЕДРА ПРИКЛАДНОЙ ПСИХОЛОГИИ





Курсовая работа

По дисциплине: «Психодиагностика»

По теме: «Валидность тестов. Виды и типы валидности. Проблемы расчета валидности»





        1. Работа выполнена:

Волковой Е.А.

гр.ПО – 03

Работа принята:

Ерошенко Н.Н.


Королёв, 2011

СОДЕРЖАНИЕ


Введение 3

Глава 1 Понятие, структура и типы валидности

1.1 Понятие теста. Показатели качества тестов (методик)..............4

1.2 Понятие и структура валидности 7

1.3 Внешняя валидность 8

1.4 Внутренняя валидность 11


Глава 2 Виды валидности. Проблемы расчета валидности

2.1 Виды валидности 16

2.2 Проблемы расчета валидности 23

2.3 Оценка конструктной валидности методики «Потребность в достижении цели» (Ю.М.Орлов). 27

Заключение 32

Список используемой литературы 33

Приложения


Введение

Актуальность данной темы заключается в том, что понятие валидности отражает прагматическую идею обязательной практической проверки качества измерения психологических свойств человека. И если раньше понятие валидности чаще других ассоциировалось с понятием «качество теста», то в последние годы всё больше осознаётся роль интерпретации тестовых результатов. Таким образом, валидность - это прежде всего, адекватность интерпретации тестовых результатов по отношению к цели тестирования, содержанию основного понятия (содержанию диагносцируемого психического свойства) и применению результатов тестирования (в профотборе и других прикладных психологических обследованиях). В контексте прикладной задачи валидность представляет собой не столько критерий качества теста, сколько показатель меры соответствия теста цели тестирования.

Цель исследования: изучить понятие «валидность» тестов, виды и типы валидности, проблемы расчета валидности; установить валидность методики с помощью оценки конструктной валидности.

Объект исследования: валидность.

Предмет исследования: валидность тестов, виды и типы валидности, проблемы расчета валидности.

В соответствии с целью, объектом и предметом исследования определяются его основные задачи:

1.    изучение видов и типов валидности тестов (методик);

2.    изучение проблем расчета валидности тестов (методик);

3.    оценка конструктной валидности методики.

Гипотеза: методика "Потребность в достижении цели" (Ю.М.Орлов) валидна, исходя из критерия конструктной валидности.


ГЛАВА 1. Понятие, структура и типы валидности



    1. Понятие теста. Показатели качества тестов (методик)

Термин «тест», получивший чрезвычайно широкое распространение в различных областях знания в смысле испытания, проверки, имеет давнюю историю. По Р. Пэнто и М. Гравитц (1972), слово «тест» происходит из старофранцузского языка и является синонимом слова «чашка» (лат. testa - ваза из глины). Этим словом обозначали небольшие сосуды из обожжённой глины, использовавшиеся алхимиками для проведения опытов. В русском языке слово «тест» долгое время имело два значения:

1) испытательная присяга, религиозная английская клятва, которую каждый вступающий в общественную должность должен давать, чтобы доказать, что он не тайный католик;

2) плоский плавильный сосуд или сосуд из выщелоченной золы для выделения олова из золота или серебра [1].

Близкое современному содержание термин «тест» как психологический термин получает в конце XIX в.

Тестами в психологии называют стандартизированные методики психодиагностики, позволяющие получать сопоставимые количественные и качественные показатели степени развитости изучаемых свойств.

Под стандартизированностью таких методик имеется ввиду то, что они всегда и везде должны применяться одинаковым образом, начиная от ситуации и инструкции, получаемой испытуемым, кончая способами вычисления и интерпретации получаемых показателей. Сопоставимость означает, что оценки, получаемые при помощи теста, можно сравнивать друг с другом независимо от того, где, когда и кем они были получены, если, разумеется, тест применялся правильно.

В психодиагностике известны разнообразные классификации тестов. Они могут подразделяться по особенностям используемых тестовых заданий на тесты вербальные и тесты практические, по форме процедуры обследования - на тесты групповые и индивидуальные, по направленности - на тесты способностей, тесты личности и тесты отдельных психических функций, а в зависимости от наличия или отсутствия временных ограничений - на тесты скорости и тесты результативности. Также тесты могут различаться по принципам их конструирования. За последние десятилетия многие известные тесты были приспособлены к среде компьютера (предъявление, обработка данных и др.), их можно обозначить как компьютеризированные тесты. Активно разрабатываются тесты компьютерные, изначально конструируемые с учётом возможностей современной вычислительной техники. Тесту, как и любому другому инструменту познания, присущи особенности, которые в конкретных обстоятельствах исследования могут рассматриваться в качестве его достоинств и недостатков. Эффективное использование тестов зависит от учета многих факторов, из которых к важнейшим относятся: теоретическая концепция, на которой базируется тот или иной тест; область применения; весь комплекс ведений, обусловленных стандартными требованиями к психологическим тестам, их психометрическим характеристикам. Распространённые представления о «простоте» и доступности тестов не соответствуют действительности. Являясь средством исследования сложнейших психических явлений, тест не может толковаться упрощённо как предложение задания и регистрация его решения. Научное использование тестов возможно лишь при условии опоры на общепсихологические знания, компетентность в области теории и практики соответствующих психодиагностических исследований. Не менее существенно следование этическим нормам психодиагностики.

Идеальный тест должен включать в себя минимальное количество заданий. Однако чем больше личностных факторов хочет измерить тестирующий, тем большее количество вопросов целесообразнее задать тестируемому. Адаптация теста применяется в случае проведения теста в иноязычной стране

Тест должен соответствовать целевой группе, на которую он направлен. Тест, направленный на одну группу, в результате тестирования которой были получены достоверные результаты, может не соответствовать в отношении другого целевого сегмента.

Особое значение имеет выбор критерия оценки получаемых результатов. Сами по себе, без сопоставления с точкой отсчёта, результаты психологических испытаний ничего не значат. Чаще всего они сопоставляются с нормами выполнения в выборке стандартизации (репрезентативная выборка того типа, для которого данная методика предназначена, например, дети определённого возраста, студенты высших учебных заведений сходного профиля, представители той или иной профессии и др.). Эти нормы, таким образом, устанавливаются опытным путём. Затем результаты каждого испытуемого сопоставляются с нормой и квалифицируются как средние, высокие и низкие. Это позволяет определить положение конкретного испытуемого относительно нормативной выборки или выборки стандартизации. Для этого «сырые» баллы (т.е. количество правильных ответов) с помощью специальных таблиц переводятся в стандартные показатели (стены), сопоставимые друг с другом и с нормой. В данном случае используется статистическая норма - средний диапазон значений на шкале измеряемого свойства - это тот уровень, который характеризует статистически среднего человека. Однако в последние годы такой способ оценки результатов тестирования подвергается критике.

Полезнее ориентироваться на систему требований, которую общество на определённом этапе своего развития предъявляет каждому из его членов. Это могут быть требования к умственному, эстетическому, нравственному развитию человека. Чтобы жить в обществе, человек должен отвечать данным требованиям. Содержание таких социально-критериальных норм (социально-культурных нормативов) вполне реально, оно присутствует в образовательных программах, в квалифицированных профессиональных характеристиках, общественном мнении, мнении педагогов, воспитателей. В качестве точек отсчёта могут быть использованы и другие критерии, например, возрастные нормы, критерии выполнения деятельности и др.


^ 1.2 Понятие и структура валидности

Объективность психодиагностики вообще и тестовых показателей в частности достигается путем неуклонного соблюдения психологом критериев достоверности психодиагностического измерения, а также путем приобретения опыта получения, использования и интерпретации полученных данных.

Достоверность психодиагностического измерения определяется валидностью (соответствием тестовых данных измеряемому свойству), надежностью (точностью психодиагностических измерений) и прогностичностью (предположением о развитии измеренного свойства) применяемых психологических методик (тестов).

Термин «валидность» (англ. validity) - буквально означает: «полноценный», «пригодный», «соответствующий». А. Анастази: "Валидность теста — понятие, указывающее нам, что тест измеряет и насколько хорошо он это делает" [2]. Характеристика психодиагностической методики как валидной свидетельствует о ее соответствии и пригодности для оценивания именно того психологического качества, для которого она предназначается. То есть, к примеру, при валидном измерении интеллекта измеряется именно интеллект, а не что-то другое. Безупречный эксперимент (возможный лишь в теории) будет обладать безупречной валидностью: он будет точно показывать, что экспериментальный эффект был вызван изменением независимой переменной, он будет полностью соответствовать реальности, его результаты можно обобщить без ограничений.

Когда говорят о степени валидности, рассматривается то, насколько результаты исследования соответствуют поставленным задачам (однако при этом валидность не измеряется в каких-либо условных единицах).

Характеристика валидности методики включает в себя не только сведения о том, что данная методика на самом деле измеряет, но также информацию об условиях, о сфере ее применения.

В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики. Выражение валидности в общих терминах наименования принципиально невозможно, так как ни один тест нельзя охарактеризовать высоким или низким уровнем валидности абстрактно, не учитывая его конкретной целенаправленности. На деле между наименованием теста и его практическим назначением нередко существует несоответствие. Валидность теста должна определяться только относительно его специального использования.


^ 1.3 Внешняя валидность

Различают два типа валидности — внешнюю (external validity) и внутреннюю (internal validity). Внешняя валидность есть мера возможности распространения результатов тестирования на генеральную совокупность, т.е. внешняя валидность определяет то, в какой мере результаты, полученные в эксперименте, могут соответствовать тому типу жизненной ситуации, которая была исследована, и то, насколько возможно обобщить эти результаты на все подобные жизненные ситуации [3].

Как и в отношении любой другой валидности, о внешней валидности в исследовании, вероятно, невозможно сказать, что она абсолютно соблюдена, можно указать только на её нарушение. Абсолютным соблюдение внешней валидности считалось бы тогда, когда результаты исследования можно обобщить на любые популяции при любых условиях и в любое время, поэтому учёные говорят не о соблюдении либо несоблюдении внешней валидности, а о степени её соблюдения.

Чтобы исследование обладало наивысшей степенью валидности, должна существовать возможность генерализации его результатов на другие популяции, другие условия, другое время.

Примером нарушения внешней валидности послужило исследование Лоренса Колберга, посвящённое изучению нравственного развития детей. Оно было подвергнуто критике за низкую степень внешней валидности. В 1963 году Колберг предложил мальчикам-подросткам разрешить различные коротко сформулированные дилеммы. На основании полученных ответов он разработал теорию о шести стадиях морального развития. Критика внешней валидности этого исследования в частности состояла в том, что учёный не учитывал половых различий в особенностях мышления способах принятия моральных решений и, следовательно, неправомерно обобщил свою модель на представителей обоих полов. Колберг также исходил из предпосылки о том, что существуют некие «универсальные принципы справедливости и соблюдения прав личности», однако он не учёл межкультурных различий, следовательно, выводы, которые он сделал, не могут восприниматься как универсальные [4].

Чтобы увеличить степень внешней валидности, в исследованиях могут не ограничиваться лишь экспериментальным методом, но также использовать и другие — например, наблюдение, межкультурные исследования и т. д.

При современном научном подходе в психологии соблюдение внешней валидности в исследованиях играет ведущую роль, так как наиболее ценным считается создание общих теорий, моделей и алгоритмов, применимых к психике в целом, независимо от контекста, — то есть моделей, обладающих крайне широкими предсказательными возможностями; поэтому исследования, результаты, которых можно применить только к какой-то определённой ограниченной ситуации, обладают нисходящей ценностью.

Внешняя валидизация осуществляется путем расчета репрезентативности экспериментальной выборки при отработке теста и перекрестной валидизации, то есть определения валидности теста на выборке, отличающейся от той, на которой отрабатывался стимульный материал и задания к тесту.

Репрезентативность выборки — это представительность экспериментальной выборки, которая отражает основные свойства генеральной совокупности. Репрезентативность определяется путем сопоставления качественных и количественных характеристик экспериментальной выборки с характеристиками исследуемой популяции с целью определения их однородности.

Пример. Предположим, совокупность — это все учащиеся школы (600 человек из 20 классов, по 30 человек в каждом классе). Предмет изучения — отношение к курению. Выборка, состоящая из 60 учеников старших классов, гораздо хуже представляет совокупность, чем выборка из тех же 60 человек, в которую войдут по 3 ученика из каждого класса. Главной причиной тому — неравное возрастное распределение в классах. Следовательно, в первом случае репрезентативность выборки низкая, а во втором случае репрезентативность высокая (при прочих равных условиях).

К качественным характеристикам могут быть отнесены социально-демографические, видовые, интеллектуальные (образовательные), профессиональные и другие характеристики популяции (группы), которые являются предметом исследования или существенно влияют на него.

Количественная характеристика экспериментальной группы — это минимальная ее численность, которая сохраняет свойства генеральной совокупности. Формирование репрезентативной выборки по количественному признаку осуществляется при помощи теоремы П.А. Чебышева о вероятности ошибки репрезентативности, которая гласит: «С вероятностью сколь угодно близкой к единице можно утверждать, что при достаточно большом числе независимых наблюдений выборочная средняя будет сколь угодно мало отличаться от генеральной средней» и далее (следствие 1 из теоремы П.Л. Чебышева) «...что с вероятностью, как угодно близкой к единице («практически достоверно»), выборочная доля будет как угодно мало отличаться от генеральной доли, если объем выборки достаточно велик». Размер минимальной репрезентативной выборки рассчитывается по формуле:

n = [t2 – W (1 – W) N] / [d2 N + t2 W (1 – W)],

где n – численность экспериментальной выборки; t – коэффициент кратности ошибки, связанный с вероятностью Pt, с которой требуется гарантировать результаты выборочного наблюдения (величина t-критерия Стьюдента); d – размер допустимой ошибки выборки (0,05); W – доля данного признака (0,8); (1 – W) – доля противоположного признака (0,2); N – численность генеральной совокупности.

Перекрестная валидизация производится путем апробации теста на выборке, отличной от экспериментальной. Перекрестная валидизация осуществляется для того, чтобы определить границы применения методики по критерию "характеристика популяции" (для определения уровня развития свойства у детей, подростков, мужчин-женщин, определенной группы специалистов и т. д.). В ходе перекрестной валидизации рассчитываются коэффициенты корреляции между одними и теми же показателями, полученных в результате тестирования разных групп испытуемых. Вывод о возможности применения теста на данной популяции делается при помощи параметрических критериев (F- критерий Фишера, t - критерий Стъюдента, n - критерий Уэлша).


^ 1.4 Внутренняя валидность

Внутренняя валидность — это мера соответствия тестовых оценок уровню развития измеряемого свойства. Внутренняя валидность тем выше, чем больше вероятность того, что изменение зависимой переменной вызвано изменением именно независимой переменной (а не чего-либо ещё) [5].

Данное понятие можно рассматривать как междисциплинарное: оно широко применяется в экспериментальной психологии, а также в других сферах науки. Внутренняя валидность - соответствие реального исследования идеальному.

При обладающем внутренней валидностью исследовании исследователь уверен, что результаты, полученные измерением зависимой переменой, непосредственно связаны с независимой переменной, а не с каким-нибудь другим неконтролируемым фактором [6].

Однако, фактически, в науке (особенно в психологии) невозможно со стопроцентной уверенностью утверждать, что внутренняя валидность соблюдена. Например, невозможно изучить какой-то психический процесс отдельно от психики в целом. Поэтому всегда при любом психологическом эксперименте учёный может лишь максимально (но не абсолютно) удалить или минимизировать разнообразные факторы, угрожающие внутренней валидности.

Существует много факторов, угрожающих внутренней валидности [7]:

1) Изменение во времени (зависимость субъектов и окружающей среды от времени суток, времён года, изменений в самом человеке — старение, усталость и рассеивание внимания при длительных исследованиях, изменение мотивированности испытуемых и экспериментатора и т. д.)

2) Эффект последовательности - влияние одного из условий эксперимента на следующее за ним.

3) Эффект Розенталя (Пигмалиона) - психологический феномен, заключающийся в том, что ожидания личностью реализации пророчества во многом определяют характер её действий и интерпретацию реакций окружающих, что и провоцирует самоосуществление пророчества. Может проявиться на любой стадии исследования и в любой науке: и при проведении процедуры эксперимента, и при обработке результатов, и при интерпретации результатов исследования, и т. д.

4) Эффект Хоторна - это условия, в которых новизна, интерес к эксперименту или повышенное внимание к данному вопросу приводят к искажённому, зачастую слишком благоприятному результату. Участники эксперимента действуют иначе, более усердно, чем обычно, только благодаря осознанию того, что они причастны к эксперименту.

Хоторнский эффект имеет двоякую трактовку: позитивные изменения в поведении людей, вызванные оказанным им вниманием, которое сами люди истолковывают как благожелательное участие, а в экспериментальной психологии — изменения в наблюдаемом явлении, происходящие вследствие самого факта наблюдения.

5) Эффект плацебо - вещество без явных лечебных свойств, используемое в качестве лекарственного средства, лечебный эффект которого связан с верой самого пациента в действенность препарата. Иногда капсулу или таблетку с плацебо называют пустышкой. В качестве вещества для плацебо часто используют лактозу.

Кроме того, термином эффект плацебо называют само явление улучшения здоровья человека благодаря тому, что он верит в эффективность некоторого воздействия, в действительности нейтрального. Кроме приёма препарата таким воздействием может быть, например, выполнение некоторых процедур или упражнений, прямой эффект которых не наблюдается. Степень проявления плацебо-эффекта зависит от внушаемости человека и внешних обстоятельств «лечения» — например, от размера и яркого цвета таблетки, степени доверия врачу, авторитета клиники.

6) Эффект аудитории (эффект Зайонца, эффект фасилитации) — влияние постороннего присутствия на поведение человека. Этот эффект необходимо учитывать при проведении психологических исследований.

7) Эффект первого впечатления — влияние мнения о человеке, которое сформировалось у субъекта в первые минуты при первой встрече, на дальнейшую оценку деятельности и личности этого человека.

Этот эффект позволяет выносить быстрое и обобщенное впечатление о вновь встреченном человеке и использовать это впечатление для построения дальнейшего общения. Первое впечатление может формироваться субъектом намеренно или непроизвольно. Факторами этого впечатления могут выступать особенности внешнего облика и поведения человека, о котором субъект формирует мнение. Первое впечатление зависит в большой степени и от личностных особенностей самого воспринимающего субъекта и поэтому может быть более обобщенным или конкретным, исчерпывающим или поверхностным, доброжелательным или негативным и т. д. [8].

8) Эффект Барнума (эффект Форера, эффект субъективного подтверждения) — общее наблюдение, что люди крайне высоко оценивают точность таких описаний их личности, которые, как они предполагают, созданы индивидуально для них, но которые на самом деле неопределённы и достаточно обобщены, чтобы их можно было с таким же успехом применить и ко многим другим людям. Эффектом Барнума многие учёные частично объясняют феномен широкой популярности астрологических гороскопов, хиромантии и других псевдонаук.

9) Сопутствующее смешение — на зависимую переменную обычно влияют различные нерелевантные стимулы, от которых принципиально невозможно избавиться. В задачи исследователя входит определение степени влияния этих стимулов на зависимую переменную, чтобы быть уверенным в том, какое влияние на неё оказывает изменение независимой переменной, интересующей экспериментатора [9].

10) Факторы выборки [10]:

- неправильная селекция (неэквивалентность групп по составу, вызывающая систематическую ошибку в результатах);

- статистическая регрессия (частный случай ошибки селекции, когда группы отбираются на основе крайних показателей);

- экспериментальный отсев (неравномерное выбывание испытуемых из сравниваемых групп, приводящее к неэквивалентности групп по составу);

- естественное развитие (общее свойство живых существ к изменению; ср. онтогенез)

И др.

Приведем пример нарушения внутренней валидности. Допустим, мы хотим проверить лекарство, от которого люди будут становиться выше. Допустим, для своих исследований мы отбираем в качестве испытуемых 13-летних подростков, измеряем их рост, и даём им лекарство. Два года спустя мы возвращаемся к теперь уже 15-летним детям и фиксируем их текущий рост. Несомненно то, что они стали выше, но без сомнения и то, что мы не можем сделать из этого вывод, что эффект роста был вызван лекарством, так как мы не учли в своём теоретическом эксперименте естественных процессов взросления. Здесь внутренняя валидность нарушена следующим образом: мы не учли побочного для нашего исследования влияния других (в данном случае — очевидных) факторов, тогда как надо было их учитывать.


ГЛАВА 2. Виды валидности. Проблемы расчета валидности


^ 2.1 Виды валидности

Внутренняя валидность включает в себя по крайней мере пять элементов:

1) Концептуальная (теоретическая) валидность — теоретическое обоснование возможности измерения исследуемого свойства данным психодиагностическим средством;

2) Содержательная валидность — степень репрезентативности содержания заданий теста измеряемой области психических свойств, т.е. характеризует тест по степени его соответствия предметной области;

Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений.

Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективностью дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.

Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области.

Согласно П.Клайну содержательная валидность определяется следующим образом:

1) указать категорию лиц, для которой предназначен тест;

2) составить список знаний, умений, навыков, подлежащих тестированию;

3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;

4) на основе списка составить перечень заданий;

5) выполнить внешнюю экспертизу полученных заданий;

6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, который будет содержательно валидным.

3) Конструктная валидность степень репрезентативности исследуемого психологического конструкта в результатах теста ("...на сколько результаты теста рассматриваются в качестве меры исследуемого психологического конструкта — фактора, свойства" – А. Анастази).

Конструктная валидность, обоснованная Л.Кронбахом в 1955г., характеризуется способностью теста к измерению такой черты, которая была обоснована теоретически (как теоретический конструкт). Когда сложно найти адекватный прагматический критерий, может быть выбрана ориентация на гипотезы, сформулированные на основе теоретических предположений об измеряемом свойстве. Подтверждение этих гипотез свидетельствует о теоретической обоснованности методики. Сначала необходимо, насколько возможно полно, содержательно описать конструкт, для измерения которого предназначен тест. Это достигается за счет формулирования гипотез о нем, предписывающих, с чем данный конструкт должен коррелировать, а с чем не должен. После чего данные гипотезы проверяются. Это наиболее эффективный способ валидизации для личностных опросников, для которых установление единственного критерия их обоснованности является затруднительным.

Конструктная валидность является наиболее комплексным и сложным видом валидности. Вместо одного результата (прежде всего прагматического) необходимо учитывать множество (чаще всего собственно психологических). Конструктная валидность имеет отношение к попыткам обозначения любых аспектов эксперимента. Опасности нарушения конструктной валидности заключаются в неправильном обозначении причины и эффекта с помощью абстрактных терминов, терминов, взятых из обыденного языка или формальной теории.

4) Операциональная валидность — степень репрезентативности в конкретных экспериментальных операциях реальных операциональных условий психической деятельности;

Операциональная валидность — частный случай внутренней валидности, степень соответствия методики и плана эксперимента проверяемой гипотезе.

Операциональная валидность определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента.

Частью операциональной валидности можно считать конструктную валидность [11].

5) Эмпирическая валидность — совокупность характеристик валидности теста, полученная сравнительным статистическим способом оценивания, среди них очевидная и критериальная виды валидности.

Идея эмпирической валидности заключается в определении способности теста служить индикатором или предсказателем строго определенной психической особенности или формы поведения человека. Для измерения эмпирической валидности теста вычисляется коэффициент корреляции тестового результата с внешним критерием — R(X,T).

Очевидная валидность — это представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого и другого лица, не располагающего специальными сведениями о характере использования и целях методики.

Она означает то впечатление о предмете измерения, которое формируется у испытуемого при знакомстве с инструкцией и материалом теста. Очевидная валидность играет важную роль в процессе тестирования, поскольку именно она в первую очередь определяет отношение испытуемых к обследованию. В.А. Аванесов приводит пример отказа от выполнения теста испытуемыми из-за отсутствия у теста очевидной валидности. Во время социологического опроса моряков рыболовного флота он столкнулся со случаем отказа заполнять анкету под предлогом того, что анкета составлена "не для моряков", в ней нет вопросов, относящихся к морякам, "на морские темы". Если бы опросник содержал "морские термины", то он бы казался "своим" и вызывал больше доверия у испытуемых. Именно в силу этого обстоятельства очевидную валидность иногда называют также доверительной валидностью.

Критериальная валидность — комплекс характеристик, включающий текущую и прогностическую валидности методики и отражающий соответствие диагноза и прогноза определенному кругу критериев развития измеряемого свойства. Критериальная валидность оценивается величиной связи, корреляции показателя теста с "внешним критерием".

Текущая (диагностическая или конкурентная) валидность — мера способности теста дифференцировать испытуемых по изучаемому признаку. Текущая валидность теста определяется исходя из его "трудности" и меры изменчивости измеряемого признака.

Определяется с помощью внешнего критерия, по которому информация собирается одновременно с экспериментами по проверяемой методике. Другими словами, собираются данные, относящиеся к настоящему времени успеваемость в период испытания, производительность в этот же период и т д. С ним коррелируют результаты успешности по тесту.

Трудностью теста называется отношение количества решенных и нерешенных заданий методики [12]. Уровень трудности характеризуется коэффициентом трудности (ТТ), который вычисляется по формуле:

ТТ = (NP / NH) 100%; (1)

где NP – количество решенных заданий теста; NH – количество нерешенных заданий теста.

Оптимальная «трудность теста» должна колебаться в пределах 50%, однако, как признают многие психологи, достичь такого положения крайне затруднительно. Трудность всей тестовой батареи должна колебаться в пределах 50%, а трудность входящих в неё тестов – находится в пределах «умеренного разброса». Видимо этот «умеренный разброс» будет равен d, т.е. 16 %. (Следует также учитывать 5% ошибку вычислений).

ТТ = 13 + 4d, (2)

где d - стандартное отклонение, которое вычисляется по формуле:

d = Ö (S xi2) / N.

Трудность теста, рассчитанного по формуле (2), находится в пределах от 1 до 25 (цифры 13 и 4 выбраны экспериментально в целях исключения отрицательных и дробных показателей и удобства расчетов). Средняя трудность теста имеет значение 13.

Нормальность распределения данных определяет численную характеристику дифференциации испытуемых. Она вычисляется при помощи критерия Х2 Пирсона, а также с использованием коэффициентов асимметрии и эксцесса распределения переменных.

Ширина полосы разброса данных по шкале измерений от min до max - характеристика вариации признаков. Простейшими измерителями вариации признаков являются размах вариации R - это разность между наибольшим и наименьшим значениями признаков, то есть R = xmax — xmin).

Дискриминативность заданий (субтестов) теста - способность отдельных пунктов (заданий) теста дифференцировать обследуемых относительно "максимального" или "минимального" результата теста [13]. Мерой соответствия успешности выполнения одного субтеста всей методике является показатель дискриминативности заданий теста, который называется коэффициентом дискриминации (индексом дискриминативности). Индекс дискриминативности теста рассчитывается в процессе разработки тестов и тестовой батареи. Он вычисляется при помощи а) точечно-биссериального коэффициента корреляции (Rpb) и б) метода контрастных групп в виде разности между долей лиц, правильно решивших задание из "высокопродуктивной" и "низкопродуктивной" групп (D).

D = (Nn max / Nmax ) — (Nn min / Nmin).

Наибольший интерес представляет характер группировки значений признака вокруг их средней. Мерой ее определения являются дисперсия (среднеквадратическое отклонение) и коэффициент вариации (V), который определяется как отношение дисперсии (dх) к среднему (Мх), выраженное в процентах:

V = (dх / Мх) 100%.

Между характеристиками распределения и вариативностью переменных имеется связь, которая предопределяет оптимальное сочетание формы распределения с вариативностью. Большая вариативность признаков говорит о том, что распределение ненормально, асимметрично и сильно скошено. Малая вариативность показывает, что тест не дифференцирует испытуемых по измеряемому признаку (испытуемые отвечают или решают задание одинаково). При анализе трудности, нормальности распределения и вариативности показателей тестов необходимо соблюдать меру, которая вырабатывается в процессе накопления опыта диагностической работы и статистической обработки данных.

Прогностическая валидность («предсказывающая») является элементом содержания достоверности тестов и определяется как степень точности и обоснованности суждения о диагностируемом психическом свойстве по его результату спустя определенное время после измерения.

Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний. Хотя этот прием наиболее соответствует задаче диагностических методик - предсказанию будущей успешности, применять его очень трудно. Точность прогноза находится в обратной зависимости от времени, заданного для такого прогнозирования. Чем больше проходит времени после измерения, тем большее количество факторов требуется учитывать при оценке прогностической значимости методики. Однако учесть все факторы, влияющие на предсказание, практически невозможно.

Показателем прогностичности теста является степень регрессии тестовых данных к объективным критериям. Регрессия представляет собой функцию f (x1, x2 х3, ... x n ), описывающую зависимость среднего показателя теста, измеряющего данное свойство от заданных фиксированных значений реального проявления этого свойства (внешнего критерия — y). Эта функция может носить линейный и нелинейный характер (линейная регрессия: y = b + ax; параболическая зависимость: y = b + ax + cx2; гиперболическая зависимость: y = b + a/x; показательная функция: y = b + ax).

В практической психодиагностике для прогноза развития или проявления измеренного свойства чаще применяют линейную или множественную линейную регрессию (y = b + a1 x1 +a2 x2... +an xn). Физический смысл ее заключается в приравнивании зависимой и независимой переменных. Изменение зависимой переменной прямо определяет изменение независимой переменной. Коэффициент а показывает угол наклона оси регрессии, а свободный член b — отстояние начала оси регрессии от начала координат. Коэффициент корреляции показывает уровень прогностичности функции, а R2 — уровень объясняемой дисперсии y за счет изменения х. При использовании тестовой батареи прогноз измеряемого свойства осуществляется посредством связанных между собой нескольких зависимых переменных (x1, x2 х3, ... xn ), которые и формируют множественную линейную регрессию. При использовании множественной линейной функции при прогнозе развития измеряемого свойства повышается уровень прогностичности тестирования и его достоверность за счет перекрытия разными методиками различных сторон измеряемого свойства.

  1   2   3



Скачать файл (598 kb.)

Поиск по сайту:  

© gendocs.ru
При копировании укажите ссылку.
обратиться к администрации