Понятие надежности теста

⇐ ПредыдущаяСтр 36 из 197Следующая ⇒

На практике используются три основных метода оценки надежности тестов:

повторное тестирование;
параллельное тестирование;
расщепление.

Рассмотрим каждое из них в отдельности. (См. дополнительный иллюстративный материал.)
Повторное тестирование. Ошибка измерения может быть определена путем многократного тестирования. Поэтому совершенно естественно, что повторное тестирование выборки испытуемых одним и тем же тестом через определенный интервал времени и при одинаковых условиях стало одним из основных методов измерения надежности. Повторное тестирование обычно называют ретестом, а надежность, измеренную таким способом, - ретестовой надежностью. Схема оценки ретестовой надежности имеет следующий вид:

(См. дополнительный иллюстративный материал.)

В этом случае за индекс надежности принимается коэффициент корреляции между результатами двух тестирований.
Метод повторного тестирования обладает как достоинствами, так и недостатками. К числу достоинств относятся естественность и простота определения коэффициента надежности. К недостаткам следует отнести неопределенность в выборе интервала между двумя измерениями. Возникновение временной неопределенности связано с тем, что повторное тестирование не отличается от первичного. Испытуемые уже знакомы с содержанием теста, помнят свои первоначальные ответы и ориентируются на них при повторном выполнении теста. Поэтому при повторном тестировании нередко наблюдается или " подгонка" под первоначальные результаты, или, как следствие негативизма, демонстрация " новых" результатов. (См. дополнительный иллюстративный материал.)
В результате оказывается, что, проводя повторное измерение для оценки одних источников ошибок, мы вызываем к жизни другие. Это специфическая психометрическая проблема, так как человек является не только объектом, но и субъектом измерения, активно влияет на результаты тестирования. В качестве одного из эффективных средств устранения ошибок, связанных с повторным применением одного и того же теста, рекомендуется проводить повторное тестирование через достаточно большие интервалы времени, чтобы первоначальные ответы были забыты, а по возможности и сам факт первого измерения изгладился из памяти. Однако при больших интервалах времени между двумя обследованиями могут происходить изменения в самих измеряемых характеристиках личности. В этом случае низкие значения коэффициента надежности будут следствием изменчивости измеряемой характеристики, а не низкой надежности теста. Поэтому, приводя в руководстве к тесту его ретестовую надежность, следует указывать, какому интервалу времени она соответствует. В связи с тем, что ретестовая надежность уменьшается с ростом временного интервала, наиболее доверительными являются высокие коэффициенты надежности, полученные при явно больших интервалах между тестированиями. Недостаточно высокие коэффициенты надежности могут быть следствием неоптимального определения временных интервалов.
Параллельное тестирование. В этом случае многократность измерения организуется с помощью параллельных (parallel), или эквивалентных тестов.
Схема использования параллельных тестов для измерения надежности имеет следующий вид:

(См. дополнительный иллюстративный материал.)

Рассчитанный между двумя параллельными тестами коэффициент корреляции называется эквивалентной надежностью.
Высокие значения коэффициента корреляции между параллельными формами указывают не только на надежность этих двух тестов, но и на эквивалентность их психологического содержания. Поэтому, когда эквивалентная надежность низкая, то это может быть связано либо с неэквивалентностью психологического содержания тестов, либо с низкой надежностью, либо с тем и другим вместе. Чтобы исключить некоторые альтернативы, следует получить оценки ретестовой надежности для параллельных тестов. При низкой ретестовой надежности низкую эквивалентную надежность логично считать следствием ненадежности тестов, в противном случае, когда ретестовая надежность высокая, приходится признать, что параллельные формы неэквивалентны по психологическому содержанию. Если имеются сомнения в эквивалентности психологического содержания тестов, то эти сомнения не снимаются никакими статистическими расчетами. Эквивалентность подтверждается психологическим анализом, экспертными суждениями специалистов и только в дополнение к этому - статистическими критериями.
Создание параллельных форм тестов связано с преодолением ряда трудностей. В мировой практике известно довольно мало тестов, имеющих параллельные формы. В качестве примера таких тестов можно назвать уже упоминавшиеся ранее многофакторные личностные тесты, разработанные сотрудниками Иллинойского университета под руководством Р.Б. Кэттелла, - CPQ, CSPQ, HSPQ, 16PF, каждый из которых имеет две или более параллельных формы.
Метод расщепления. Он является развитием метода параллельного тестирования и базируется на допущении о параллельности не только отдельных форм теста, но и отдельных заданий внутри одного теста. Для вычисления коэффициента надежности методом расщепления тест разбивается на отдельные задания или группы заданий. Наиболее распространенная процедура " расщепление" теста на две части: в одну часть собираются результаты четных заданий, а в другую - нечетных. При расщеплении теста на две части индекс надежности вычисляется по формуле Спирмена - Брауна, предложивших ее независимо. Их статьи с выводами формулы были опубликованы в одном и том же номере психологического журнала.

где R_{1, 2} - коэффициент корреляции двух половин теста.

Разделить тест на две равные части можно разными способами, и каждый способ дает новую численную оценку надежности. Для преодоления этого недостатка метода расщепления разрабатываются способы вычисления коэффициентов надежности, которые исходят из предположения деления теста не на две части, а на большее число частей, в пределе равном числу заданий. Но никто еще не дал исчерпывающего теоретического обоснования этой проблемы: на практике большинство критериев опираются на тот факт, что матрица корреляций отдельных заданий надежного теста состоит из коэффициентов, величина которых близка к единице. Поэтому наиболее естественно рассматривать в качестве индекса надежности средний модуль коэффициента корреляции всех заданий теста или средний коэффициент детерминации.
Коэффициент надежности, полученный методом расщепления, называют коэффициентом внутренней согласованности или гомогенности теста (homogenety). Гомогенность теста свидетельствует о том, что все задания теста устойчиво измеряют одну и ту же психологическую характеристику. Это означает, что если испытуемые имеют одинаковые тестовые оценки, то и степень выраженности у них измеряемого качества одинакова.
Итак, мы рассмотрели три эмпирических метода оценки надежности тестов: повторное тестирование одним и тем же тестом, повторное тестирование параллельной формой теста и расщепление теста. При использовании метода повторного тестирования получаем оценку степени устойчивости результатов во времени и в зависимости от условий тестирования. Поэтому ретестовый коэффициент надежности называют также коэффициентом устойчивости или стабильности теста. При использовании метода параллельных форм и метода расщепления оценивается степень взаимной согласованности частей теста. Поэтому коэффициенты надежности, полученные этими двумя методами, интерпретируются как показатели гомогенности, однородности теста.
Главная проблема теории тестов заключается в том, как по измеренным результатам определить истинные результаты. Существуют два основных определения истинных результатов тестирования, которые имеют значение для психометрии:

специфические;
обобщенные (генерализированные).

Под специфическим истинным результатом измерения понимается точный результат, полученный с помощью конкретного теста. Это понятие близко к понятию действительных точных (или " выровненных") оценок, используемых при измерении физических величин. Здесь истинность результатов понимается с точки зрения точности метода измерения. Для характеристики специфической истинности результатов тестирования и разработано понятие надежности. Оно характеризует соотношение наблюдаемого результата и его действительной величины. (См. дополнительный иллюстративный материал.)
Генерализованный (обобщенный) истинный результат - это термин, используемый для характеристики действительного уровня скрытых, ненаблюдаемых качеств или свойств. Скрытое от внешнего наблюдения свойство не может быть измерено только с помощью одного какого-нибудь теста. В практике для этой цели используется батарея с конечным числом разных тестов, направленных на измерение одного скрытого свойства, уровень которого требуется определить. Каждый из используемых тестов лишь частично покрывает исследуемое свойство.

⇐ Предыдущая 31 32 33 34 353637 38 39 40 Следующая ⇒

© 2023 :: MyLektsii.ru :: Мои Лекции
Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав.
Копирование текстов разрешено только с указанием индексируемой ссылки на источник.