L4 // Теория измерений

Антон Ангельгардт

Что будет?

  • Измерения в разных областях психологии
  • Шкалы измерений и их свойства
  • Особенности психометрических измерений
  • Валидность и её виды

L4.1 // Измерения и шкалы

Измерение

Измерение — процедура приписывания определенным психологическим объектам определенных чисел на определенной шкале.

  • Технически звучит не сложно.
  • Но часто приходится доказывать, что мы реально что-то померили и сделали это адекватно.

Что можно измерить?

  • рост
  • возраст
  • пол
  • национальность
  • количество детей в семье
  • рейтинг студентов
  • курс / уровень обучения
  • географические координаты (долгота и широта)
  • температура
  • дата
  • IQ
  • нарциссизм / макиавеллизм / психопатия
  • время реакции
  • точность ответов испытуемого в эксперименте
  • и т.д.

Измерения в разных областях психологии

  • Нейронаука и психофизиология
    • \(\Phi \rightarrow \Phi (\sim \Psi)\)
  • Психофизика
    • \(\Psi \rightarrow \Phi\)
  • Поведенческие исследования
    • \(B \rightarrow \Psi\)
  • Психометрика
    • \(\Psi \rightarrow \Psi\)

Две важных мысли

  • В любой области психологической науки нам необходимо с теоретических позиций обосновать связь измеряемых в ходе исследования переменных с изучаемыми психическими феноменами.
  • При любом измерении нам необходимо выбрать адекватный способ числового отражения изучаемых феноменов, чтобы мы могли использовать статистические методы анализа.

Второе определение измерения

Измерение — это процедура приписывания психологическим объектам чисел таким образом, чтобы отношения между числами соответствовали отношениям между психологическими объектами.

Шкалы

Шкала — это набор чисел с ограничениями на допустимые по отношению к ним операции.

  • Номинальная шкала (шкала наименований, nominal scale)
  • Порядковая шкала (ранговая шкала, ordinal scale)
  • Интервальная шкала (шкала разностей, interval scale)
  • Абсолютная шкала (шкала отношений, ratio scale)

Признаки и переменные

  • Количественные переменные
    • непрерывными
    • дискретными
  • Номинальные (категориальные) переменные
  • Ранговые переменные

Виды шкал

От шкалы зависит:

  • какие графики мы сможем нарисовать
  • какие статистики на ней имеют смысл
  • какие статистические модели дадут адекватный результат

Номинальная шкала

  • Наименее мощная шкала
  • Неметрическая — расстояния между делениями не определены
  • Тип данных — категориальные
  • Допустимые операции
    • сравнение на (не)равенство
  • Ноль — отсутствует
  • Допустимые преобразования — любое, сохраняющее взаимно однозначное соответствие

Порядковая шкала

  • Неметрическая — расстояния между делениями не равны между собой
  • Тип данных — категориальные / ранговые
  • Допустимые операции
    • сравнение на (не)равенство
    • сравнение на больше-меньше
  • Ноль — отсутствует
  • Допустимые преобразования — любое монотонное

Интервальная шкала

  • Метрическая — расстояния между делениями одинаковые
  • Тип данных — количественные
  • Допустимые операции
    • сравнение на (не)равенство
    • сравнение на больше-меньше
    • сложение и вычитание
  • Ноль — относительный
  • Допустимые преобразования — любое линейное

Абсолютная шкала

  • Самая мощная шкала
  • Метрическая — расстояния между делениями одинаковые
  • Тип данных — количественные
  • Допустимые операции
    • сравнение на (не)равенство
    • сравнение на больше-меньше
    • сложение и вычитание
    • умножение и деление
  • Ноль — абсолютный
  • Допустимые преобразования — любое преобразование подобия

L4.2 // Психометрические измерения

Проблемы психометрических измерений

  • Измеряются ненаблюдаемые (латентные) конструкты с помощью субъективных шкал
    • не знаем достоверно, существуют ли наши конструкты
  • Последствия
    • В измерениях всегда есть существенная доля ошибки → нужно знать надёжность (точность) измерения
    • Мы не всегда уверены, действительно ли измерили то, что хотим → нужно обосновать валидность измерения
      • Одного вопроса обычно недостаточно, чтобы задать содержание конструкта или добиться нужной точности измерения

Операциональная классификация методик

Операциональная классификация распределяет методики в зависимости от того, насколько результат их процедуры зависит от субъективного опыта респондента и самого диагноста.

  • Приборные психофизиологические методики
  • Аппаратурные поведенческие методики
  • Объективные тесты с выбором ответа (тесты способностей или тесты знаний)
  • Тесты-опросники (прямой субъективный самоотчет)
  • Субъективное шкалирование

———————————————————————————

  • Проективные методики
  • Наблюдение
  • Контент-анализ
  • Психологическая беседа
  • Ролевая игра
  • Обучающий эксперимент

Прямой субъективный самоотчет

  • С. Стивенс: люди могут прямо оценивать интенсивность стимулов, приписывая им числа
  • Психодиагностика в исследованиях предполагает свободное дальнейшее поведение — респонденты сами решают, как им обойтись с результатами тестирования — поэтому искажения предполагаются минимальными.

Психометрика в двух словах


измеряем непонятно что,
непонятно чем
и непонятно как


Конструкт

Конструкт — это прямым образом ненаблюдаемая переменная, характеризующая различия в поведении людей в специфической группе ситуаций.

  • характеристика, навык, способность человека, которую мы хотим оценить или измерить
  • базируется на одной или нескольких теориях
  • не может быть измерен непосредственно, но с помощью различных индикаторов или переменных
  • может быть простым и сложным

Примеры конструктов

  • Простые:
    • Принадлежность к политической партии
    • Стаж
    • Умение умножать
    • Детский эгоцентризм (по Пиаже)
    • Знание букв
  • Сложные:
    • Удовлетворенность работой
    • Математическая грамотность
    • Учебная мотивация
    • Коммуникация
    • Навык достижения цели

Концепт

Концепт — это обобщенная идея, разделяемая многими людьми (сообществом), которая может быть представлена в рамках той или иной теории или подхода.

Психологическое vs Образовательное тестирование

Существуют некоторые различия в том, как смотрят на измеряемые конструкты в образовательном и психологическом тестировании:

  • Психологическое тестирование
    • Измерение какого-либо латентного конструкта
      • определение конструкта, основанное на теориях и / или исследованиях
      • операционализация конструкта
      • области содержания
  • Образовательное тестирование
    • Образовательные результаты (освоение программы, курса, года, и т. д.)
      • соответствует ФГОС
      • соответствует учебному плану / программе
      • отражает цели обучения

Операционализация

  • определение конструкта в терминах операций, необходимых для его измерения (Machery (2007))
  • процесс и документ, описывающий переход от теоретического, абстрактного понятия к наблюдаемому поведению, измеряемому в тесте

Операционализация подразумевает разработку:

  • субконструктов и их взаимосвязей,
  • групп ситуаций, в которых они проявляются,
  • способов сбора информации об их проявлении (Mislevy, Almond, Lukas (2003), Brennan (2006))

Тестовые задания. Области содержания конструкта

  • При разработке пунктов опросника должны быть учтены области содержания конструкта — ситуации и контексты, в которых он может проявляться
    • Чем шире конструкт, тем в большем количестве контекстов он может проявляться и тем больше областей содержания должен охватывать опросник

Структура опросника

  • В структуру психометрического инструмента может входить несколько субшкал или несколько субтестов
    • Если опросник состоит из нескольких субшкал, то его можно использоваться только как единый психометрический инструмент — не допускается использование отдельных субшкал опросника при сборе данных.
    • Если опросник состоит из нескольких субтестов, то возможно использование отдельных субтестов при сборе данных.

Виды шкал в психометрических инструментах

  • По характеру отношений
    • неметрические (номинальная и порядковая)
    • метрические (разностей и отношений)
  • По числовому соответствию
    • дискретные
    • непрерывные (континуальные)
  • По наличию и/или смыслу полюсов
    • биполярные
    • униполярные
  • По материалу
    • графические
    • текстовые
    • числовые
The pain of measuring pain - Harvard Health

Шкала Ликерта

Классическая психометрическая шкала — это шкала Ликерта. Она обладает следующими характеристиками:

  • биполярная
  • заданы текстом все альтернативы
  • равные интервалы [визуально]
  • горизонтальная
  • даны целые числа [от 1 до 5]
Пример шкалы Ликерта

Психометрические характеристики шкалы

  • Надежность — это мера свободы результатов от ошибки измерения (standard error of measurement, SEM).
  • Надежность нельзя рассчитать напрямую — можно только аппроксимировать
  • Разными методами — ни один из них не является полностью верным
  • Но нам приходится с этим как-то жить

Методы расчета надежности:

  • Cronbach’s \(\alpha\) — надежность-внутренняя согласованность
  • McDonald’s \(\omega\)
  • Метод расщепленных половин
  • Ретестовая надежность

Психометрические характеристики пунктов

Трудность задания

  • Для дихотомического случая

\[ b_j = \frac{s_{1j} \cdot p_{1j} + s_{2j} \cdot p_{2j}}{N_j} = \frac{0 \cdot p_{1j} + 1 \cdot p_{2j}}{N_j} = \frac{p_{2j}}{N_j} \]

  • Для политомического случая

\[ b_j = \frac{\sum_{k=1}^{K_j}(s_{kj} \cdot p_{kj})}{N_j \cdot s_{Kj}} \]

Психометрические характеристики пунктов

Интерпретация значений трудности

  • Чем выше показатель трудности, тем легче справиться с заданием
  • Слишком трудные — [0.00, 0.05] — и слишком легкие — [0.95, 1.00] — задания плохо дифференцируют выборку
  • Начинать кодировку ответов лучше с 0 — так проще жить и интерпретировать результаты

Психометрические характеристики пунктов

Дискриминативность задания

  • Тест направлен на измерение некоторого конструкта
  • Суммарный тестовый балл отражает выраженность конструкта
  • Чем сильнее коррелирует балл по заданию с баллом по тесту, тем лучше задание различает респондентов
  • Лучше использовать скорректированную меру — корреляцию балла по заданию с суммой баллов по всем другим заданиям

Валидность

Валидность — это соответствие результатов тестирования заявленной цели тестирования, в частности, тому психическому свойству (или свойствам), которое измеряется.

  • В широком смысле — сведения о поведении и психических явлениях, находящихся в причинной зависимости от диагностируемого свойства.
  • Аналогично можно говорить о валидности тестового задания.

Валидность


Главная цель разработки психометрического инструмента — сбор как можно большего количества разных свидетельств валидности.


Сбор разных свидетельств валидности обеспечивает обоснованный вывод о том, что по результатам теста можно выносить соответствующие суждения о тестируемых.


Виды валидности

Концептуальная валидность

  • обоснование тестовой методики с позиций соответствия авторским (теоретическим) представлениям об особенностях диагностируемых свойств
  • мера соответствия содержания заданий теста авторской концепции этих свойств.

Конструктная валидность

  • определяет область теоретической структуры психологических явлений, измеряемых тестом
  • тест, базирующийся на развитой, логически-связной теории, обеспеченной высоко-операционализированными понятиями, обладает конструктной валидностью

Виды конструктной валидности:

  • внутренняя валидность / надежность–внутренняя согласованность
  • дифференциальная валидность
  • конвергентная валидность
  • дискриминантная валидность

Внутренняя валидность

  • подчиненность пунктов (заданий, вопросов) теста основному направлению теста как целого
  • ориентированность пунктов на изучение одних и тех же конструктов
  • анализ осуществляется путем коррелирования ответов на каждое задание с общим результатом теста
  • динамика изучаемого конструкта

Дифференциальная валидность

  • внутренние взаимоотношения между диагностируемыми факторами
  • тесты интересов
    • обычно умеренного коррелируют с показателем общей академической успеваемости
    • но связаны с успеваемостью по отдельным дисциплинам
    • особенно важна как показатель диагностической ценности методик в профотборе

Эмпирическая валидность

  • совокупность характеристик валидности теста, полученных экспериментально-статистическим способом
    • критериальная
      • текущая / диагностическая / конкурентная
      • ретроспективная
      • прогностическая
    • конвергентная
    • дискриминантная
    • концессуальная

Конвергентная валидность

  • степень соответствия баллов двух тестовых методик, направленных на измерение одного и того же или концептуально-родственных конструктов
  • значимая корреляция между тестами

Дискриминантная валидность

  • степень, в которой тест не измеряет тот конструкт, для измерения которого он не предназначен
  • отсутствие значимой корреляции между тестовыми показателями, отражающими концептуально независимые свойства
  • частный случай — отсутствие корреляции с переменными приводящими к фальсификации или мотивационным искажениям результата
    • например, социальная желательность

Критериальная валидность

  • отражает соответствие результатов тестирования определенным значениям критериальной переменной или вероятности критериального события
  • независимые от результатов теста непосредственные меры исследуемого качества
    • уровень достижения в чем-либо
    • степень развития способности
    • выраженность определенного свойства личности
    • показатели социально- или производственно-значимых результатов деятельности

Текущая (конкурентная)

  • критериальное событие происходит сейчас, в момент исследования

Ретроспективная

  • критериальное событие уже произошло

Прогностическая

  • критериальное событие будет потом
  • нужен квазиэксперимент

Концессуальная валидность

  • установлении связи (корреляции) тестовых данных с данными, полученными от внешних экспертов
  • эксперты хорошо знакомы с тестируемыми

Очевидная валидность (face validity)

  • насколько сам тест и его задания кажутся респондентам подходящими для цели тестирования
  • высокая очевидная валидность присуща также кейс-тестам.
  • очень часто не совпадает с научной концепцией валидности
  • высокая очевидная валидность часто является весьма желательной
  • фактор, побуждающий респондента к сотрудничеству, серьезному и ответственному отношению к выполнению заданий и к восприятию результатов оценки

Содержательная валидность

  • степень соответствия содержания заданий теста той реальной деятельности, в которой проявляется измеряемое психическое свойство
    • учебные тесты, тесты профессиональных достижений
  • много разнородных, факторов — личностные особенности, знания, умения и навыки, специальные способности — нужна адекватная модель тестируемой деятельности
    • подбор заданий, охватывающие главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом
  • авторское обоснование пригодности теста в самом содержании тестовых заданий

Факторная валидность

  • подтверждения теоретической структуры конструкта, разработанной в ходе операционализации, эмпирическими данными, собранными в ходе количественной апробации методики
  • проводится с помощью [конфирматорного] факторного анализа

Итоги

  • Выяснили, что такое измерение и как оно устроено в психологии
  • Разобрались со шкалами и их особенностями
  • Обзорно взглянули на психометрические измерения
  • Познакомились с различными видами валидности

L4 // Теория измерений

Антон Ангельгардт