4 L4 // Теория измерений
4.1 Измерения
Здесь мы будем говорить об измерениях в социальных науках. Они имеют определенную спефицику по сравнению, скажем, с физическими измерениями.
Начнем с наиболее общего определения измерения.
Измерение — процедура приписывания определенным психологическим объектам определенных чисел на определенной шкале.
- Технически звучит не сложно.
- Но часто приходится доказывать, что мы реально что-то померили и сделали это адекватно.
Тем не менее, такое общее опреление измерения позволяет нам говорить, что измерить мы может всё, что угодно:
- рост
- возраст
- пол
- национальность
- количество детей в семье
- рейтинг студентов
- курс / уровень обучения
- географические координаты (долгота и широта)
- температура
- дата
- IQ
- нарциссизм / макиавеллизм / психопатия
- время реакции
- точность ответов испытуемого в эксперименте
- и т.д.
4.1.1 Какие существуют измерения в разных областях психологии?
Подходы к измерениям можно поделить по отраслям (областям) психологической науки1:
- Нейронаука и психофизиология
- Регистрируются физиологические (= физические) процессы
- Процессы [как правило] являются реакциями на физическую стимуляцию
- Предполагается, что эти физиологические процессы являются коррелятами некоторых психических процессов
- \(\Phi \rightarrow \Phi (\sim \Psi)\)
- Психофизика
- Измеряются субъективные феномены (реакции, ощущения, пороги)
- Субъективные реакции происходят на физическую стимуляцию
- \(\Psi \rightarrow \Phi\)
- Поведенческие исследования
- Измеряются поведенческие реакции с помощью объективных метрик (времени реакции, точности кликов, последовательности поиска)
- Поведенческие реакции [как правило] обусловлены физической стимуляцией
- Предполагается, что за поведенческими реакциями стоят некоторые психические процессы
- \(B \rightarrow \Psi\)
- Психометрика
- Измеряются субъективные феномены, не связанные напрямую с физиологическим процессами
- Часто (= всегда) изучаются гипотетические конструкты
- Измерение происходит с помощью субъективных методик
- \(\Psi \rightarrow \Psi\)
Из подобного методологического безобразия происходят две важных мысли:
- В любой области психологической науки нам необходимо с теоретических позиций обосновать связь измеряемых в ходе исследования переменных с изучаемыми психическими феноменами.
- При любом измерении нам необходимо выбрать адекватный способ числового отражения изучаемых феноменов, чтобы мы могли использовать статистические методы анализа.
Таким образом, если мы уточним в свете последней важной мысли определение измерения, то оно будет звучать так:
Измерение — это процедура приписывания психологическим объектам чисел таким образом, чтобы отношения между числами соответствовали отношениям между психологическими объектами2.
Действительно, с числами можно делать всё, что угодно, что не запрещено математикой — а не запрещено ею много чего, однако не любые математические операции имеют смысл по отношению к исходными психологическим объектам. Из этих ограничений возникают шкалы.
4.2 Шкалы
Можно найти много технических определений шкалы, одно из которых звучит весьма красиво:
- Шкала — это числовая структура, изоморфная эмпирической структуре.
Но такое определение мало что проясняет относительно содержания шкалы. Для нас удобнее будет менее точное, но более осязаемое понимание:
- Шкала — это набор чисел с органичениями на допустимые по отношению к ним операции.
В таком понимании ещё С. Стивенсом в 1946 году были предложены четыре вида шкал — это классификацией мы пользуемся до сих пор:
- Номинальная шкала (шкала наименований, nominal scale)
- Порядковая шкала (ранговая шкала, ordinal scale)
- Интервальная шкала (шкала разностей, interval scale)
- Абсолютная шкала (шкала отношений, ratio scale)
Шкалы отличаются друг от друга по математическому содержанию используемых на них чисел, допустимым на них математическим (и логическим) операциям и преобразованиям, наличию и характеру нуля, типу шкалы и типу данных.
4.2.1 Признаки и переменные
В ходе исследования мы измеряем различные признаки изучаемых объектов. Попытаемся эти признаки как-то систематизировать. В терминах данных признаки — это переменные, поэтому далее мы будем чаще употребляться именно этот термин — переменная — имея в виду то, что мы намерили, изучая интересующий нас признак изучаемого объекта. Во многом признак и переменная — это синонимы, только первый термин больше из теории измерений, а второй из статистики и анализа данных. Измерение же от отдельного человека / объекта выборки называется наблюдение. В общем-то с этим мы уже сталкивались, когда обсуждали данные.
Итак, типы переменных:
- Количественные переменные — те, которые принимают числовые значения. Они могут быть:
- непрерывными — принимают любые значения (рост, возраст, время реакции и др.)
- дискретными — могут принимать только определенные значения (количество детей в семье, число отчисленных студентов, количество пачек гречи, которое человек скупил на карантине и др.)
Число, приписываемое количественному признаку (переменной) ведёт себя как привычное нам математическое число в том смысле, что выражает некоторое количество — сантиметров, лет, секунд, детей, студентов, пачек гречи…
- Номинальные (категориальные) переменные — используются для разделения наших наблюдений на группы (пол, национальность, курс обучения, используемая операционная ситема компьютера и др.)
Записаны эти переменные обычно текстом (скажем, пол — male
и female
или операционная система — Win
, MacOS
, Linux
). Однако, например, курс обучения можно записать по-разному: текстом — freshman
, sophomore
, junior
, senior
— и числом — 1
, 2
, 3
, 4
. Однако в данном случае цифры не несут никакого математического смысла — это просто лейблы, с помощью которых мы различаем группы наблюдений. Ведь и пол мы можем записать с помощью чисел — пусть male = 0
, female = 1
. Ведь не будем же мы складывать-вычитать девушек и парней?
Внимательный читатель мог заметить, что курс обучения это не совсем категориальная переменная, ведь «второкурсник» в каком-то смысле «больше», чем «первокурсник». Но мы не можем сказать «на сколько» или «во сколько» больше! Что же делать?
- Нельзя сказать, что «второкурсник» выражает большую выраженность признака «год обучения», чем «первокурсник».
- Вместе с тем «второкурсник» дольше учился и освоил больше дисциплин, чем «первокурсник». При этом «третькурсник» учился дольше «второкурсника». То есть есть порядок категорий.
- Такая переменная называется ранговой.
Другой пример рагновой переменной — это студенческий рейтинг. Что делает рейтинг? Упорядочивает студентов. Можно ли сказать, что четвертый в рейтинге студент в два раза менее успешен, чем второй? Нет — тот же GPA может отличаться на десятые или сотые доли.
Итого, переменные:
- количественные
- непрерывные
- дискретные
- ранговые
- номинальные
4.2.1.1 Виды шкал
От того, в какой шкале измерена переменная, которую мы исследуем, будет зависеть:
- какие графики мы сможем нарисовать
- какие статистики на ней имеют смысл
- какие статистические модели дадут адекватный результат
В общем, почти весь анализ определяется тем, с какой шкалой мы работаем, поэтому разберем каждую шкалу подробнее.
4.2.1.2 Номинальная шкала
- Наименее мощная шкала
- Неметрическая — расстояния между делениями не определены
- Тип данных — категориальные
- Допустимые операции
- сравнение на (не)равенство
- Ноль — отсутствует
- Допустимые преобразования — любое, сохраняющее взаимно однозначное соответствие
В этой шкале, что весьма ожидаемо, измеряются номинальные переменные. Даже если на этой шкале используются числа для задания категорий, они не несут никакого математического смысла, что следует из допустимых операций данной шкалы.
Стоит отдельно оговорить, что значит преобразование, сохраняющее взаимно однозначное соответствие. Пусть у нас есть самая типичная социально-демографическая номинальная переменная исследований — пол. И пусть он у нас закодирован как male
и female
. Мы можем преобразовать эту переменную как угодно. Единственное условие, которое у нас есть — это возможность опознать мужчин и женщин по присвоенным лейблам. Так, мы можем использовать числа 1
и 0
или 618
и 1040
, задать текстовые лейблы m
и f
или м
и ж
, или даже выдумать что-то ещё типа gfbc
и rtsu
. Последний вариант технически совершенно не удобен, но устройства шкалы его вполне допускает, так как сохранено взаимно-однозначное соответствие между реальным объектами и используемыми лейблами.
4.2.1.3 Порядковая шкала
- Неметрическая — расстояния между делениями не равны между собой
- Тип данных — категориальные / ранговые
- Допустимые операции
- сравнение на (не)равенство
- сравнение на больше-меньше
- Ноль — отсутствует
- Допустимые преобразования — любое монотонное
На этой шкале появляется порядок значений, а значит и операция сравнения на больше-меньше. Нет делений — вернее, даже если есть, то они разного размера — поэтому складывать и вычитать ещё нельзя.
Преобразование на этой шкале должно сохранять порядок её значений, так как этой ключевая характеристика данной шкалы. Так, в принципе мы можем извлечь квадратный корень из переменной уровень обучения (бакалавриат, специалитет, магистратура, аспирантура), которая закодирована как 1, 2, 3, 4
— получится 1, 1.4, 1.7, 2
. Это нам усложнит жизнь, несомненно, однако шкалу не сломает — порядок элементов сохранен.
Почему-то номинальную и ранговую шкалы в литературе часто называют «качественными». Видимо, потому что качественные данные обычно рассматриваются как оппозиция количественным.
Это в некоторой мере справедливо, поскольку есть два типа исследований — качественные и количественные. Они различаются методологией и используемыми методиками и, как следствие, собираемыми данными.
В рамках качественных исследований чаще всего собираются тексты, поэтому во многом качественные данные по факту обычно текстовые. Количественные данные — это, как правило, таблицы с цифрами из любой из четырёх шкал. Безусловно, анализ качественных и количественных данных тажке существенно различается.
Итого, кажется, называть «качественными» номинальную и ранговые шкалы — странно, потому что качественные данные — это неструктурированный текст. Лучше их именовать категориальными. Правда, например, рейтинг студентов (ранговая шкала) тоже не совсем категориальные данные… ай, ладно — будут ранговые!
4.2.1.4 Интервальная шкала
- Метрическая — расстояния между делениями одинаковые
- Тип данных — количественные
- Допустимые операции
- сравнение на (не)равенство
- сравнение на больше-меньше
- сложение и вычитание
- Ноль — относительный
- Допустимые преобразования — любое линейное
На этой шкале появляется возможность складывать и вычитать, так как есть точка отсчета — ноль — и деления становятся одинакового размера. Правда выбран этот ноль случайно, поэтому он не отражает полное отсутствие признака у изучаемого объекта. По этой причине операции умножения и деления на этой шкале невозможны.
Количество возможных преобразований также сокращается — теперь при преобразовании шкалы нам важно сохранить равенство интервалов. Этому требованию соответствуют линейные преобразования, так как они выполняют условия линейности:
\[ f(x+y) = f(x) + f(y) \] \[ f(\alpha x) = \alpha f(x) \]
Так, квадратный корень из значений шкалы извлечь уже не получится, потому что равенство интервалов нарушится.
4.2.1.5 Абсолютная шкала
- Самая мощная шкала
- Метрическая — расстояния между делениями одинаковые
- Тип данных — количественные
- Допустимые операции
- сравнение на (не)равенство
- сравнение на больше-меньше
- сложение и вычитание
- умножение и деление
- Ноль — абсолютный
- Допустимые преобразования — любое преобразование подобия
Наличие абсолютного нуля на данной шкале позволяет производить с её значениями все математические операции. Однако это же существенно ограничивает набор допустимых преобразований — теперь нам важно сохранять этот самый абсолютный ноль, поэтому невозможно прибавить или вычесть какие-либо число из всех значений шкалы (сдвинуть её вправо или влево, вверх или вниз). Получается, можно только умножить или разделить шкалу на некоторое значение, что и является преобразованием подобия.
4.3 Психометрические измерения
Выше мы уже выяснили, что психометрические измерения особо выделяются среди всех других измерений в психологических науках. Еще раз обозначим, почему:
- Измеряются ненаблюдаемые (латентные) конструкты с помощью субъективных шкал
- не знаем достоверно, существуют ли наши конструкты
- Последствия
- В измерениях всегда есть существенная доля ошибки → нужно знать надёжность (точность) измерения
- Мы не всегда уверены, действительно ли измерили то, что хотим → нужно обосновать валидность измерения
- Одного вопроса обычно недостаточно, чтобы задать содержание конструкта или добиться нужной точности измерения
4.3.1 Операциональная классификация методик
Встает вопрос, а как мы вообще можем измерять в психометрике что-либо?
Операциональная классификация распределяет методики в зависимости от того, насколько результат их процедуры зависит от субъективного опыта респондента и самого диагноста.
- Выше черты — прямые методы
- Ответы респондента используются для интерпретации напрямую и обычно количественно
- Ниже черты — непрямые методы
- Ответы респондента интерпретируются не напрямую и во многом методами качественного анализа
Получается следующая картина:
- Приборные психофизиологические методики
- Аппаратурные поведенческие методики
- Объективные тесты с выбором ответа (тесты способностей или тесты знаний)
- Тесты-опросники (прямой субъективный самоотчет)
- Субъективное шкалирование
———————————————————————————
- Проективные методики
- Наблюдение
- Контент-анализ
- Психологическая беседа
- Ролевая игра
- Обучающий эксперимент
Здесь, конечно, методики взяты шире, чем обычно используются в психометрике. Чаще всего, сталкиваясь с психометрикой, мы имеет дело с объективными тестами3 и тестами-опросниками.
Отдельный вопрос касается тестов-опросников — почему прямой субъективный самоотчет вообще работает? Здесь есть две ключевых идеи:
- Вновь С. Стивенс нам сказал, что люди могут прямо оценивать интенсивность стимулов, приписывая им числа. Тем самым, он легитимизировал прямой субъективный самоотчет.
- Когда мы говорим об исследовательской работе, мы проводим психометрические измерения и диагностику в ситуации, которая предполагает свободное дальнейшее поведение4, то есть респонденты сами решают, как им обойтись с результатами тестирования — поэтому искажения предполагаются минимальными.
4.3.2 Психометрика в двух словах
Так или иначе, мы оказывается в потрясающей ситуации:
С одной стороны, кажется, что ситуация довольно безвыходная, однако психометрики придумали множество инструментов, чтобы совладать с подобным стечением объстоятельств. С другой стороны, если вы не занимаетесь психометрикой непосредственно и оказались к ней критически близко в силу необходимости использования психометрических инструментов в собственном исследовании, стоит понимать, что психометрика — это обычная научная область, со своими особенностями, проблемами и кризисами, которая она пытается решать, как и любая другая. И это окей.
4.3.3 Концепт. Конструкт. Операционализация
Чтобы начать конструировать психометрический инструмент, прежде всего необходимо определить, что мы собираемся измерять, поэтому первым шагом является определение измеряемого конструкта.
Конструкт — это прямым образом ненаблюдаемая переменная, характеризующая различия в поведении людей в специфической группе ситуаций (Messick (1993), Barrett (2005)).
- характеристика, навык, способность человека, которую мы хотим оценить или измерить
- базируется на одной или нескольких теориях
- не может быть измерен непосредственно, но с помощью различных индикаторов или переменных
- может быть простым и сложным
Например, простыми конструктами будут:
- Принадлежность к политической партии
- Стаж
- Умение умножать
- Детский эгоцентризм (по Пиаже)
- Знание букв
Сложными же могут выступить:
- Удовлетворенность работой
- Математическая грамотность
- Учебная мотивация
- Коммуникация
- Навык достижения цели
За конструктом может стоять ещё более обобщенная идея, задающая теоретическу рамку, в которой определяется конструкт — концепт.
Концепт — это обобщенная идея, разделяемая многими людьми (сообществом), которая может быть представлена в рамках той или иной теории или подхода.
Существуют некоторые различия в том, как смотрят на измеряемые конструкты в образовательном и психологическом тестировании:
- Психологическое тестирование
- Измерение какого-либо латентного конструкта
- определение конструкта, основанное на теориях и / или исследованиях
- операционализация конструкта
- области содержания
- Измерение какого-либо латентного конструкта
- Образовательное тестирование
- Образовательные результаты (освоение программы, курса, года, и т. д.)
- соответствует ФГОС
- соответствует учебному плану / программе
- отражает цели обучения
- Образовательные результаты (освоение программы, курса, года, и т. д.)
После определения конструкта наступет этап операционализации:
- определение конструкта в терминах операций, необходимых для его измерения (Machery (2007))
- процесс и документ, описывающий переход от теоретического, абстрактного понятия к наблюдаемому поведению, измеряемому в тесте
Операционализация подразумевает разработку:
- субконструктов и их взаимосвязей,
- групп ситуаций, в которых они проявляются,
- способов сбора информации об их проявлении (Mislevy, Almond, Lukas (2003), Brennan (2006))
4.3.4 Тестовые задания. Области содержания конструкта. Структура опросника
Когда операционализация разработана, наступает этап разработка тестовых заданий. Мы не будем останавливаться здесь на принципах их разработки — это отдельная большая область с массой нюансов и деталей. Остановимся на двух важных вещах.
- При разработке пунктов опросника должны быть учтены области содержания конструкта — ситуации и контексты, в которых он может проявляться
- Чем шире конструкт, тем в большем количестве контекстов он может проявляться и тем больше областей содержания должен охватывать опросник
- В структуру психометрического инструмента может входит несколько субшкал или несколько субтестов
- Если опросник состоит из нескольких субшкал, то его можно использоваться только как единый психометрический инструмент — не допускается использование отдельных субшкал опросника при сборе данных.
- Если опросник состоит из нескольких субтестов, то возможно использование отдельных субтестов при сборе данных.
4.3.5 Виды шкал в психометрических инструментах
В классификации шкал психометрических инструментов частично дублируется классификация измерительных шкал, однако добавляются и новые основания.
- По характеру отношений
- неметрические (номинальная и порядковая)
- метрические (разностей и отношений)
- По числовому соответствию
- дискретные
- непрерывные (континуальные)
- По наличию и/или смыслу полюсов
- биполярные
- униполярные
- По материалу
- графические
- текстовые
- числовые
- …
Вид используемой шкалы зависит от целевой аудитории теста (дети, взрослые, клиническая выборка и др.), диагностической ситуации, особенностей измеряемого конструкта, теоретических основания и т.д.
Классическая психометрическая шкала — это шкала Ликерта. Она обладает следующими характеристиками:
- биполярная
- заданы текстом все альтернативы
- равные интервалы [визуально]
- горизонтальная
- даны целые числа [от 1 до 5]
4.3.6 Психометрические характеристики шкалы
- Надежность — это мера свободы результатов от ошибки измерения (standard error of measurement, SEM).
- Надежность нельзя рассчитать напрямую — можно только аппроксимировать
- Разными методами — ни один из них не является полностью верным
- Но нам приходится с этим как-то жить
Методы расчета надежности:
- Cronbach’s \(\alpha\) — надежность-внутренняя согласованность
- Метод расщепленных половин
- Ретестовая надежность
4.3.7 Психометрические характеристики пунктов
4.3.7.1 Трудность задания
- Для дихотомического случая
\[ b_j = \frac{s_{1j} \cdot p_{1j} + s_{2j} \cdot p_{2j}}{N_j} = \frac{0 \cdot p_{1j} + 1 \cdot p_{2j}}{N_j} = \frac{p_{2j}}{N_j} \]
- Для политомического случая
\[ b_j = \frac{\sum_{k=1}^{K_j}(s_{kj} \cdot p_{kj})}{N_j \cdot s_{Kj}} \]
Интерпретация значений трудности:
- Чем выше показатель трудности, тем легче справиться с заданием
- Слишком трудные — [0.00, 0.05] — и слишком легкие — [0.95, 1.00] — задания плохо дифференцируют выборку
- Начинать кодировку ответов лучше с 0 — так проще жить и интерпретировать результаты
4.3.7.2 Дискриминативность задания
- Тест направлен на измерение некоторого конструкта
- Суммарный тестовый балл отражает выраженность конструкта
- Чем сильнее коррелирует балл по заданию с баллом по тесту, тем лучше задание различает респондентов
- Лучше использовать скорректированную меру — корреляцию балла по заданию с суммой баллов по всем другим заданиям
4.3.8 Валидность
Валидность — это соответствие результатов тестирования заявленной цели тестирования, в частности, тому психическому свойству (или свойствам), которое измеряется.
- В широком смысле — сведения о поведении и психических явлениях, находящихся в причинной зависимости от диагностируемого свойства.
- Аналогично можно говорить о валидности тестового задания.
4.3.8.1 Виды валидности
4.3.8.1.1 Концептуальная валидность
- обоснование тестовой методики с позиций соответствия авторским (теоретическим) представлениям об особенностях диагностируемых свойств
- мера соответствия содержания заданий теста авторской концепции этих свойств.
4.3.8.1.2 Конструктная валидность
- определяет область теоретической структуры психологических явлений, измеряемых тестом
- тест, базирующийся на развитой, логически-связной теории, обеспеченной высоко-операционализированными понятиями, обладает конструктной валидностью
Виды конструктной валидности:
- внутренняя валидность / надежность–внутренняя согласованность
- дифференциальная валидность
- конвергентная валидность
- дискриминантная валидность
4.3.8.1.3 Внутренняя валидность
- подчиненность пунктов (заданий, вопросов) теста основному направлению теста как целого
- ориентированность пунктов на изучение одних и тех же конструктов
- анализ осуществляется путем коррелирования ответов на каждое задание с общим результатом теста
- динамика изучаемого конструкта
4.3.8.1.4 Дифференциальная валидность
- внутренние взаимоотношения между диагностируемыми факторами
- тесты интересов
- обычно умеренного коррелируют с показателем общей академической успеваемости
- но связаны с успеваемостью по отдельным дисциплинам
- особенно важна как показатель диагностической ценности методик в профотборе
4.3.8.1.5 Эмпирическая валидность
- совокупность характеристик валидности теста, полученных экспериментально-статистическим способом
- критериальная
- текущая / диагностическая / конкурентная
- ретроспективная
- прогностическая
- конвергентная
- дискриминантная
- концессуальная
- критериальная
4.3.8.1.6 Конвергентная валидность
- степень соответствия баллов двух тестовых методик, направленных на измерение одного и того же или концептуально-родственных конструктов
- значимая корреляция между тестами
4.3.8.1.7 Дискриминантная валидность
- степень, в которой тест не измеряет тот конструкт, для измерения которого он не предназначен
- отсутствие значимой корреляции между тестовыми показателями, отражающими концептуально независимые свойства
- частный случай — отсутствие корреляции с переменными приводящими к фальсификации или мотивационным искажениям результата
- например, социальная желательность
4.3.8.1.8 Критериальная валидность
- отражает соответствие результатов тестирования определенным значениям критериальной переменной или вероятности критериального события
- независимые от результатов теста непосредственные меры исследуемого качества
- уровень достижения в чем-либо
- степень развития способности
- выраженность определенного свойства личности
- показатели социально- или производственно-значимых результатов деятельности
Текущая (конкурентная)
- критериальное событие происходит сейчас, в момент исследования
Ретроспективная
- критериальное событие уже произошло
Прогностическая
- критериальное событие будет потом
- нужен квазиэксперимент
4.3.8.1.9 Концессуальная валидность
- установлении связи (корреляции) тестовых данных с данными, полученными от внешних экспертов
- эксперты хорошо знакомы с тестируемыми
4.3.8.1.10 Очевидная валидность (face validity)
- насколько сам тест и его задания кажутся респондентам подходящими для цели тестирования
- высокая очевидная валидность присуща также кейс-тестам.
- очень часто не совпадает с научной концепцией валидности
- высокая очевидная валидность часто является весьма желательной
- фактор, побуждающий респондента к сотрудничеству, серьезному и ответственному отношению к выполнению заданий и к восприятию результатов оценки
4.3.8.1.11 Содержательная валидность
- степень соответствия содержания заданий теста той реальной деятельности, в которой проявляется измеряемое психическое свойство
- учебные тесты, тесты профессиональных достижений
- много разнородных, факторов — личностные особенности, знания, умения и навыки, специальные способности — нужна адекватная модель тестируемой деятельности
- подбор заданий, охватывающие главные аспекты изучаемого феномена в правильной пропорции к реальной деятельности в целом
- авторское обоснование пригодности теста в самом содержании тестовых заданий
4.3.8.1.12 Факторная валидность
- подтверждения теоретической структуры конструкта, разработанной в ходе операционализации, эмпирическими данными, собранными в ходе количественной апробации методики
- проводится с помощью [конфирматорного] факторного анализа