P11 // Дисперсионный анализ. Ковариационный анализ

Основной датасет

Сегодня мы вновь обратимся к данным share — это тот самый поведенческий эксперимент, с которым мы работали на четвертой практике и в пятой домашке.

В исследовании изучался зрительный поиск иконок различных платформ смартфонов. Испытуемым надо было искать иконки поделиться (share) iOS и Android среди дисктракторов — других иконок, которые для обеих платформ отрисованы одинаково. Целевой стимул (внутригрупповая переменная) мог быть один — два условия: иконка iOS (Outgoing Tray, tray) и иконка Android (Three Dots, dots) — или их могло быть два — и тот, и другой. Дополнительно варьировалось количество стимулов в пробе (внутригрупповая переменная) — 8, 12, 16. Фиксировалось время поиска целевого стимула (время реакции) — от начала пробы до клика испытуемого — а также координаты клика для вычисления точности поиска. Дополнительно были записаны данные об используемой платформе смартфона (межгрупповая переменная) — iOS или Android.

Переменные в датасете:

id — идентификатор испытуемого
trialtype — тип пробы (dots / tray / both)
setsize — количество стимулов в пробе (8 / 12 / 16)
platform — платформа, которой пользуется испытуемый (ios / android)
time1 — время первого клика, с
time2 — время второго клика, с
correct1 — является ли первый клик верным
correct2 — является ли второй клик верным

Мы будем изучать время реакции на первом клике, так как это наиболее соответствует гипотезам дисперсионного анализа.

Пакеты

Сегодня нам понадобятся пакеты car, ez и psychReport. Проверьте, какие из них установлены на вашем компьютере, если какие-либо отсутствуют, установите их.

Можно совместить проверку и установку c помощью следующего кода:

pkgs <- c("car", "ez", "psychReport")
install.packages(pkgs[!(pkgs %in% installed.packages())])

Основные задания

#1

Загрузите данные в объект share.
Вспомните их структуру.

Мы не будем анализировать пробы с двумя целевыми стимулами, а также стоит исключить из рассмотрения пробы, в которых первый клик был некорректен.

Отберите из данных корректные пробы с одним целевым стимулом. Вместе с этим скорректируйте тип данных переменной setsize — сделайте её фактором, чтобы в моделях она рассматривалась как категориальная переменная. Перезапишите объект share.

Описание формата инпута.

#2

Данные хоть и предобработаны, однако представлены в неаггрегированным виде: одна строка соответствует одной пробе в отдельном сочетании условий. Использовать такие данные в дисперсионном анализе некорректно, так как это будет приводить к завышению оценок эффектов факторов.

Агрегируйте (усредните) данные по времени реакции (time1) каждого респондента с учетом всех (квази)экспериментальных условий, то есть всех (квази)независимых переменных, включенных в исследование. Аггрегированную переменную назовите rt (reaction time). Сохраните результат агрегации в объект share_agg.

Описание формата инпута.

#3

Изучим параметризацию индикаторов. Будем рассматривать влияние платформы (platform) на время реакции (rt).

Постройте линейную модель зависимости времени реакции от типа платформы в параметризации индикаторов.
Сравните результаты моделирования со средними значениями целевой переменной по уровням предиктора.

Описание формата инпута.

#4

Изучим параметризацию эффектов. Будем также рассматривать влияние платформы (platform) на время реакции (rt).

Постройте линейную модель зависимости времени реакции от типа платформы в параметризации эффектов.
Сравните результаты моделирования со средними значениями целевой переменной по уровням предиктора.

Описание формата инпута.

#5

Проведите однофакторный анализ времени реакции по типу платформы.
Проинтерпретируйте результаты.

Описание формата инпута.

#6

В лекции говорилось, что модель дисперсионного анализа это то же самое, что и модель линейной регрессии.

Сравните результаты дисперсионного анализа с результатами регрессионного анализа в параметризации индикаторов и параметризации эффектов.

Мы попали в ситуацию, когда у нашего предиктора/фактора только два уровня. В лекции по этому поводу говорилось, что дисперсионный анализ и t-тест дадут нам одинаковые результаты.

Выполните двухвыборочный t-тест на имеющихся данных и сравните его результаты с результатами дисперсионного анализа.

Описание формата инпута.

#7

Если мы имеем дело с идентичными моделями, то должен, кажется, существовать способ превращать одну в другую.

Превратите атпуты линейных моделей (в параметризации индикаторов и эффектов) в аутпуты дисперсионного анализа.

Описание формата инпута.

#8

Так как у нас две группы, то попарные сравнения бессмысленны — по крайне мере, так было заявлено в лекции. Давайте это проверим.

t-тест мы уже проводили. Проверите попарные сравнения с помощью теста Тьюки, который считается специфичным для ANOVA способом попарных сравнений.

Описание формата инпута.

#9

Визуализируйте результаты для однофакторного дисперсионного анализа.

Описание формата инпута.

#10

То, что мы посмотрели различия времени реакции по используемой платформе, конечно, хорошо, но дизайн исследования одной платформате вовсе не ограничивался. Банально, мы не учли крайне важную переменную setsize, которая всегда фигурирует в экспериментах на зрительных поиск и существенно сказывается на времени реакции. Давайте посмотрим на нее.

Проведите дисперсионный анализ времени реакции по переменной setsize.
Проинтерпретируйте результаты.

Описание формата инпута.

#11

При анализе влияния сетсайза на время реакции мы получили статистически значимый результат — в общем-то ничего удивительного, странно было бы, если бы мы его не получили. Так как сетсайза у нас было три (8, 12, 16), необходимо проводить попарные сравнения (post hoc тесты), чтобы выяснить, между какими сетсайзами были различия.

Выполните попарные сравнения сетсайзов.

Описание формата инпута.

#12

Визуализируйте результаты анализа влияния сетсайза на время реакции.

Описание формата инпута.

#13

Окей, на сейсайз мы посмотрели, однако всё ещё дизайн исследования включал в себя три (квази)неависимые переменные сразу — trialtype, setsize и platform. Давайте уже сделаем полную модель и выясним, что там все-таки с различиями.

Проведите смешанный дисперсионный анализ. В его модель должны входить в качестве within-subject эффектов переменные trialtype и setsize, а в качестве between-subject эффекта переменная platform. Зависимая переменная остается та же — rt.
Проинтерпретируйте полученные результаты. Обратите внимание на размер эффекта.

Описание формата инпута.

#14

Проведите необходимые попарные сравнения для последней построенной модели.

Описание формата инпута.

#15

Визуализируйте результаты смешанного дисперсионного анализа.

Описание формата инпута.

#16

В самом начале мы агрегировали данные, чтобы получить корректные результаты ANOVA. На самом деле, функция ezANOVA() достаточно умная, и даже если мы её передадим неагрегированные данные, она их всё равно усреднит, и мы получим тот же результат, что и на агрегированных данных.

Однако так работают не все функции. Постройте модель из задания 5 на неагрегированных данных и сравните результаты с тем, что получалось на агрегированных данных.

Описание формата инпута.

#17

Возьмем еще одни данные — на этот раз о курящих детях и подростках.

Файл содержит данные об объёме форсированного выдоха (ОФВ) (forced expiratory volume, FEV)¹ (FEV) у курящих и некурящих детей (Smoker: Non, Current) в возрасте (Age) от 3 до 19 лет и информацию о поле (Sex), росте (Height) и ID пациента (ID).

Загрузите данные. Проверье их структуру.
Постройте линейные модели, опизывающие связь ОФВ (FEV) с полом (Sex) и статусом курения (Smoker) в параметризации индикаторов и параметизации эффектов. Модели должны включать взаимодействие предикторов.
Какой тип сумм квадратов корректно использоваться в данном случае для тестирования гипотез о значимости факторов?
Сравните результаты тестирования гипотез о значимости факторов в случае II и III типов сумм квадратов для параметризации индикаторов и параметризации эффектов.

Описание формата инпута.

#18

Визуализируйте зависимость ОФВ (FEV) от статуса курения (Smoker).
Изучите график. Есть ли на нем что-то странное?
Дополните график одно важной переменной, которую необходимо учесть в анализе для получения корректных результатов.

Описание формата инпута.

#19

Постройте модель, соотвутствующую получившейся в предыдущем задании визуализации.
Проверьте, можно ли упростить эту модель. с. Если это возможно, упростите и проинтерпретируйте результаты.

Описание формата инпута.

#20

Займемся экспортом результатов.

Экспортируйте результаты дисперсионного анализа из задания 5.
Экспортируйте результаты дисперсионного анализа из задания 13.

Описание формата инпута.

Дополнительные задания

Новый датасет

Пришло время уделить внимание контрастам!

Для этого возьмем лингвистические данные. Если быть более точным, то это фонетические данные о гласных русского языка.

Нас будут интересовать следующие переменные:

duration — длительность гласного
reduction — степень редукции (no — нет редукции, first — первая ступень редукции, second — вторая ступень редукции)
position — позиция гласного (S — ударный гласный, I — абсолютное начало слова, R — предударный слог, T — заударный слог, F — абсолютный конце слова, O — остальные слоги).

Минимальная теория, которую нужно знать, чтобы понимать происходящее в данных:

в русском языке есть редукция гласных
- если на гласный падает ударение, то он не редуцируется
- если он стоит в абсолютном начале слова или в предударном слоге, то наступает первая ступень редукции
- если он стоит в любом другом месте, то наступает вторая ступень редукции
редукция гласного обозначает уменьшение его длительности²
- нередуцированные гласные наиболее длительные
- гласные в первой ступени редукции короче нередуцированных
- гласные во второй ступени редукции короче гласных в первой ступени редукции

#1

Загрузите данные.
Посмотрите их структуру.
Приведите переменные reduction и position к факторам — это необходимо для задания контрастов.

Описание формата инпута.

#2

Визуализируйте зависимость длительности гласного (duration) от степени редукции (reduction).
Если ли что-то странное на графике?

Описание формата инпута.

#3

Визуализируйте зависимость длительности гласного (duration) от степени редукции (reduction) и позиции в слове (position).
Почему наблюдалась такая ситуация на предыдущем графике?

Описание формата инпута.

#4

Нас интересует следующей вопрос: отличается ли длительность нередуцированных гласных от длительности всех остальных (редуцированных)?

Задайте соответствующие контрасты для переменной reduction.

Описание формата инпута.

#5

Протестируйте гипотезу о различии длительности редуцированных и нередуцированных гласных с помощью заданных ранее контрастов.

Описание формата инпута.

#6

Теперь нас заинтересовал следующей вопрос: отличается ли длительность нередуцированных гласных от длительности гласных первой супени редукции?

Добавьте соответствующие контрасты для переменной reduction.

Описание формата инпута.

#7

Протестируйте гипотезу о различии длительности нередуцированных гласных и гласных первой ступени редукции с помощью заданных выше контрастов.

Описание формата инпута.

#8

В группе гласных второй ступени редукции выделяются гласные абсолютного конца слова — по графику они оказываются более длительными, чем другие гласные второй ступени редукции.

Вопрос: отличается ли длительной гласных в абсолютном конце слова (F) от длительности других гласных второй ступени редукции (T + O)?

Задайте соответствующие контрасты для переменной position.

Описание формата инпута.

#9

Протестируйте гипотезу об отличии длительности гласных абсолютного конца слова от длительности других гласных второй ступени редукции с помощью заданных выше контрастов.

Описание формата инпута.

#10

Ну, и последний вопрос к конрастам: отличается ли длительность ударных гласных (S) от длительности предударных и заударных гласных (R + T)?

Задайте соответствующие контрасты для переменной position.
Протестируйте гипотезу об отличии длительности ударных гласных от длительности предударных и заударных с помощью заданных контрастов.

Описание формата инпута.

Объём воздуха, выдыхаемого за первую секунду манёвра форсированного выдоха. Используется для расчёта индекса наличия/отсутствия ухудшения проходимости дыхательных путей.↩︎
А также изменение спектрального состава, но здесь мы это рассматривать не будем.↩︎