P14 // Смешанные линейные модели

Основные задания

Для работы нам понадобятся пакеты lme4, lmerTest и performance. Код для их установки ниже.

pkgs <- c("lme4", "lmerTest", "performance")
install.packages(pkgs[!pkgs %in% installed.packages()])

#1

Сегодня мы возьмем уже хорошо знакомые нам данные share про зрительный поиск иконок share iOS и Android, и попробуем их проанализировать с помощью смешанных моделей.

  • Загрузите данные, вспомните их структуру.
  • Приведите переменные trialtype, id и platform к факторному типу. Время time1 сейчас записано в секундах — переведите его в миллисекунды.
  • Отберите те пробы, которые содержать только один целевой стимул.

#2

  1. Постройте обобщенную линейную модель, в которой целевой переменной будет time1, а количественным предиктором setsize. Для моделирования целевой переменной используйте гамма-распределение.
  2. Визуализируйте реальные и модельные значения. Оцените результаты моделирования.

#3

  1. Постройте обобщенную линейную модель, в которой целевой переменной будет time1, количественным предиктором — setsize, а категориальным — id. Для моделирования целевой переменной используйте гамма-распределение.
  2. Визуализируйте реальные и модельные значения. Оцените результаты моделирования.

#4

Визуализируйте средние значения времени реакции (time1) для каждого респондента в зависимости от setsize. Оцените график. Можно ли использовать количество стимулов в качестве количественного предиктора в линейной модели?

#5

Постройте две смешанные линейные модели. В обеих целевой переменной задайте time1, а фиксированным эффектом — setsize.

  1. В первую модель включите только случайный интерсепт.
  2. Во вторую включите случайный интерспепт и случайный угловой коэффициент для переменной setsize.

#6

Сравните две построенные модели: протестируйте гипотезу о структуре случайных эффектов.

Обратите внимание на способ подбора коэффициентов модели.

Решите, с какой структурой случайных эффектов далее будете работать.

#7

  1. Постройте смешанную линейную модель, в которой целевая переменная и фиксированные эффекты будут такими же, как в предыдущих, а случайная часть модели будет соответствовать выбранной в предыдущем задании. Подберите коэффициента таким способом, чтобы можно было далее тестировать гипотезы об их значениях.
  2. Рассчитайте коэффициент внутриклассовой корреляции для построенной модели.

#8

Проведите диагностику модели.

  1. Подготовьте данные для анализа остатков модели.
  2. Визуализируйте зависимость остатков от предсказанных моделью значений. с. Визуализируйте зависимость остатков от фиксированных факторов.
  3. Визуализируйте зависимость остатков от случайных факторов.

Сделайте выводы по результатам графической диагностики.

#9

  1. В эксперименте помимо сетсайза были и другие переменные, в частности — trialtype и platform. Включите их, а также все возможные взаимодействия в модель.
  2. Проведите графическую диагностику остатков модели. Сделайте выводы по результатам диагностики.

#10

Проверьте гипотезу о статистической значимости модели в целом.

#11

Выведите саммари модели (summary()). Изучите результаты. Можно ли доверять результатам представленных в нём статистических тестов?

#12

Проверьте гипотезы о значимости коэффициентов модели и при необходимости упростите её.

#13

Сравните упрощенную и исходную модели друг с другом с помощью информационных критериев. Какая из них лучше описывает данные?

#14

Рассчитайте псевдо-\(R^2\) для модели, которая лучше описывает данные.

#15

Выведите саммари модели, которая лучше описывает данные, и проинтерпретируйте результаты.

#16

  1. Постройте обобщенную линейную модель, структура [фиксированных] предикторов которой совпадает с фиксированной частью упрощенной модели. Для моделирования целевой переменной используйте гамма-распределение.
  2. Получите предсказания для GLM и [упрощенной] GLMM.
  3. Рассчитайте метрики предсказательной силы двух моделей (возьмите RMSE и MAPE) и сравните их. Какая модель лучше предсказывает целевую переменную?

#17

Создайте в датасете новую переменную is_correct, которая будет равна 1, если клик в пробе был верный, и 0, если клик в пробе был ошибочный.

#18

Постройте биномиальную смешанную модель, в которой целевой переменной будет is_correct. В случайную часть модели включите только интерсепт, а в фиксированной части попробуйте различные сочетания предикторов. Оцените результаты моделирования.

#19

Протестируйте гипотезу о статитсической значимости биномиальной GLMM в целом.

#20

Получите предсказания биномиальной GLMM в мосштабе вероятностей, а затем, используя порог 0.8, переведите их в категориальные предсказания.

Постройте confusion matrix и оцените результаты моделирования.