HW13 // Смешанные линейные модели

Основные задания

Данные

Сегодня мы работаем с датасетом про ноутбуки, который содержит следующие переменные:

  • Company — компания-производитель компьютера
  • Product — бренд и модель
  • TypeName — тип ноутбука (Notebook, Ultrabook, Gaming, etc.)
  • Inches — размер экрана
  • ScreenResolution — разрешение экрана
  • Cpu — характеристики процессора
  • Ram — размер оперативной памяти
  • Memory — память жёсткого диска
  • GPU — характеристики графического процессора
  • OpSys — операционная система
  • Weight — вес компьютера
  • Price_euros — цена в Евро

#1

Загрузите датасет. Проверьте типы переменных. Если есть такие переменные, которые по своему содержанию должны быть другого типа, приведите их к нужному типу. Сделайте необходимые преобразования с переменными, если они потребуются.

Подсказка

Обратите внимание, как записаны переменные Ram и Weight. Возможно, понадобится функция str_remove().

#2

Мы хотим узнать, от каких технических характеристик зависит цена ноутбука. Исследуйте взаимосвязи между ценой и характеристиками ноутбуков. Предположите, какие из характеристик могут быть включены в регрессионную модель в качестве предикторов цены.

Подойдут любые способы изучения закономерностей по типу расчета описательных статистик или визуализаций.

#3

Постройте линейную модель model1 со случайным интерсептом, которая позволит ответить на вопрос, как зависит цена компьютера от размера экрана. В качестве случайного эффекта включите в модель группировку по компании-производителю.

Подсказки
  • Для построения смешанной модели используйте функцию lmer() из пакета lme4 или lmerTest.
  • Фиксированные факторы вводятся в модель аналогично общим линейным моделям.
  • Случайные факторы вводятся модель с помощью синтаксиса (1 + slope|rand), где 1 — указание на случайный интерсепт, slope — переменная, задающая случайный угловой коэффициент, rand — группирующая переменная, задающая случайный фактор.

#4

Проверьте статистическую значимость модели model1 в целом и статистистическую значимость фиксированных предикторов. Проинтерпретируйте полученные результаты.

Для самопроверки в поле ниже введите значение коэффициента при предикторе, округленное до сотых. В качестве десятичного разделителя используйте точку.

Подсказки
  • Для тестирования гипотез о статистической значимости модели в целом необходима нулевая модель, в которой предиктором является только интерсепт, с такой же структурой случайных эффектов, как и в тестируемой модели.
  • Для тестирования значимости фиксированных факторов используются t-тесты Вальда или тесты отношения правдоподобий.
  • Лучше проверить статистическую значимость с помощью обоих тестов, чтобы иметь возможность в случае сомнений в точности тестов сопоставить их результаты.

#5

Включите в модель model1 в качестве еще одного фиксированного количественного предиктора размер оперативной памяти ноутбука (Ram) — создайте новую модель model2.

#6

Сравните две имеющиеся модели — с одним (model1) и двумя (model2) фиксированными предикторами. Проинтерпретируйте результаты.

Для самопроверки введите значение статистики использованного теста, округленное до сотых. В качестве десятичного разделителя используйте точку.

Подсказка

Обратите внимание на способ подбора моделей — так как модели различаются структурой фиксированной части, нас интересуют точные оценки их коэффициентов.

#7

Протестируйте статистическую значимость предикторов модели с двумя фиксированными предикторами (model2). Проинтерпретируйте результаты. Сравните с результатами тестирования значимости предикторов модели с одним фиксированным предиктором.

Почему так могло произойти?

Для самопроверки в поле ниже введите значение коэффициента при предикторе Inches, округленное до сотых. В качестве десятичного разделителя используйте точку.

Подсказка

При сопоставлении результатов тестирования гипотез двух моделей обратите внимание (1) на статистическую значимость и (2) на значение коэффициентов при предикторах.

#8

  1. Усложните случайную часть модели. Возьмите за основу имеющуюся модель с двумя фиксированными предикторами и добавьте ещё один случайный интерсепт по переменной TypeName. Создайте модель model3.

  2. Протестируйте статистическую значимость фиксированных предикторов. Проинтерпретируйте результаты. Если есть что-либо необычное в результатах тестирования, дайте комментарий, почему это могло произойти.

Для самопроверки в поле ниже введите значение коэффициента при предикторе Inches, округленное до сотых. В качестве десятичного разделителя используйте точку.

Подсказки
  • Синтаксис модели с двумя случайными интерсептами выглядит следующим образом:
model <- lmer(DV ~ IV1 + IV2 + (1|rand1) + (1|rand2), data = data)
  • При сопоставлении результатов тестирования гипотез двух моделей обратите внимание (1) на статистическую значимость и (2) на значение коэффициентов при предикторах.

#9

Сравните модели с двумя фиксированными предикторами друг с другом (model2 и model3). Проинтерпретируйте результаты.

Для самопроверки введите значение статистики использованного теста, округленное до сотых. В качестве десятичного разделителя используйте точку.

Подсказка

Обратите внимание на способ подбора моделей — так как у моделей одинаковая фиксированная часть, нас интересует тестирование гипотез о случайной части модели.

#10

Проведите диагностику модели model3. Сделайте заключение о качестве модели на основе результатов диагностики.

Подсказки
  • Так как в модели в качестве фиксированных эффектов включены только количественные предикторы, при изучении распределения остатков достаточно посмотреть из зависимость от предсказанных значений.
  • Однако в модель включены два случайных эффекта — поэтому полезно будет рассмотреть зависимость распределения остатков от каждого из них.