<- lmer(DV ~ IV1 + IV2 + (1|rand1) + (1|rand2), data = data) model
HW13 // Смешанные линейные модели
Основные задания
Сегодня мы работаем с датасетом про ноутбуки, который содержит следующие переменные:
Company
— компания-производитель компьютераProduct
— бренд и модельTypeName
— тип ноутбука (Notebook, Ultrabook, Gaming, etc.)Inches
— размер экранаScreenResolution
— разрешение экранаCpu
— характеристики процессораRam
— размер оперативной памятиMemory
— память жёсткого дискаGPU
— характеристики графического процессораOpSys
— операционная системаWeight
— вес компьютераPrice_euros
— цена в Евро
#1
Загрузите датасет. Проверьте типы переменных. Если есть такие переменные, которые по своему содержанию должны быть другого типа, приведите их к нужному типу. Сделайте необходимые преобразования с переменными, если они потребуются.
Описание формата инпута.
Подсказка
Обратите внимание, как записаны переменные Ram
и Weight
. Возможно, понадобится функция str_remove()
.
#2
Мы хотим узнать, от каких технических характеристик зависит цена ноутбука. Исследуйте взаимосвязи между ценой и характеристиками ноутбуков. Предположите, какие из характеристик могут быть включены в регрессионную модель в качестве предикторов цены.
Подойдут любые способы изучения закономерностей по типу расчета описательных статистик или визуализаций.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#3
Постройте линейную модель model1
со случайным интерсептом, которая позволит ответить на вопрос, как зависит цена компьютера от размера экрана. В качестве случайного эффекта включите в модель группировку по компании-производителю.
Описание формата инпута.
Подсказки
- Для построения смешанной модели используйте функцию
lmer()
из пакетаlme4
илиlmerTest
. - Фиксированные факторы вводятся в модель аналогично общим линейным моделям.
- Случайные факторы вводятся модель с помощью синтаксиса
(1 + slope|rand)
, где1
— указание на случайный интерсепт,slope
— переменная, задающая случайный угловой коэффициент,rand
— группирующая переменная, задающая случайный фактор.
#4
Проверьте статистическую значимость модели model1
в целом и статистистическую значимость фиксированных предикторов. Проинтерпретируйте полученные результаты.
Для самопроверки в поле ниже введите значение коэффициента при предикторе, округленное до сотых. В качестве десятичного разделителя используйте точку.
Подсказки
- Для тестирования гипотез о статистической значимости модели в целом необходима нулевая модель, в которой предиктором является только интерсепт, с такой же структурой случайных эффектов, как и в тестируемой модели.
- Для тестирования значимости фиксированных факторов используются t-тесты Вальда или тесты отношения правдоподобий.
- Лучше проверить статистическую значимость с помощью обоих тестов, чтобы иметь возможность в случае сомнений в точности тестов сопоставить их результаты.
#5
Включите в модель model1
в качестве еще одного фиксированного количественного предиктора размер оперативной памяти ноутбука (Ram
) — создайте новую модель model2
.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#6
Сравните две имеющиеся модели — с одним (model1
) и двумя (model2
) фиксированными предикторами. Проинтерпретируйте результаты.
Для самопроверки введите значение статистики использованного теста, округленное до сотых. В качестве десятичного разделителя используйте точку.
Подсказка
Обратите внимание на способ подбора моделей — так как модели различаются структурой фиксированной части, нас интересуют точные оценки их коэффициентов.
#7
Протестируйте статистическую значимость предикторов модели с двумя фиксированными предикторами (model2
). Проинтерпретируйте результаты. Сравните с результатами тестирования значимости предикторов модели с одним фиксированным предиктором.
Почему так могло произойти?
Для самопроверки в поле ниже введите значение коэффициента при предикторе Inches
, округленное до сотых. В качестве десятичного разделителя используйте точку.
Подсказка
При сопоставлении результатов тестирования гипотез двух моделей обратите внимание (1) на статистическую значимость и (2) на значение коэффициентов при предикторах.
#8
Усложните случайную часть модели. Возьмите за основу имеющуюся модель с двумя фиксированными предикторами и добавьте ещё один случайный интерсепт по переменной
TypeName
. Создайте модельmodel3
.Протестируйте статистическую значимость фиксированных предикторов. Проинтерпретируйте результаты. Если есть что-либо необычное в результатах тестирования, дайте комментарий, почему это могло произойти.
Для самопроверки в поле ниже введите значение коэффициента при предикторе Inches
, округленное до сотых. В качестве десятичного разделителя используйте точку.
Подсказки
- Синтаксис модели с двумя случайными интерсептами выглядит следующим образом:
- При сопоставлении результатов тестирования гипотез двух моделей обратите внимание (1) на статистическую значимость и (2) на значение коэффициентов при предикторах.
#9
Сравните модели с двумя фиксированными предикторами друг с другом (model2
и model3
). Проинтерпретируйте результаты.
Для самопроверки введите значение статистики использованного теста, округленное до сотых. В качестве десятичного разделителя используйте точку.
Подсказка
Обратите внимание на способ подбора моделей — так как у моделей одинаковая фиксированная часть, нас интересует тестирование гипотез о случайной части модели.
#10
Проведите диагностику модели model3
. Сделайте заключение о качестве модели на основе результатов диагностики.
Описание формата инпута.
Подсказки
- Так как в модели в качестве фиксированных эффектов включены только количественные предикторы, при изучении распределения остатков достаточно посмотреть из зависимость от предсказанных значений.
- Однако в модель включены два случайных эффекта — поэтому полезно будет рассмотреть зависимость распределения остатков от каждого из них.