P13 // Обобщенные аддитивные модели. Регуляризованная регрессия
Основные задания
#1
Сегодня мы посмотрим на данные про авокадо. Точнее о продажах авокадо в разных регионах с 2015 по 2018 года. Загрузите данные. Проверьте их структуру.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#2
- Для начала потренируемся на части данных, чтобы поделируемая закономерность была проще. Отберите данные о продаже авокадо типа
organic
только из регионаSacramento
. - Визуализируйте зависимость средней цены
AveragePrice
от дня годаDate2
.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#3
- Постройте на отобранных данных полиномиальную модель. В качестве целевой переменной в модель включите
AveragePrice
, а в качестве предиктора день годаDate2
. Используйте полином второй степени. - Визуализируйте получившуюся модель.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#4
- Постройте на отобранных данных другую полиномиальную модель. В качестве целевой переменной в модель также включите
AveragePrice
, а в качестве предиктора день годаDate2
, но используйте полином третьей степени. - Визуализируйте получившуюся модель.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#5
Постройте на отобранных данных ещё несколько полиномиальных моделей. Целевая переменная и предикторы пусть останутся те же, но теперь используйте полиномы седьмой, десятой и двадцатой степени.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#6
- Визуализируйте все построенные полиномиальные модели на одной графике.
- Выберите модель, которая наиболее адекватно описывает закономерность данных.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#7
Выведите статистики для модели, выбранной в предыдущем задании.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#8
- Постройте обобщенную аддитивную модель на отобранных данных, в которой нелинейным предиктором будет день года, а целевой переменной средняя цена авокадо.
- Визуализируйте получившуются модель.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#9
Возьмите за основу модель из предыдущего задания и попробуйте варьировать параметры сплайнов — степень сглаживания и степень полинома. Сравните результаты моделирования с помощью визуализаций.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#10
Выберите GAM, которая наиболее адекватно описывает данные с помощью визуализаций. Выведите статистики модели. Проинтерпретируйте результаты.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#11
Давайте попробуем включить в модель несколько предикторов — один нелинейный количественный и один категориальный. Для этого нам необходим новый сабсет данных.
- Отберите данные только из региона
Sacramento
, но на этот раз без учета типа авокадо — в сабсете данных должны остаться иconventional
, иorganic
. - Визуализируйте зависимость средней цены от дня года с разбиением по типу авокадо.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#12
- Постройте обобщенную аддитивную модель, в которой категориальный предиктор
a_type
задан вне функции сплайнов. - Визуализируйте полученную модель.
- Выведите статистики модели. Проинтерпретируйте результаты.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#13
- Постройте обобщенную аддитивную модель, в которой категориальный предиктор
a_type
задан внутри функции сплайнов. - Визуализируйте полученную модель.
- Выведите статистики модели. Проинтерпретируйте результаты.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#14
- Постройте обобщенную аддитивную модель, в которой категориальный предиктор
a_type
задан и внутри, и вне функции сплайнов. - Визуализируйте полученную модель.
- Выведите статистики модели. Проинтерпретируйте результаты.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#15
- Сравните модели с категориальным предиктором с помощьюь информационных критериев.
- Проведите диагностику модели, которая лучше всего соответствует данным. с. Проверьте наличие concurvity в модели
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#16
Вторый данные на сегодня про менеджеров-продажников. Они содержат информацию о некоторых характеристиках менеджеров (количественные шкалы Fx
, Cs
, Sy
, Sp
, In
, Em
, Re
, Sc
, Ie
, Do
), а также сумму, на которую менеджер напродавал. Наша задача узнать, какие характеристики менеджеров сильнее всего связаны с их эффективностью в продажах.
Загрузие данные. Проверьте их структуру.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#17
Для функций регуляризованной регрессии нужна некоторая предобработка данных: требуется отдельно вектор целевой переменной и отдельно матрица предикторов.
- Создайте вектор
prodazhi
, в которой будут содержаться значения из колонкиprodazhi
датасета. - Отберите из датасета только количественные переменные и создайте из них матрицу предикторов
preds
.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#18
- Постройте модель ridge-регрессии на имеющихся данных.
- Выведите график зависимости ошибки модели от штрафного коэффициента.
- Выведите коэффициенты модели.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#19
- Постройте модель LASSO-регрессии на имеющихся данных.
- Выведите график зависимости ошибки модели от штрафного коэффициента.
- Выведите коэффициенты модели.
Описание формата инпута.