P13 // Обобщенные аддитивные модели. Регуляризованная регрессия

Основные задания

#1

Сегодня мы посмотрим на данные про авокадо. Точнее о продажах авокадо в разных регионах с 2015 по 2018 года. Загрузите данные. Проверьте их структуру.

#2

Для начала потренируемся на части данных, чтобы поделируемая закономерность была проще. Отберите данные о продаже авокадо типа organic только из региона Sacramento.
Визуализируйте зависимость средней цены AveragePrice от дня года Date2.

Описание формата инпута.

#3

Постройте на отобранных данных полиномиальную модель. В качестве целевой переменной в модель включите AveragePrice, а в качестве предиктора день года Date2. Используйте полином второй степени.
Визуализируйте получившуюся модель.

Описание формата инпута.

#4

Постройте на отобранных данных другую полиномиальную модель. В качестве целевой переменной в модель также включите AveragePrice, а в качестве предиктора день года Date2, но используйте полином третьей степени.
Визуализируйте получившуюся модель.

Описание формата инпута.

#5

Постройте на отобранных данных ещё несколько полиномиальных моделей. Целевая переменная и предикторы пусть останутся те же, но теперь используйте полиномы седьмой, десятой и двадцатой степени.

Описание формата инпута.

#6

Визуализируйте все построенные полиномиальные модели на одной графике.
Выберите модель, которая наиболее адекватно описывает закономерность данных.

Описание формата инпута.

#7

Выведите статистики для модели, выбранной в предыдущем задании.

Описание формата инпута.

#8

Постройте обобщенную аддитивную модель на отобранных данных, в которой нелинейным предиктором будет день года, а целевой переменной средняя цена авокадо.
Визуализируйте получившуются модель.

Описание формата инпута.

#9

Возьмите за основу модель из предыдущего задания и попробуйте варьировать параметры сплайнов — степень сглаживания и степень полинома. Сравните результаты моделирования с помощью визуализаций.

Описание формата инпута.

#10

Выберите GAM, которая наиболее адекватно описывает данные с помощью визуализаций. Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#11

Давайте попробуем включить в модель несколько предикторов — один нелинейный количественный и один категориальный. Для этого нам необходим новый сабсет данных.

Отберите данные только из региона Sacramento, но на этот раз без учета типа авокадо — в сабсете данных должны остаться и conventional, и organic.
Визуализируйте зависимость средней цены от дня года с разбиением по типу авокадо.

Описание формата инпута.

#12

Постройте обобщенную аддитивную модель, в которой категориальный предиктор a_type задан вне функции сплайнов.
Визуализируйте полученную модель.
Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#13

Постройте обобщенную аддитивную модель, в которой категориальный предиктор a_type задан внутри функции сплайнов.
Визуализируйте полученную модель.
Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#14

Постройте обобщенную аддитивную модель, в которой категориальный предиктор a_type задан и внутри, и вне функции сплайнов.
Визуализируйте полученную модель.
Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#15

Сравните модели с категориальным предиктором с помощьюь информационных критериев.
Проведите диагностику модели, которая лучше всего соответствует данным. с. Проверьте наличие concurvity в модели

Описание формата инпута.

#16

Вторый данные на сегодня про менеджеров-продажников. Они содержат информацию о некоторых характеристиках менеджеров (количественные шкалы Fx, Cs, Sy, Sp, In, Em, Re, Sc, Ie, Do), а также сумму, на которую менеджер напродавал. Наша задача узнать, какие характеристики менеджеров сильнее всего связаны с их эффективностью в продажах.

Загрузие данные. Проверьте их структуру.

Описание формата инпута.

#17

Для функций регуляризованной регрессии нужна некоторая предобработка данных: требуется отдельно вектор целевой переменной и отдельно матрица предикторов.

Создайте вектор prodazhi, в которой будут содержаться значения из колонки prodazhi датасета.
Отберите из датасета только количественные переменные и создайте из них матрицу предикторов preds.

Описание формата инпута.

#18

Постройте модель ridge-регрессии на имеющихся данных.
Выведите график зависимости ошибки модели от штрафного коэффициента.
Выведите коэффициенты модели.

Описание формата инпута.

#19

Постройте модель LASSO-регрессии на имеющихся данных.
Выведите график зависимости ошибки модели от штрафного коэффициента.
Выведите коэффициенты модели.

Описание формата инпута.