P13 // Обобщенные аддитивные модели. Регуляризованная регрессия

Основные задания

#1

Сегодня мы посмотрим на данные про авокадо. Точнее о продажах авокадо в разных регионах с 2015 по 2018 года. Загрузите данные. Проверьте их структуру.

#2

  1. Для начала потренируемся на части данных, чтобы поделируемая закономерность была проще. Отберите данные о продаже авокадо типа organic только из региона Sacramento.
  2. Визуализируйте зависимость средней цены AveragePrice от дня года Date2.

Описание формата инпута.

#3

  1. Постройте на отобранных данных полиномиальную модель. В качестве целевой переменной в модель включите AveragePrice, а в качестве предиктора день года Date2. Используйте полином второй степени.
  2. Визуализируйте получившуюся модель.

Описание формата инпута.

#4

  1. Постройте на отобранных данных другую полиномиальную модель. В качестве целевой переменной в модель также включите AveragePrice, а в качестве предиктора день года Date2, но используйте полином третьей степени.
  2. Визуализируйте получившуюся модель.

Описание формата инпута.

#5

Постройте на отобранных данных ещё несколько полиномиальных моделей. Целевая переменная и предикторы пусть останутся те же, но теперь используйте полиномы седьмой, десятой и двадцатой степени.

Описание формата инпута.

#6

  1. Визуализируйте все построенные полиномиальные модели на одной графике.
  2. Выберите модель, которая наиболее адекватно описывает закономерность данных.

Описание формата инпута.

#7

Выведите статистики для модели, выбранной в предыдущем задании.

Описание формата инпута.

#8

  1. Постройте обобщенную аддитивную модель на отобранных данных, в которой нелинейным предиктором будет день года, а целевой переменной средняя цена авокадо.
  2. Визуализируйте получившуются модель.

Описание формата инпута.

#9

Возьмите за основу модель из предыдущего задания и попробуйте варьировать параметры сплайнов — степень сглаживания и степень полинома. Сравните результаты моделирования с помощью визуализаций.

Описание формата инпута.

#10

Выберите GAM, которая наиболее адекватно описывает данные с помощью визуализаций. Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#11

Давайте попробуем включить в модель несколько предикторов — один нелинейный количественный и один категориальный. Для этого нам необходим новый сабсет данных.

  1. Отберите данные только из региона Sacramento, но на этот раз без учета типа авокадо — в сабсете данных должны остаться и conventional, и organic.
  2. Визуализируйте зависимость средней цены от дня года с разбиением по типу авокадо.

Описание формата инпута.

#12

  1. Постройте обобщенную аддитивную модель, в которой категориальный предиктор a_type задан вне функции сплайнов.
  2. Визуализируйте полученную модель.
  3. Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#13

  1. Постройте обобщенную аддитивную модель, в которой категориальный предиктор a_type задан внутри функции сплайнов.
  2. Визуализируйте полученную модель.
  3. Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#14

  1. Постройте обобщенную аддитивную модель, в которой категориальный предиктор a_type задан и внутри, и вне функции сплайнов.
  2. Визуализируйте полученную модель.
  3. Выведите статистики модели. Проинтерпретируйте результаты.

Описание формата инпута.

#15

  1. Сравните модели с категориальным предиктором с помощьюь информационных критериев.
  2. Проведите диагностику модели, которая лучше всего соответствует данным. с. Проверьте наличие concurvity в модели

Описание формата инпута.

#16

Вторый данные на сегодня про менеджеров-продажников. Они содержат информацию о некоторых характеристиках менеджеров (количественные шкалы Fx, Cs, Sy, Sp, In, Em, Re, Sc, Ie, Do), а также сумму, на которую менеджер напродавал. Наша задача узнать, какие характеристики менеджеров сильнее всего связаны с их эффективностью в продажах.

Загрузие данные. Проверьте их структуру.

Описание формата инпута.

#17

Для функций регуляризованной регрессии нужна некоторая предобработка данных: требуется отдельно вектор целевой переменной и отдельно матрица предикторов.

  1. Создайте вектор prodazhi, в которой будут содержаться значения из колонки prodazhi датасета.
  2. Отберите из датасета только количественные переменные и создайте из них матрицу предикторов preds.

Описание формата инпута.

#18

  1. Постройте модель ridge-регрессии на имеющихся данных.
  2. Выведите график зависимости ошибки модели от штрафного коэффициента.
  3. Выведите коэффициенты модели.

Описание формата инпута.

#19

  1. Постройте модель LASSO-регрессии на имеющихся данных.
  2. Выведите график зависимости ошибки модели от штрафного коэффициента.
  3. Выведите коэффициенты модели.

Описание формата инпута.