F // Итоговый проект

В этом проекте1 вам предстоит ответить на исследовательский вопрос с помощью изученных статистических моделей.

Критерии оценивания проекта прикреплены к заданию в Google Classroom.

F1 // План

Дедлайн: 15/04/2024 23:59

Разработка плана анализа данных влючает в себя следующие шаги:

  1. Выберите датасет, который вам наиболее интересен.
    • Выберите исследовательный вопрос — для датасетов 3 и 4 предложено несколько исследовательских вопросов
  2. Сформулируйте гипотезы — теоретические и эмпирические — к исследовательскому вопросу.
    • При формулировке гипотез вы можете использовать какие-либо теоретические источники — эмпирические статьи, обзоры, монографии, препринты, тезисы и др. — а также результаты первичного исследования данных — описательные статистики, разведочные визуализации и т.д.
    • Гипотез может быть несколько, а может быть и одна — в зависимости от того, сколько будет необходимо для того, чтобы ответить на исследовательский вопрос
  3. Выберите статистические методы / модели анализа, с помощью которых вы сможете проверить заявленные гипотезы.
    • Обоснуйте свой выбор, раскройте, как и почему именно этот метод позволит вам протестировать заявленные гипотезы.
  4. Рассчитайте объем выборки, который требуется для достижения необходимой статистической мощности анализа.
    • размер эффекта вы можете взять либо из теоретических источников, либо выдвинуть предположения о том, какой он может быть, опираясь на результаты первичного исследования данных
  5. Составьте поэтапный план анализа данных — от предобработки до результатов.
  6. Опишите результаты, которые вы ожидаете по итогу анализа в случае, если заявленные гипотезы подтвердятся.

Безусловно, этапы анализа данных будут определяться выбранным методом, однако всё же есть ряд ключевых моментов, о которых необходимо подумать, независимо от того, какой анализ вы делаете. Ниже представлен примерный список вопросов, на которые вам необходимо ответить, составляя план:

  • что необходимо будет сделать в ходе предобработки данных?
  • будет ли производится расчет каких-либо новых показателей на основе исходных переменных?
  • как будет производится обработка выбросов? каковы критерии исключения наблюдений из датасета, если это необходимо?
  • как будет производится обработка пропущенных значений?
  • что необходимо будет проверить на этапе исследования данных?
  • как могут повлиять результаты исследования данных (описательные статистики, визуализации, связи между переменными и т. д.) на реализацию анализа с помощью выбранного статистического метода?
  • какова будет модель с точки зрения переменных?
    • какие переменные в неё войдут в качестве целевой, предикторов, ковариат?
    • какие связи в ней будут учтены?
  • какие результаты мы ожидаем? в каком случае мы сможем сказать, что гипотеза подтвердилась?
    • какие критерии статистического вывода будут использоваться?
    • какие значения метрик качества модели будут выбраны для вывода о гипотезе?
    • какие значения метрик качества модели будут выбраны для сравнения моделей?

Для сохранения общей структуры используйте бланк плана, прикрепленный к заданию в Google Classroom, в котором выделены основные блоки. Заполненный бланк необходимо загрузить в это же задание.

F2 // Защита

Дедлайн: 2/05/2024 18:00

После составления плана вам необходимо реализовать его в среде R. Итогом проекта является презентация, в которой вам необходимо кратко изложить ход работы над проектом, а также представить результаты анализа, их интерпретацию и обсуждение ограничений. Формат перезнтации свободный.

В соответствующее задание в Google Classromm необходимо загрузить:

  • файл с презентацией
  • архив с проектом RStudio Project, в котором вы работали над итоговым проектом

Датасеты

Свой датасет

Вы можете взять данные какого-либо собственного исследования и проанализировать их в рамках проекта. В этом случае в бланке плана необходимо описать исследование, в рамках которого данные были собраны, а также описать сам датасет.

Датасет 1 // Speed Dating

Данные о результатах «быстрых свиданий» (speed dating).

Файл
Описание датасета

Data was gathered from participants in experimental speed dating events from 2002-2004. During the events, the attendees would have a four minute “first date” with every other participant of the opposite sex. At the end of their four minutes, participants were asked if they would like to see their date again. They were also asked to rate their date on six attributes: Attractiveness, Sincerity, Intelligence, Fun, Ambition, and Shared Interests.

The dataset also includes questionnaire data gathered from participants at different points in the process. These fields include: demographics, dating habits, self-perception across key attributes, beliefs on what others find valuable in a mate, and lifestyle information. See the Speed Dating Data Key document below for details.

Исследовательский вопрос

Какие факторы оказываются решающими при формировании пары по итогам «быстрых свиданий»?

Датасет 2 // HR employees

HR-данные о сотрудниках большой компании.

Файл
Описание датасета
  • Age — возраст сотрудника
  • Gender — пол сотрудника
  • Attrition — наступило ли у сотрудника профессинальное выгорание
  • BusinessTravel — частота командировок
  • Department — подраздление, в котором работает сотрудник
  • DistanceFromHome — расстояние от дома до работы
  • Education — уровень образования
    • 1 — Below College
    • 2 — College
    • 3 — Bachelor
    • 4 — Master
    • 5 — Doctor
  • EducationField — область образования
  • EmployeeNumber — идентификатор сотрудника
  • EnvironmentSatisfaction — удовлетворенность физическими условиями труда
    • 1 — Low
    • 2 — Medium
    • 3 — High
    • 4 — Very High
  • JobInvolvement — вовлеченность в работу
    • 1 — Low
    • 2 — Medium
    • 3 — High
    • 4 — Very High
  • JobSatisfaction — удовлетворенность работой
    • 1 — Low
    • 2 — Medium
    • 3 — High
    • 4 — Very High
  • JobRole — должность
  • JobLevel — уровень должности
  • MaritalStatus — семейное положение
  • MonthlyIncome — ежемесячный доход сотрудника
  • HourlyRate — стоимость часа работы сотрудника
  • DailyRate — стоимость дня работы сотрудника
  • MonthlyRate — стоимость месяца работы сотрудника
  • NumCompaniesWorked — количество компаний, в которых работал сотрудник
  • Over18 — является ли сотрудник совершеннолетним
  • OverTime — бывают ли у сотрудника переработки
  • PercentSalaryHike — процент повышения заработной платы
  • PerformanceRating — оценка качества работы сотрудника
    • 1 — Low
    • 2 — Good
    • 3 — Excellent
    • 4 — Outstanding
  • RelationshipSatisfaction — удовлетворенность отношениями в коллективе
    • 1 — Low
    • 2 — Medium
    • 3 — High
    • 4 — Very High
  • StockOptionLevel — уровень показателя Employee Stock Option (ESO)
  • TotalWorkingYears — общий стаж
  • TrainingTimesLastYear — количество тренингов/повышений квалификации за последний год
  • WorkLifeBalance — оценка баланса между работой и личной жизнью
    • 1 — Bad
    • 2 — Good
    • 3 — Better
    • 4 — Best
  • YearsAtCompany — сколько лет сотрудник работает в данной компании
  • YearsInCurrentRole — сколько лет сотрудник работает на данной позиции
  • YearsSinceLastPromotion — сколько лет прошло с последнего повышения сотрудника
  • YearsWithCurrManager — сколько лет сотрудник работает с текущим HR-менеджером
Исследовательский вопрос

Какие факторы приводят к выгоранию сотрудников?

Датасет 3 // Music & Mental Health

Файл

Музыкальная терапия, или МТ, — это использование музыки для снижения стресса, улучшения настроения и общего психического здоровья человека. МТ признана научно обоснованной практикой, использующей музыку в качестве катализатора для «счастливых» гормонов, таких как окситоцин. В рамках МТ используется широкий спектр различных жанров, варьирующихся от одной организации к другой. Набор данных MxMH направлен на выявление существующих корреляций между музыкальным вкусом человека и его психическим здоровьем, если таковые имеются. Результаты могли бы способствовать более информированному применению МТ.

Описание датасета
  • Блок 0: Фон
    • Респонденты отвечают на общие вопросы, касающиеся музыкального фона и привычек прослушивания.
  • Блок 1: Музыкальные жанры
    • Респонденты оценивают, как часто они слушают 16 музыкальных жанров по шкале НикогдаРедкоИногдаОчень часто
  • Блок 2: Психическое здоровье
    • Респонденты оценивают тревогу, депрессию, бессонницу и обсессивно-компульсивное расстройство по шкале от 0 до 10, где:
      • 0 — я не испытываю этого
      • 10 — Я испытываю это регулярно, постоянно/или до крайности.
Исследовательские вопросы

Необходимо выбрать один исследовательский вопрос.

  • Есть ли какая-либо связь между вкусовыми предпочтениями в музыке и наличием и выраженностью тех или иных ментальных расстройств?
  • Есть ли какие-либо отличия по особенностям прослушивания музыки (платформа, длительность и т. д.) и предпочитаемыми музыкальными вкусами у тех, кто имеет ярко-выраженную депрессию? ОКР? Тревожное расстройство? Бессонницу?

Датасет 4 // Game Addiction

Датасет об игре в Dota и игровой зависимости.

Файл
Описание датасета

Данные были собраны через Google Forms. В названиях переменных прописано их содержание.

Исследовательские вопросы

Необходимо выбрать один исследовательский вопрос.

  • Какие факторы связаны с игровой зависимостью?
  • Можно ли отличить по игровым и / или демографическим характеристикам игроков с ярко выраженной зависимостью и без нее?
  • Каковы игровые особенности игроков, использующих Dota как способ справиться со стрессом?

  1. Формат проекта основан на разработках А. Ангельгардта, Е. Рыбиной и Н. Колачева для курсов «Статистика для анализа данных» и «Научно-исследовательский семинар: Прикладной анализ данных в психологии», читаемых в бакалавриате НИУ ВШЭ.↩︎