F // Итоговый проект
В этом проекте1 вам предстоит ответить на исследовательский вопрос с помощью изученных статистических моделей.
Критерии оценивания проекта прикреплены к заданию в Google Classroom.
F1 // План
Дедлайн: 15/04/2024 23:59
Разработка плана анализа данных влючает в себя следующие шаги:
- Выберите датасет, который вам наиболее интересен.
- Выберите исследовательный вопрос — для датасетов 3 и 4 предложено несколько исследовательских вопросов
- Сформулируйте гипотезы — теоретические и эмпирические — к исследовательскому вопросу.
- При формулировке гипотез вы можете использовать какие-либо теоретические источники — эмпирические статьи, обзоры, монографии, препринты, тезисы и др. — а также результаты первичного исследования данных — описательные статистики, разведочные визуализации и т.д.
- Гипотез может быть несколько, а может быть и одна — в зависимости от того, сколько будет необходимо для того, чтобы ответить на исследовательский вопрос
- Выберите статистические методы / модели анализа, с помощью которых вы сможете проверить заявленные гипотезы.
- Обоснуйте свой выбор, раскройте, как и почему именно этот метод позволит вам протестировать заявленные гипотезы.
- Рассчитайте объем выборки, который требуется для достижения необходимой статистической мощности анализа.
- размер эффекта вы можете взять либо из теоретических источников, либо выдвинуть предположения о том, какой он может быть, опираясь на результаты первичного исследования данных
- Составьте поэтапный план анализа данных — от предобработки до результатов.
- Опишите результаты, которые вы ожидаете по итогу анализа в случае, если заявленные гипотезы подтвердятся.
Безусловно, этапы анализа данных будут определяться выбранным методом, однако всё же есть ряд ключевых моментов, о которых необходимо подумать, независимо от того, какой анализ вы делаете. Ниже представлен примерный список вопросов, на которые вам необходимо ответить, составляя план:
- что необходимо будет сделать в ходе предобработки данных?
- будет ли производится расчет каких-либо новых показателей на основе исходных переменных?
- как будет производится обработка выбросов? каковы критерии исключения наблюдений из датасета, если это необходимо?
- как будет производится обработка пропущенных значений?
- что необходимо будет проверить на этапе исследования данных?
- как могут повлиять результаты исследования данных (описательные статистики, визуализации, связи между переменными и т. д.) на реализацию анализа с помощью выбранного статистического метода?
- какова будет модель с точки зрения переменных?
- какие переменные в неё войдут в качестве целевой, предикторов, ковариат?
- какие связи в ней будут учтены?
- какие результаты мы ожидаем? в каком случае мы сможем сказать, что гипотеза подтвердилась?
- какие критерии статистического вывода будут использоваться?
- какие значения метрик качества модели будут выбраны для вывода о гипотезе?
- какие значения метрик качества модели будут выбраны для сравнения моделей?
Для сохранения общей структуры используйте бланк плана, прикрепленный к заданию в Google Classroom, в котором выделены основные блоки. Заполненный бланк необходимо загрузить в это же задание.
F2 // Защита
Дедлайн: 2/05/2024 18:00
После составления плана вам необходимо реализовать его в среде R. Итогом проекта является презентация, в которой вам необходимо кратко изложить ход работы над проектом, а также представить результаты анализа, их интерпретацию и обсуждение ограничений. Формат перезнтации свободный.
В соответствующее задание в Google Classromm необходимо загрузить:
- файл с презентацией
- архив с проектом RStudio Project, в котором вы работали над итоговым проектом
Датасеты
Свой датасет
Вы можете взять данные какого-либо собственного исследования и проанализировать их в рамках проекта. В этом случае в бланке плана необходимо описать исследование, в рамках которого данные были собраны, а также описать сам датасет.
Датасет 1 // Speed Dating
Данные о результатах «быстрых свиданий» (speed dating).
Data was gathered from participants in experimental speed dating events from 2002-2004. During the events, the attendees would have a four minute “first date” with every other participant of the opposite sex. At the end of their four minutes, participants were asked if they would like to see their date again. They were also asked to rate their date on six attributes: Attractiveness, Sincerity, Intelligence, Fun, Ambition, and Shared Interests.
The dataset also includes questionnaire data gathered from participants at different points in the process. These fields include: demographics, dating habits, self-perception across key attributes, beliefs on what others find valuable in a mate, and lifestyle information. See the Speed Dating Data Key document below for details.
Какие факторы оказываются решающими при формировании пары по итогам «быстрых свиданий»?
Датасет 2 // HR employees
HR-данные о сотрудниках большой компании.
Age
— возраст сотрудникаGender
— пол сотрудникаAttrition
— наступило ли у сотрудника профессинальное выгораниеBusinessTravel
— частота командировокDepartment
— подраздление, в котором работает сотрудникDistanceFromHome
— расстояние от дома до работыEducation
— уровень образования1
— Below College2
— College3
— Bachelor4
— Master5
— Doctor
EducationField
— область образованияEmployeeNumber
— идентификатор сотрудникаEnvironmentSatisfaction
— удовлетворенность физическими условиями труда1
— Low2
— Medium3
— High4
— Very High
JobInvolvement
— вовлеченность в работу1
— Low2
— Medium3
— High4
— Very High
JobSatisfaction
— удовлетворенность работой1
— Low2
— Medium3
— High4
— Very High
JobRole
— должностьJobLevel
— уровень должностиMaritalStatus
— семейное положениеMonthlyIncome
— ежемесячный доход сотрудникаHourlyRate
— стоимость часа работы сотрудникаDailyRate
— стоимость дня работы сотрудникаMonthlyRate
— стоимость месяца работы сотрудникаNumCompaniesWorked
— количество компаний, в которых работал сотрудникOver18
— является ли сотрудник совершеннолетнимOverTime
— бывают ли у сотрудника переработкиPercentSalaryHike
— процент повышения заработной платыPerformanceRating
— оценка качества работы сотрудника1
— Low2
— Good3
— Excellent4
— Outstanding
RelationshipSatisfaction
— удовлетворенность отношениями в коллективе1
— Low2
— Medium3
— High4
— Very High
StockOptionLevel
— уровень показателя Employee Stock Option (ESO)TotalWorkingYears
— общий стажTrainingTimesLastYear
— количество тренингов/повышений квалификации за последний годWorkLifeBalance
— оценка баланса между работой и личной жизнью1
— Bad2
— Good3
— Better4
— Best
YearsAtCompany
— сколько лет сотрудник работает в данной компанииYearsInCurrentRole
— сколько лет сотрудник работает на данной позицииYearsSinceLastPromotion
— сколько лет прошло с последнего повышения сотрудникаYearsWithCurrManager
— сколько лет сотрудник работает с текущим HR-менеджером
Какие факторы приводят к выгоранию сотрудников?
Датасет 3 // Music & Mental Health
Музыкальная терапия, или МТ, — это использование музыки для снижения стресса, улучшения настроения и общего психического здоровья человека. МТ признана научно обоснованной практикой, использующей музыку в качестве катализатора для «счастливых» гормонов, таких как окситоцин. В рамках МТ используется широкий спектр различных жанров, варьирующихся от одной организации к другой. Набор данных MxMH направлен на выявление существующих корреляций между музыкальным вкусом человека и его психическим здоровьем, если таковые имеются. Результаты могли бы способствовать более информированному применению МТ.
- Блок 0: Фон
- Респонденты отвечают на общие вопросы, касающиеся музыкального фона и привычек прослушивания.
- Блок 1: Музыкальные жанры
- Респонденты оценивают, как часто они слушают 16 музыкальных жанров по шкале Никогда — Редко — Иногда — Очень часто
- Блок 2: Психическое здоровье
- Респонденты оценивают тревогу, депрессию, бессонницу и обсессивно-компульсивное расстройство по шкале от 0 до 10, где:
- 0 — я не испытываю этого
- 10 — Я испытываю это регулярно, постоянно/или до крайности.
- Респонденты оценивают тревогу, депрессию, бессонницу и обсессивно-компульсивное расстройство по шкале от 0 до 10, где:
Необходимо выбрать один исследовательский вопрос.
- Есть ли какая-либо связь между вкусовыми предпочтениями в музыке и наличием и выраженностью тех или иных ментальных расстройств?
- Есть ли какие-либо отличия по особенностям прослушивания музыки (платформа, длительность и т. д.) и предпочитаемыми музыкальными вкусами у тех, кто имеет ярко-выраженную депрессию? ОКР? Тревожное расстройство? Бессонницу?
Датасет 4 // Game Addiction
Датасет об игре в Dota и игровой зависимости.
Данные были собраны через Google Forms. В названиях переменных прописано их содержание.
Необходимо выбрать один исследовательский вопрос.
- Какие факторы связаны с игровой зависимостью?
- Можно ли отличить по игровым и / или демографическим характеристикам игроков с ярко выраженной зависимостью и без нее?
- Каковы игровые особенности игроков, использующих Dota как способ справиться со стрессом?
Формат проекта основан на разработках А. Ангельгардта, Е. Рыбиной и Н. Колачева для курсов «Статистика для анализа данных» и «Научно-исследовательский семинар: Прикладной анализ данных в психологии», читаемых в бакалавриате НИУ ВШЭ.↩︎