HW15 // Анализ главных компонент. Эксплораторный факторный анализ
Основные задания
Сегодня мы работаем с датасетом по Большой пятерке (Big Five). Вспомнить структуру модели можно тут.
Данные собирались с помощью опросника Big-Five Factor Markers. На измерение каждого фактора в опроснике отведено по десять утверждений — с этими переменными мы будем работать:
EXT1
–EXT10
— extraversionEST1
–EST10
— neuroticism (emotional stability)AGR1
–AGR10
— agreeablenessCSN1
–CSN10
— conscientiousnessOPN1
–OPN10
— openness
Подробное описание датасета можно найти в этом файле.
Оригинальный датасет содержит 1 015 342 наблюдения — это очень много, возможно, не хватит оперативной памяти, поэтому мы будем работать с его частью.
#1
- Загрузите данные. Проверьте их структуру и типы переменных.
- При необходимости скорректируйте типы переменных.
- Если в данных есть пропущенные значения или они возникли в ходе предобработки, удалите их из датасета.
Для самопроверки в поле ниже введите количество строк в датасете, получившемся после предобработки (корректировки типов переменных и удаления пропущенных значений).
Подсказки
- Обратите внимание на структуру файла с данными, в особенности на разделитель колонок, который в нем используется.
- При предобработке данных может пригодится функция
across()
, которая позволяет выделить колонки, по которым необходимо провести предобработку. - Возможно, полезно будет вспомнить регулярные выражения для отбора необходимых колонок.
#2
- Отберите переменные для анализ — пункты опросника (
EXT1
–EXT10
,EST1
–EST10
,AGR1
–AGR10
,CSN1
–CSN10
,OPN1
–OPN10
). - Постройте и визуализируйте корреляционную матрицу по отобранным переменным.
Есть ли нечто странное в данных?
Описание формата инпута.
Подсказки
- Обратите внимание на силу корреляций, а также на их направление.
- С чем это может быть связано, если мы предполагаем, что опросник хорошо сконструирован и его психометрические показали достаточно высокие?
#3
Скорректируйте странности, обнаруженные по корреляционной матрице.
Вероятно, поможет матрица направлений вопросов.
Описание формата инпута.
Подсказки
Подойти к задаче перекодировки можно следующим образом:
- Загрузить матрицу направлений вопросов
- Объединить направления и баллы по соответствующим вопросам
- Максимальный возможный балл по одному вопросу — 6
- Если вопрос обратный, то необходимо из 6 вычесть балл респондента
- Если вопрос прямой, оставить кодировку без изменений
- В ходе преобразований для объединения тибблов потребуется перевести из в длинных формат, а затем итоговый датасет вновь перевести в широкий формат, чтобы функции работали на нем корректно.
#4
Выполните анализ главных компонент на имеющихся данных. Стандартизируйте переменные перед проведением анализа.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#5
Постройте график, отображающий информативность главных компонент.
Сколько получается главных компонент, согласно критерию информативности?
Для самопроверки в поле ниже введите число информативных главных компонент.
Подсказки
- В качестве меры информативности главной компоненты используйте стандартное отклонение по ней.
- Главная компонента считается неинформативной, если её дисперсии меньше дисперсии исходных переменных.
#6
Постройте график, отображающий накопленную долю объясненной главными компонентами дисперсии данных.
Сколько главных компонент достаточно для объяснения 80% дисперсии данных?
Для самопроверки в поле ниже введите число главных компонент, достаточное для объяснения 80% дисперсии данных.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#7
Проверьте с помощью критерия сферичности Бартлетта и меры Кайзер-Мейера-Олкина (КМО), насколько имеющиеся данные подходят для эксплораторного факторного анализа.
Для самопроверки в поле ниже введите через запятую значение статистики критерия сферичности Бартлетта и значение меры КМО (overall), округленные до десятых. В качестве десятичного разделителя используйте точку.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#8
Выясните, сколько факторов присутствует в латентной структуре данных, с помощью параллельного анализа.
Для самопроверки в поле ниже введите количества факторов, выявленных с помощью параллельного анализа.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#9
Постройте две модели ЭФА:
- первая должна содержать столько факторов, сколько предполагает теоретическая модель личностных черт
- вторая должна содержать столько факторов, сколько предполагают результаты параллельного анализа
Сравните полученные решения с точки зрения (a) уникальностей, (б) распределения переменных по фактором (факторных нагрузок), (в) доли объясненной дисперсии.
Описание формата инпута.
Подсказки
- Ожидается, что вопросы, относящиеся теоретически к одному конструкту будут иметь высокие нагрузки на один из факторов, и низкие на все остальные.
- Высокие уникальности свидетельсвуют о том, что переменная плохо объясняется факторами, то есть плохо вписываются в построенную модель.
#10
Постройте две модели КФА, в которых количества факторов соответствует теоретической модели личностных черт. В первой модели используйте метод вращения promax, во второй — oblimin.
Сравните результаты, полученные с помощью наклонных вращений с результатами, полученными в предыдущем задании с точки зрения (a) уникальностей, (б) распределения переменных по фактором (факторных нагрузок), (в) доли объясненной дисперсии.
Описание формата инпута.