HW15 // Анализ главных компонент. Эксплораторный факторный анализ

Основные задания

Данные

Сегодня мы работаем с датасетом по Большой пятерке (Big Five). Вспомнить структуру модели можно тут.

Данные собирались с помощью опросника Big-Five Factor Markers. На измерение каждого фактора в опроснике отведено по десять утверждений — с этими переменными мы будем работать:

  • EXT1EXT10 — extraversion
  • EST1EST10 — neuroticism (emotional stability)
  • AGR1AGR10 — agreeableness
  • CSN1CSN10 — conscientiousness
  • OPN1OPN10 — openness

Подробное описание датасета можно найти в этом файле.

Оригинальный датасет содержит 1 015 342 наблюдения — это очень много, возможно, не хватит оперативной памяти, поэтому мы будем работать с его частью.

#1

  1. Загрузите данные. Проверьте их структуру и типы переменных.
  2. При необходимости скорректируйте типы переменных.
  3. Если в данных есть пропущенные значения или они возникли в ходе предобработки, удалите их из датасета.

Для самопроверки в поле ниже введите количество строк в датасете, получившемся после предобработки (корректировки типов переменных и удаления пропущенных значений).

Подсказки
  • Обратите внимание на структуру файла с данными, в особенности на разделитель колонок, который в нем используется.
  • При предобработке данных может пригодится функция across(), которая позволяет выделить колонки, по которым необходимо провести предобработку.
  • Возможно, полезно будет вспомнить регулярные выражения для отбора необходимых колонок.

#2

  1. Отберите переменные для анализ — пункты опросника (EXT1EXT10, EST1EST10, AGR1AGR10, CSN1CSN10, OPN1OPN10).
  2. Постройте и визуализируйте корреляционную матрицу по отобранным переменным.

Есть ли нечто странное в данных?

Подсказки
  • Обратите внимание на силу корреляций, а также на их направление.
  • С чем это может быть связано, если мы предполагаем, что опросник хорошо сконструирован и его психометрические показали достаточно высокие?

#3

Скорректируйте странности, обнаруженные по корреляционной матрице.

Вероятно, поможет матрица направлений вопросов.

Подсказки

Подойти к задаче перекодировки можно следующим образом:

  • Загрузить матрицу направлений вопросов
  • Объединить направления и баллы по соответствующим вопросам
  • Максимальный возможный балл по одному вопросу — 6
    • Если вопрос обратный, то необходимо из 6 вычесть балл респондента
    • Если вопрос прямой, оставить кодировку без изменений
  • В ходе преобразований для объединения тибблов потребуется перевести из в длинных формат, а затем итоговый датасет вновь перевести в широкий формат, чтобы функции работали на нем корректно.

#4

Выполните анализ главных компонент на имеющихся данных. Стандартизируйте переменные перед проведением анализа.

#5

Постройте график, отображающий информативность главных компонент.

Сколько получается главных компонент, согласно критерию информативности?

Для самопроверки в поле ниже введите число информативных главных компонент.

Подсказки
  • В качестве меры информативности главной компоненты используйте стандартное отклонение по ней.
  • Главная компонента считается неинформативной, если её дисперсии меньше дисперсии исходных переменных.

#6

Постройте график, отображающий накопленную долю объясненной главными компонентами дисперсии данных.

Сколько главных компонент достаточно для объяснения 80% дисперсии данных?

Для самопроверки в поле ниже введите число главных компонент, достаточное для объяснения 80% дисперсии данных.

#7

Проверьте с помощью критерия сферичности Бартлетта и меры Кайзер-Мейера-Олкина (КМО), насколько имеющиеся данные подходят для эксплораторного факторного анализа.

Для самопроверки в поле ниже введите через запятую значение статистики критерия сферичности Бартлетта и значение меры КМО (overall), округленные до десятых. В качестве десятичного разделителя используйте точку.

#8

Выясните, сколько факторов присутствует в латентной структуре данных, с помощью параллельного анализа.

Для самопроверки в поле ниже введите количества факторов, выявленных с помощью параллельного анализа.

#9

Постройте две модели ЭФА:

  • первая должна содержать столько факторов, сколько предполагает теоретическая модель личностных черт
  • вторая должна содержать столько факторов, сколько предполагают результаты параллельного анализа

Сравните полученные решения с точки зрения (a) уникальностей, (б) распределения переменных по фактором (факторных нагрузок), (в) доли объясненной дисперсии.

Подсказки
  • Ожидается, что вопросы, относящиеся теоретически к одному конструкту будут иметь высокие нагрузки на один из факторов, и низкие на все остальные.
  • Высокие уникальности свидетельсвуют о том, что переменная плохо объясняется факторами, то есть плохо вписываются в построенную модель.

#10

Постройте две модели КФА, в которых количества факторов соответствует теоретической модели личностных черт. В первой модели используйте метод вращения promax, во второй — oblimin.

Сравните результаты, полученные с помощью наклонных вращений с результатами, полученными в предыдущем задании с точки зрения (a) уникальностей, (б) распределения переменных по фактором (факторных нагрузок), (в) доли объясненной дисперсии.