HW10 // Дисперсионный анализ. Ковариационный анализ

Основные задания

Данные поведенческого эксперимента

Сегодня в нашем меню данные эксперимента, проведенного на благо юзабилити-индустрии.В исследовании изучалось влияние перцептивных характеристик иконок на эффективность их обнаружения. Да, снова зрительный поиск…

В эксперименте варьировались следующие параметры стимулов:

  • тип стимула (type): flat — плоский, grad — содержит градиент
  • тень (shadow): TRUE — есть, FALSE — нет

Также традиционно варьировалось число стимулов в пробе (setsize) — 3, 6, 9. Перед каждой пробой испытуемому предъявлялась целевая иконка. Если испытуемый нашёл целевую иконку среди всех предложенных, он нажимал (key) стрелку вправо (right), если не обнаружил — стрелку слево (left). Так как ответ давался клавишами, в дизайне исследования были предусмотрены «пробы-ловушки» (pres), в которых не было целевого стимула. Пробы, в которых целевой стимул присутствовал, обозначены как p, а пробы, в которых целевой стимул отсутствовал — a.

Все испытуемые проходили все экспериментальные условия. Зависимой переменной в эксперимента было время ответа испытуемого (время реакции, time).

Глобальный вопрос к результатам эксперимента: какие факторы влияют на скорость поиска иконок?

#1

  1. Загрузите данные, проверьте их структуру.
  2. Отберите только корректные пробы, в которых присутствует целевой стимул.

В качестве ответа для самопроверки введите число строк в получившемся после отбора необходимых проб датасете.

#2

  1. Приведите переменную setsize к факторному типу данных и агрегируйте (усредните) данные по каждому респонденту с учетом всех экспериментальных условий.
  2. Проверьте, что данные эксперимента сбалансированы по количесву наблюдений в каждом сочетании условий.

В качестве ответа для самопроверки если данные сбалансированы, введите в поле ответа да, если не сбалансированы, введите нет.

Подсказки
Как агрегировать данные?
  • Чтобы получить агререгированные данные, необходимо посчитать среднее значение времени реакции каждого испытуемого в каждом сочетании экспериментальных условий.
  • Для этого необходимо задать группировку датасета по экспериментальным переменным (type, shadow, setsize) и идентификатору испытуемого (id). Здесь пригодится либо функция group_by(), либо аргумент .by функции summarise().
  • Далее нужно вычислить среднее (mean()) по переменной time.
Как проверить сбалансированность?
  • Чтобы выяснить, сбаласированы ли данные, необходимо посчитать количество наблюдений в каждом сочетании экспериментальных условий в агрегированных данных.
  • Для этого необходимо задать группировку датасета по экспериментальным переменным (type, shadow, setsize). Здесь пригодится либо функция group_by(), либо аргумент .by функции summarise().
  • Далее нужно вычислить количество наблюдений в группах (n()).
Ответ неверный
  • Проверьте группировку в агрегации данных.
  • Проверьте группировку в оценке сбалансированности данных.

#3

Проведите дисперсионный анализ экспериментальных данных. В качестве факторов модели используйте переменные setsize, type и shadow. В качестве зависимой переменной используйте время реакции. Модель дисперсионного анализа должна быть согласована с экспериментальным дизайном. Проинтерпретируйте результаты. При необходимости проверите попарные сравнения (post hoc тесты).

В качетсве ответа для самопроверки в поле ниже введите значение F-статистики, полученные для фактора shadow, округленное до сотых. В качестве десятичного разделителя используйте точку.

Подсказки
Какая должна быть модель?
  • В описании данных сказано, что все испытуемые проходили все экспериментальные условия.
  • Значит, все экспериментальные переменные являются внутригрупповыми.
  • Следовательно, в модели дисперсионного анализа эти переменные должны задачать within-subject эффекты.
Какие попарные сравнения нужны?
  • Какие группы наблюдений мы будем сравнивать в post hoc тестах зависит от того, что получилось в дисперсионном анализе:
    • если получилось значимое взаимодействие, то и в попарных сравнениях нас интересуют, прежде всего, различия между группами по сочетаниям условий.
    • если значимым получились только основные эффекты, то и в попарных сравнениях мы будем изучать различия по группам, задаваемым отдельными факторами.
  • Если результаты дисперсионного анализа показывают отсутствие значимости всех факторов, то попарные сравнения бессмысленны.
Какую поправку использовать?
  • Если вам всё же необходимы post hoc тесты, то нельзя обойтись без поправки на множественные сравнения.
  • Основных варианта два — поправка Холма и поправко Бонферрони. Одна более мягкая, другая более жесткая.
  • Какую нужно использовать, зависит от выполнения допущения о сферичности данных. Если допущение по фактору выполнено, то можно использовать более мягкую, если не выполнено — необходима более жесткая.
Ответ неверный

#4

Визуализируйте результаты дисперсионного анализа.

#5

Экспортируйте таблицу с результатами дисперсионного анализа.

Подсказки
  • Способ экспорта таблицы в результатами зависит от того, с помошью какой функции вы проводили дисперсионный анализ:
    • если использовалась aov(), то необходима функция apa.aov.table() из пакета apaTables
    • если использовалась ezANOVA() из пакета ez, то необхоимо обратить к результатам работы функции, извлечь из них объект ANOVA и выгрузить его, например, с помощью функции write_excel_csv() (для более простого преобразования в Excel-формат далее).
Данные приложения доставки

Теперь немного коснемся индустрии. Из исследователя ученого мы резко преобразовались в исследователя-аналитика компании доставки продуктов. Разработчики сделали новый — по их мнению, более удобный — дизайн приложения для заказов и выкатили его для тестирования на части пользователей. Другая часть пользователей видела старый дизайн.

У вас есть данные за период тестирования:

  • id — идентификатор пользователя
  • group — группа пользователей:
    • test — тестовая, которая видела новый дизайн
    • control — контрольная, которая видела старый дизайн
  • segment — сегмент пользователей:
    • low — низкий, неактивные пользователя приложения, совершают мало заказов
    • high — высокий, активные пользователя приложения, совершают много заказов
  • order — количество заказов пользователя в течение периода тестирования

Тимлид разработчиков пришел к вам со следующим вопросом: стоит ли выкатывать новый дизайн на всех пользователей? Ответьте на вопрос, опираясь на имеющиеся данные.

#6

  1. Загрузите данные, проверьте их структуру.
  2. Проверьте сбалансированность данных по количеству наблюдений в каждом сочетании условий.

#7

На основе результатов предыдущего задания определите, какой тип сумм квадратов необходимо использовать при проверки гипотез для ответов на вопросы заказчика.

Задание не предполагает написание кода. В скрипте кратко изложите ход своего рассуждения и закомментируйте эти строки.

Подсказки
  • Всего возможно три типа сумм квадратов — I, II и III.
  • У первого типа сумм квадратов есть неприятная особенность.
  • Использование второго и третьего сумм квадратов определяется сбалансированностью данных.

#8

Постройте линейную модель, которая позволит ответить на поставленный тимлидом разработчиков вопрос, в необходимой параметризации.

В качестве ответа для самопроверки в поле ниже введите значение интерсепта построенной модели, округленное до сотых. В качестве десятичного разделителя используйте точку.

Подсказки
  • Способ параметризации модели зависит от выбранного типа сумм квадратов
    • в одном случае способ параметризации не имеет значения
    • в другом необходим только определенный способ параметризации, иначе результаты тестирования гипотез будут некорректны
  • Так как значение интерсепта модели будет зависеть от выбранного способа параметризации, ошибка при самопроверки может быть связана с неверно выбранной парамтеризацией модели.

#9

Проведите дисперсионный анализ с помощью построенной в предыдущем задании модели. Проинтерпретируйте полученные результаты.

В качетсве ответа для самопроверки в поле ниже введите значение F-статистики, полученное для фактора group, округленное до целого.

Подсказки
Тестирование с помощью конкретного типа сумм квадратов
  • Большинство функций дисперсионного анализа работают со вторм типом сумм квадратов.
  • Функция Anova() из пакета car позволяет прописать в аргумент type, какой именно тип сумм квадратов необходимо использовать.
Ответ неверный
  • Проверьте способ параметризации модели
  • Проверье используемый тип сумм квадратов
  • Проверьте округление — значение необходимо округлить до целого

#10

  1. Визуализируйте результаты анализа.
  2. На основе визуализации дайте ответ на вопрос тимлида разработчиков.

Дополнительные задания

Продолжим погружать в фонетические данные

На практике мы работали с данными о гласных русского языка.

Мы изучали, как различается длительность гласных в зависимости от ступени редукции и позиции в слове. Однако редукция влияет не только длительность гласных но и на их спектральный (частотный) состав. Давайте посмотрим, различаются ли частотные характеристики отдельных гласных в зависимости от ступени редукции.

Нас будут интересовать следующие переменные:

  • phoneme — обозначение фонемы
    • к нередуцированным гласным относятся o, i, a, u, e, ɨ
    • к первой ступении — ɐ, ɪ, ʊ, ɨ̞
    • ко второй ступении — ə̝,ə, əᶷ
  • f1 — частота первой форманты
  • f2 — частота второй форманты

Когда-то в домашке по визуализации в одном из дополнительных заданий надо было нарисовать такую картинку, которая отображает вокалической пространство русского языка:

Но будем решать задачу постепенно.

#1

Загрузите данные, приведите переменную phoneme к факторному типу данных.

#2

Чтобы модели не были чрезмерно сложны, возьмем для сравнения только нередуцированные гласные и гласные первой ступени редукции. Нас будут интересовать следующие контрасты:

  • i vs ɪ
  • e vs ɪ
  • a vs ɐ
  • o vs ɐ
  • u vs ʊ

Создайте матрицу кодировки для этих контрастов.

#3

Протестируйте гипотезы о различии частотных характеристик первой форманты (f1) по заданным контрастам. Проинтерпретируйте полученные результаты.

#4

Протестируйте гипотезы о различии частотных характеристик второй форманты (f2) по заданным контрастам. Проинтерпретируйте полученные результаты.

#5

Визуализируйте полученные результаты. Постройте график, представленный ниже.