HW10 // Дисперсионный анализ. Ковариационный анализ
Основные задания
Сегодня в нашем меню данные эксперимента, проведенного на благо юзабилити-индустрии.В исследовании изучалось влияние перцептивных характеристик иконок на эффективность их обнаружения. Да, снова зрительный поиск…
В эксперименте варьировались следующие параметры стимулов:
- тип стимула (
type
):flat
— плоский,grad
— содержит градиент - тень (
shadow
):TRUE
— есть,FALSE
— нет
Также традиционно варьировалось число стимулов в пробе (setsize
) — 3
, 6
, 9
. Перед каждой пробой испытуемому предъявлялась целевая иконка. Если испытуемый нашёл целевую иконку среди всех предложенных, он нажимал (key
) стрелку вправо (right
), если не обнаружил — стрелку слево (left
). Так как ответ давался клавишами, в дизайне исследования были предусмотрены «пробы-ловушки» (pres
), в которых не было целевого стимула. Пробы, в которых целевой стимул присутствовал, обозначены как p
, а пробы, в которых целевой стимул отсутствовал — a
.
Все испытуемые проходили все экспериментальные условия. Зависимой переменной в эксперимента было время ответа испытуемого (время реакции, time
).
Глобальный вопрос к результатам эксперимента: какие факторы влияют на скорость поиска иконок?
#1
- Загрузите данные, проверьте их структуру.
- Отберите только корректные пробы, в которых присутствует целевой стимул.
В качестве ответа для самопроверки введите число строк в получившемся после отбора необходимых проб датасете.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#2
- Приведите переменную
setsize
к факторному типу данных и агрегируйте (усредните) данные по каждому респонденту с учетом всех экспериментальных условий. - Проверьте, что данные эксперимента сбалансированы по количесву наблюдений в каждом сочетании условий.
В качестве ответа для самопроверки если данные сбалансированы, введите в поле ответа да
, если не сбалансированы, введите нет
.
Подсказки
Как агрегировать данные?
- Чтобы получить агререгированные данные, необходимо посчитать среднее значение времени реакции каждого испытуемого в каждом сочетании экспериментальных условий.
- Для этого необходимо задать группировку датасета по экспериментальным переменным (
type
,shadow
,setsize
) и идентификатору испытуемого (id
). Здесь пригодится либо функцияgroup_by()
, либо аргумент.by
функцииsummarise()
. - Далее нужно вычислить среднее (
mean()
) по переменнойtime
.
Как проверить сбалансированность?
- Чтобы выяснить, сбаласированы ли данные, необходимо посчитать количество наблюдений в каждом сочетании экспериментальных условий в агрегированных данных.
- Для этого необходимо задать группировку датасета по экспериментальным переменным (
type
,shadow
,setsize
). Здесь пригодится либо функцияgroup_by()
, либо аргумент.by
функцииsummarise()
. - Далее нужно вычислить количество наблюдений в группах (
n()
).
Ответ неверный
- Проверьте группировку в агрегации данных.
- Проверьте группировку в оценке сбалансированности данных.
#3
Проведите дисперсионный анализ экспериментальных данных. В качестве факторов модели используйте переменные setsize
, type
и shadow
. В качестве зависимой переменной используйте время реакции. Модель дисперсионного анализа должна быть согласована с экспериментальным дизайном. Проинтерпретируйте результаты. При необходимости проверите попарные сравнения (post hoc тесты).
В качетсве ответа для самопроверки в поле ниже введите значение F-статистики, полученные для фактора shadow
, округленное до сотых. В качестве десятичного разделителя используйте точку.
Подсказки
Какая должна быть модель?
- В описании данных сказано, что все испытуемые проходили все экспериментальные условия.
- Значит, все экспериментальные переменные являются внутригрупповыми.
- Следовательно, в модели дисперсионного анализа эти переменные должны задачать within-subject эффекты.
Какие попарные сравнения нужны?
- Какие группы наблюдений мы будем сравнивать в post hoc тестах зависит от того, что получилось в дисперсионном анализе:
- если получилось значимое взаимодействие, то и в попарных сравнениях нас интересуют, прежде всего, различия между группами по сочетаниям условий.
- если значимым получились только основные эффекты, то и в попарных сравнениях мы будем изучать различия по группам, задаваемым отдельными факторами.
- Если результаты дисперсионного анализа показывают отсутствие значимости всех факторов, то попарные сравнения бессмысленны.
Какую поправку использовать?
- Если вам всё же необходимы post hoc тесты, то нельзя обойтись без поправки на множественные сравнения.
- Основных варианта два — поправка Холма и поправко Бонферрони. Одна более мягкая, другая более жесткая.
- Какую нужно использовать, зависит от выполнения допущения о сферичности данных. Если допущение по фактору выполнено, то можно использовать более мягкую, если не выполнено — необходима более жесткая.
Ответ неверный
#4
Визуализируйте результаты дисперсионного анализа.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#5
Экспортируйте таблицу с результатами дисперсионного анализа.
Описание инпута.
Подсказки
- Способ экспорта таблицы в результатами зависит от того, с помошью какой функции вы проводили дисперсионный анализ:
- если использовалась
aov()
, то необходима функцияapa.aov.table()
из пакетаapaTables
- если использовалась
ezANOVA()
из пакетаez
, то необхоимо обратить к результатам работы функции, извлечь из них объектANOVA
и выгрузить его, например, с помощью функцииwrite_excel_csv()
(для более простого преобразования в Excel-формат далее).
- если использовалась
Теперь немного коснемся индустрии. Из исследователя ученого мы резко преобразовались в исследователя-аналитика компании доставки продуктов. Разработчики сделали новый — по их мнению, более удобный — дизайн приложения для заказов и выкатили его для тестирования на части пользователей. Другая часть пользователей видела старый дизайн.
У вас есть данные за период тестирования:
id
— идентификатор пользователяgroup
— группа пользователей:test
— тестовая, которая видела новый дизайнcontrol
— контрольная, которая видела старый дизайн
segment
— сегмент пользователей:low
— низкий, неактивные пользователя приложения, совершают мало заказовhigh
— высокий, активные пользователя приложения, совершают много заказов
order
— количество заказов пользователя в течение периода тестирования
Тимлид разработчиков пришел к вам со следующим вопросом: стоит ли выкатывать новый дизайн на всех пользователей? Ответьте на вопрос, опираясь на имеющиеся данные.
#6
- Загрузите данные, проверьте их структуру.
- Проверьте сбалансированность данных по количеству наблюдений в каждом сочетании условий.
В качестве ответа для самопроверки если данные сбалансированы, введите в поле ответа да
, если не сбалансированы, введите нет
.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#7
На основе результатов предыдущего задания определите, какой тип сумм квадратов необходимо использовать при проверки гипотез для ответов на вопросы заказчика.
Задание не предполагает написание кода. В скрипте кратко изложите ход своего рассуждения и закомментируйте эти строки.
Описание формата инпута.
Подсказки
- Всего возможно три типа сумм квадратов — I, II и III.
- У первого типа сумм квадратов есть неприятная особенность.
- Использование второго и третьего сумм квадратов определяется сбалансированностью данных.
#8
Постройте линейную модель, которая позволит ответить на поставленный тимлидом разработчиков вопрос, в необходимой параметризации.
В качестве ответа для самопроверки в поле ниже введите значение интерсепта построенной модели, округленное до сотых. В качестве десятичного разделителя используйте точку.
Подсказки
- Способ параметризации модели зависит от выбранного типа сумм квадратов
- в одном случае способ параметризации не имеет значения
- в другом необходим только определенный способ параметризации, иначе результаты тестирования гипотез будут некорректны
- Так как значение интерсепта модели будет зависеть от выбранного способа параметризации, ошибка при самопроверки может быть связана с неверно выбранной парамтеризацией модели.
#9
Проведите дисперсионный анализ с помощью построенной в предыдущем задании модели. Проинтерпретируйте полученные результаты.
В качетсве ответа для самопроверки в поле ниже введите значение F-статистики, полученное для фактора group
, округленное до целого.
Подсказки
Тестирование с помощью конкретного типа сумм квадратов
- Большинство функций дисперсионного анализа работают со вторм типом сумм квадратов.
- Функция
Anova()
из пакетаcar
позволяет прописать в аргументtype
, какой именно тип сумм квадратов необходимо использовать.
Ответ неверный
- Проверьте способ параметризации модели
- Проверье используемый тип сумм квадратов
- Проверьте округление — значение необходимо округлить до целого
#10
- Визуализируйте результаты анализа.
- На основе визуализации дайте ответ на вопрос тимлида разработчиков.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
Дополнительные задания
На практике мы работали с данными о гласных русского языка.
Мы изучали, как различается длительность гласных в зависимости от ступени редукции и позиции в слове. Однако редукция влияет не только длительность гласных но и на их спектральный (частотный) состав. Давайте посмотрим, различаются ли частотные характеристики отдельных гласных в зависимости от ступени редукции.
Нас будут интересовать следующие переменные:
phoneme
— обозначение фонемы- к нередуцированным гласным относятся
o
,i
,a
,u
,e
,ɨ
- к первой ступении —
ɐ
,ɪ
,ʊ
,ɨ̞
- ко второй ступении —
ə̝
,ə
,əᶷ
- к нередуцированным гласным относятся
f1
— частота первой формантыf2
— частота второй форманты
Когда-то в домашке по визуализации в одном из дополнительных заданий надо было нарисовать такую картинку, которая отображает вокалической пространство русского языка:
Но будем решать задачу постепенно.
#1
Загрузите данные, приведите переменную phoneme
к факторному типу данных.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#2
Чтобы модели не были чрезмерно сложны, возьмем для сравнения только нередуцированные гласные и гласные первой ступени редукции. Нас будут интересовать следующие контрасты:
i
vsɪ
e
vsɪ
a
vsɐ
o
vsɐ
u
vsʊ
Создайте матрицу кодировки для этих контрастов.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#3
Протестируйте гипотезы о различии частотных характеристик первой форманты (f1
) по заданным контрастам. Проинтерпретируйте полученные результаты.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#4
Протестируйте гипотезы о различии частотных характеристик второй форманты (f2
) по заданным контрастам. Проинтерпретируйте полученные результаты.
Описание формата инпута.
Подсказки
Как делать задание?
Что надо сделать?
Ответ неверный
#5
Визуализируйте полученные результаты. Постройте график, представленный ниже.
Описание формата инпута.