10 Однофакторный дисперсионный анализ
Мы разобрались — по крайне мере, в первом приближении — как анализировать связи между количественными переменными. Что же делать, если у нас одна из переменных категориальная?
10.1 Эксперимент
Одна категориальная и одна количественная переменная — это типичнейшая ситуация для эксперимента. Допустим мы изучаем эмоциональные штуки. Нам интересно сравнить скорость распознавания нейтральных и эмоционально окрашенных слов. Мы решили предложить испытуемому задачу лексического решения — предъявляем ему слова и не-слова. Испытуемому необходимо ответить, является ли представленный набор символов словом. Пусть ответ даётся нажатием на клавишу «→», если набор символов является словом, и «←», если таковым не является.
Сколько нам нужно экспериментальных условий? Кажется, что три — нейтральные стимулы, стимулы с положительной валентностью и стимулы с отрицательной валентностью. И пусть у нас три группы испытуемых — каждая группа проходит одно экспериментальное условие. Не-слова будем считать филлерами и не будем анализировать пробы с ними.
Итого,
- ЗП — время реакции
- НП — тип стимула (валентность): три уровня — нейтральные, негативные, позитивные.
Ну, дизайн кратко описан. Предположим, что мы корректно сформировали выборку и собрали некоторые данные. Посмотрим, что в них будет происходить.
10.2 Структура изменчивости данных
Мы говорили, что основные характеристики статистических данных — неопределённость и вариативность. И эта вариативность (изменчивость) имеет определенную структуру.
Мы также говорили, что основная мера вариативности — это дисперсия. Это верно, однако сейчас чуть замедлимся, и сначала поговорим о суммах квадратов. Ну, то же самое, что дисперсия, только на степени свободы пока не делим.
Итак, наши данные выглядят как-то так:
По оси \(x\) наша независимая экспериментальная переменная — категориальная, как можно наблюдать. Видно, что у нас три экспериментальные группы. По оси \(y\) наша зависимая экспериментальная переменная — количественная, как можно наблюдать. Видно, что в каждой группе наблюдений есть какой-то разброс.
Прежде всего, есть общая изменчивость, или общая сумма квадратов (total sum of squares, TSS) которая складывается из [сумм квадратов] отклонений от общего среднего:
\[ \text{TSS} = \sum_{i=1}^n (\overline y - y_i)^2, \quad \text{df}_\text{TSS} = n-1 \]
Есть факторная (объясненная) изменчивость (explained sum of squares, ESS) — это отклонения внутригрупповых средних от общего среднего с учетом количества наблюдений в каждой из групп:
\[ \text{ESS} = \sum_{j=1}^p n_j \cdot (\overline y - \overline y_j)^2, \quad \text{df}_\text{ESS} = p-1 \]
Факторная она, потому что то, что мы называем в эксперименте независимой переменной, в дисперсионном анализе называется фактором. Объясненная, потому что она объясняется действием фактора (независимой переменной).
И есть какая-то изменчивость, которая остается необъясненной — случайная (остаточная) изменчивость (residual sum of squares, RSS):
\[ \text{RSS} = \sum_{j=1}^p \sum_{i=1}^{n_j} (\overline y_j - y_{ji})^2, \quad \text{df}_\text{RSS} = n-p \]
Очевидно, что
\[ \text{TSS} = \text{ESS} + \text{RSS} \]
10.3 Зачем нужен дисперсионный анализ?
Что мы, собственно, выясняем? Вернемся к задумке эксперимента — мы хотим узнать, связана скорость опознания слова с его эмоциональной окраской. Как эта связь будет выглядеть в данных?
- Если связь существует, то объяснённая изменчивость (ESS) будет больше, чем случайная изменчивость (RSS).
- Обратите внимание на рисунок 10.5 (a). Основной вклад в вариативность данных вносит факторная изменчивость — средние по группам сильно отстают от общего среднего, в то время как наблюдения от своих групповых средних лежат в целом достаточно близко.
- Если связь существует, то объяснённая изменчивость (ESS) будет меньше, чем случайная изменчивость (RSS), или же равна её.
- Обратите внимание на рисунок 10.5 (b). Вклад факторной изменчивости в вариативность данных крайне мал — средние по группам очень близки к общему среднему, в то время как отклонения наблюдений от своих групповых средних составляют бо́льшую часть вариативности данных.
То есть, для того, чтобы сделать вывод о том, есть ли связь между фактором и зависимой переменной, нам нужно сопоставить факторную изменчивость и остаточную изменчивость.
Теперь у нас есть все, чтобы поговорить о тестирования статистической значимости фактора. Именно этим и занимается дисперсионный анализ (analysis of variance, ANOVA).
10.4 Тестирование значимости фактора
Поскольку у нас может быть разное количество наблюдений в группах и различное количество групп, лучше сравнивать не саму изменчивость — суммы квадратов — а среднюю изменчивость — средние квадраты. Они вычисляются так:
\[ \text{MS}_\text{t} = \frac{\text{TSS}}{\text{df}_\text{TSS}} = \frac{\sum_{i=1}^n (\overline y - y_i)^2}{n-1} \]
\[ \text{MS}_\text{e} = \frac{\text{ESS}}{\text{df}_\text{ESS}} = \frac{\sum_{j=1}^p n_j \cdot (\overline y - \overline y_i)^2}{p-1} \]
\[ \text{MS}_\text{r} = \frac{\text{RSS}}{\text{df}_\text{RSS}} = \frac{\sum_{j=1}^p \sum_{i=1}^{n_j} (\overline y_j - y_{ij})^2}{n-p} \]
Ну, \(\text{MS}_\text{t}\) легко узнать — это буквально дисперсия, \(\text{MS}_\text{e}\) и \(\text{MS}_\text{r}\) тоже на неё похожи, но их принято называть средними квадратами.
\(\text{MS}_\text{e}\) и \(\text{MS}_\text{r}\) помогают протестировать значимость фактора:
- Если зависимость между фактором и целевой переменной есть, то \(\text{MS}_\text{e} > \text{MS}_\text{r}\)
- Если искомой зависимости нет, то \(\text{MS}_\text{e} \approx \text{MS}_\text{r}\) или даже \(\text{MS}_\text{e} < \text{MS}_\text{r}\).
В терминах статистических гипотез это будет выглядеть так:
\[ \begin{aligned} H_0&: \mu_1 = \mu_2 = \ldots = \mu_p \\ H_1&: \exists i, j : \mu_i \neq \mu_j \end{aligned} \]
Для тестирования этой гипотезы придумали вот такую статистику:
\[ F = \frac{\text{MS}_\text{e}}{\text{MS}_\text{r}} \overset{H_0}{\thicksim} F ( \text{df}_\text{ESS}, \text{df}_\text{RSS} ) \]
10.4.1 Распределение Фишера
Значение F-статистики подчиняется F-распределению (распределению Фишера). Его форма зависит от двух значений степеней свободы — \(\text{df}_\text{ESS}\) (\({df}_\text{e}\)) и \(\text{df}_\text{RSS}\) (\(\text{df}_\text{r}\)).
Как можно заметить, форма достаточно сильно меняется при увеличении первого числа степеней свободы, и не очень сильно, но всё же меняется, с увеличением второго числа степеней свободы.
Не трудно предположить, что для значения F-статистики будет вычисляться p-value, на основании которого будет осуществляться статистический вывод по стандартному алгоритму:
- Если \(\mathsf p < \alpha\), то мы получаем значение F-статистики, не характерное для случая, когда нулевая гипотеза верна, что даёт нам основания отклонить нулевую гипотезу об отсутствии различий между группами и принять альтернативную, о том, что хотя бы между двумя какими-либо группами есть различия.
- Если \(\mathsf p > \alpha\), то мы получаем значение F-статистики, характерное для случая, когда нулевая гипотеза верна, что не даёт нам оснований отклонить нулевую гипотезу об отсутствии различий между группами.
10.4.2 Представление результатов дисперсионного анализа
Результаты дисперсионного анализа обычно представляются в виде таблицы:
| Источник изменчивости | SS | df | MS | F | p |
|---|---|---|---|---|---|
| Фактор (объяснённая) | \(\text{ESS}\) | \(\text{df}_\text{e}\) | \(\text{MS}_\text{e}\) | \(F_\text{obs}\) | \(\mathsf p\) |
| Случайная (остаточная) | \(\text{RSS}\) | \(\text{df}_\text{r}\) | \(\text{MS}_\text{r}\) |
Если используется внутритекстовое описание, то оно оформляется так:
По результатам дисперсионного анализа [не]было обнаружено значимая связь фактора X с зависимой переменной (\(F(\text{df}_\text{e}, \text{df}_\text{r}) = 2.72, p < .001\)).
10.5 Размер эффекта в дисперсионном анализе
Итак, с ошибкой первого рода мы, как обычно, быстро и легко поборолись. Теперь боремся с ошибкой второго рода. Принципиально ничего не меняется — нам нужно понять, как считается размер эффекта, и рассчитать требуемую выборку.
В случае дисперсионного анализа размер эффекта — это доля объясненной фактором дисперсии от всей дисперсии данных. Обозначается эта метрика \(\eta^2\):
\[ \eta^2 = \frac{\text{ESS}}{\text{TSS}} \]
Значения для интерпретации размера эффекта стандартно предлагаются такие:
| Значение \(\eta^2\) | Размер эффекта |
|---|---|
| 0.01 | Малый (small) |
| 0.06 | Средний (medium) |
| 0.14 | Большой (large) |
Собственно, эти значения вбиваем в специально обученное ПО — и кайфуем!
Иногда в ПО для анализа мощности исследования можно встретить другую метрику размера эффекта для дисперсионного анализа — \(f^2\). Она может быть рассчитана на основе \(\eta^2\), если внутри программы не предусмотрен пересчёт:
\[ f^2 = \frac{\eta^2}{1 - \eta^2} \]
10.6 Визуализация результатов дисперсионного анализа
Визуализация результатов в дисперсионном анализе, с одной стороны, достаточно проста. Нам нужно отобразить точечные и интервальные оценки средних в группах, то есть нарисовать errorbar. В качестве интервальной оценки обычно отображается 95% доверительный интервал.
График будет выглядеть примерно так:
Интерпретировать подобные картинки мы уже с вами умеем — если забыли, напоминаю.
Другим вариантом визуализации для дисперсионного анализа, который очень любят за рубежом, являются боксплоты. Вот как-то так:
Я искренне не понимаю, почему они их там так любят, ведь они не отображают ровно ничего, связанного с дисперсионным анализом — вспомните основные элеметы боксплота. Но их любят, их рисуют — ну, ладно. Кто мы такие, чтобы это запрещать.
Конечно, этот график хорош тем, что можно сделать что-то такое — иногда это может быть полезно:
Но можно изобразить комбо! Оно называется violin plot:
С одной стороны, он нам отобразит распределения зависимой переменной по группам, с другой стороны, мы можем дополнительно отобразить средние с доверительными интервалами, как сделано на графике выше. Ну, просто невероятно!
10.7 Условия применения дисперсионного анализа
Как вы уже могли догадаться, дисперсионный анализ относится к группе параметрических статистических методов, поэтому выдвигается ряд требований к данным, на которых проводится такой анализ.
- Количественная непрерывная зависимая переменная
- Независимые между собой выборки
- А если зависимые, то надо это учесть в модели
- Нормальное распределение признака в генеральных совокупностях, из которых извлечены выборки
- Равенство (гомогенность) дисперсий изучаемого признака в генеральных совокупностях, из которых извлечены выборки
- Проверяется с помощью теста Левина
- Симметричное распределение выборочных данных
- Независимые наблюдения в каждой из выборок
10.7.1 Гомогенность дисперсий
Гомогенность дисперсии — важное допущение. Поясним за него.
Как уже отмечено выше, модель дисперсионного анализа предполагает, что в генеральных совокупностях, из которых мы извлекли наши выборки, дисперсии изучаемого признака равны. Однако в силу неопределенности и вариативности это может быть и не так, поэтому нужно протестировать гипотезу о равенстве дисперсий в группах. Алгоритм статистического вывода нам известен, а в детали этого попутного теста мы, пожалуй, погружаться не будем.
Существует нескольок способов сравнить дисперсии в группах, наиболее популярными из которых являются тесты Левена (Leven’s test) и Флигнера-Килина (Fligner–Killeen test).
Соответственно, мы хотим, чтобы его результаты не были статистически значимы, так как в этом случае мы не можем отклонить гипотезу о том, что дисперсии гомогенны. Если же результаты теста статистически значимы, то использование дисперсионного анализа может привести к искаженным результатам.
10.8 Виды эффектов в дисперсионном анализе
Тот вид дисперсионного анализа, который мы рассмотрели — это такой стандартный базовый дисперсионный анализ. Однако давайте пристально посмотрим на один момент:
«пусть у нас три группы испытуемых — каждая группа проходит одно экспериментальное условие».
То есть каждой из экспериментальных групп у нас уникальные испытуемые. Такой эффект фактора в дисперсионном анализе называется between-subject effect, а в терминах эксперименталки это будут независимые выборки.
Но в жизни, как мы знаем, такой экспериментальный дизайн вряд ли адекватен. Скорее, мы бы сделали так, что один испытуемый проходит все три условия — и нейтральное, и негативное, и позитивное. Да ещё и в случайном порядке. У нас получится, что от каждого испытуемого мы получаем три измерения — с нейтрального, негативного и позитивного условия. Такой эффект фактора в дисперсионном анализе называется within-subject effect, сама ANOVA будет дисперсионным анализом с повторными измерениями, а выборки наблюдений буду зависимыми.











