\[ \hat y_i = b_0 + b_1 I, \]
\[ \begin{cases} I = 0 &: \hat y_i = b_0 \\ I = 1 &: \hat y_i = b_0 + b_1 \end{cases} \]
\[ \hat y_i = b_0 + b_1 I_{\text{Gr}_2} + b_2 I_{\text{Gr}_3}, \]
\[ \begin{cases} I_{\text{Gr}_2} = 0 \wedge I_{\text{Gr}_3} = 0 &: \hat y_i = b_0 & (\text{Group 1})\\ I_{\text{Gr}_2} = 1 \wedge I_{\text{Gr}_3} = 0 &: \hat y_i = b_0 + b_1 & (\text{Group 2}) \\ I_{\text{Gr}_2} = 0 \wedge I_{\text{Gr}_3} = 1 &: \hat y_i = b_0 + b_2 & (\text{Group 3}) \end{cases} \]
Группа | \(I_1 = x_1\) | \(I_2 = x_2\) |
---|---|---|
\(\text{Gr}_1\) | 0 | 0 |
\(\text{Gr}_2\) | 1 | 0 |
\(\text{Gr}_3\) | 0 | 1 |
\[ \hat y_i = b_0 + b_1 x_1 + b_2 x_2 \]
\[ \hat y_i = b_0 + b_1 x_1 + b_2 x_2 + \dots + b_{k-1}x_{k-1} \]
Группа | \(x_1\) | \(x_2\) | \(\dots\) | \(x_{k-2}\) | \(x_{k-1}\) |
---|---|---|---|---|---|
\(\text{Gr}_1\) | 0 | 0 | \(\dots\) | 0 | 0 |
\(\text{Gr}_2\) | 1 | 0 | \(\dots\) | 0 | 0 |
\(\text{Gr}_3\) | 0 | 1 | \(\dots\) | 0 | 0 |
\(\vdots\) | \(\vdots\) | \(\vdots\) | \(\ddots\) | \(\vdots\) | \(\vdots\) |
\(\text{Gr}_{k-1}\) | 0 | 0 | \(\dots\) | 1 | 0 |
\(\text{Gr}_k\) | 0 | 0 | \(\dots\) | 0 | 1 |
\[ \cases{ \bar y_{\text{Gr}_1} = b_0 \\ \bar y_{\text{Gr}_2} = b_0 + b_1 \\ \bar y_{\text{Gr}_3} = b_0 + b_2 \\ } \]
\[ \hat y_i = b_0 + b_1 x_1 + b_2 x_2 \]
Gr₃
оказывает равен \(b_0 - b_1 - b_2\)Группа | \(x_1\) | \(x_2\) |
---|---|---|
\(\text{Gr}_1\) | 1 | 0 |
\(\text{Gr}_2\) | 0 | 1 |
\(\text{Gr}_3\) | −1 | −1 |
факторная изменчивость, или объясненная сумма квадратов (explained sum of squares, \(\text{SS}_X\))
\[ \begin{split} \text{TSS} &= \text{SS}_t = \displaystyle \sum_{i=1}^n (\bar y - y_i)^2, \\ \text{ESS} &= \text{SS}_X = \displaystyle \sum_{j=1}^k n_j \cdot (\bar y - \bar y_j)^2, \\ \text{RSS} &= \text{SS}_e = \displaystyle \sum_{j=1}^k \sum_{i=1}^{n_j} (\bar y_j - \bar y_{ji})^2, \end{split} \]
\(n\) — общее количество наблюдений, \(n_j\) — количество наблюдений в конкретной \(j\)-ой группе, \(k\) — количество групп.
\[ \begin{split} H_0&: \mu_0 = \mu_1 = \mu_2 = \ldots = \mu_k \\ H_1&: \exists \, j_1, j_2: \mu_{j_1} \neq \mu_{j_2} \end{split} \]
\[ \begin{split} \text{MS}_t &= \frac{\text{SS}_t}{n-1} = \frac{\text{TSS}}{n-1} = \frac{\sum_{i=1}^n (\bar y - y_i)}{n-1} \\ \text{MS}_X &= \frac{\text{SS}_X}{k-1} = \frac{\text{ESS}}{k-1} = \frac{n_j \cdot \sum_{j=1}^k (\bar y - \bar y_j)}{k-1} \\ \text{MS}_e &= \frac{\text{SS}_e}{n-k} = \frac{\text{RSS}}{n-k} = \frac{\sum_{j=1}^k \sum_{i=1}^{n_j} (\bar y_j - \bar y_{ji})}{n-k} \end{split} \]
\[ F = \frac{\text{MS}_X}{\text{MS}_e} \overset{H_0}{\thicksim} F(\text{df}_{\text{MS}_X}, \text{df}_{\text{MS}_e}) \]
Если
а если
Размер эффекта — это доля объясненной фактором дисперсии от всей дисперсии данных
\[ \eta^2 = \frac{\text{ESS}}{\text{TSS}} = \frac{\text{SS}_X}{\text{SS}_e} \]
Значение \(\eta^2\) | Размер эффекта |
---|---|
\(0.01\) | Малый (small) |
\(0.06\) | Средний (medium) |
\(0.14\) | Большой (large) |
\[ \begin{split} H_0 &: \mu_1 = \mu_2 \\ H_1 &: \mu_1 \neq \mu_2 \end{split} \]
\[ t = \frac{\bar X_1 - \bar X_2}{\displaystyle \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \overset{H_0}{\thicksim} t(\text{df}), \]
Итого,
Если категориальная переменная задаёт только две группы, можно и нужно ли в этом случае использовать дисперсионный анализ или достаточно только t-теста?
Более того:
\[ F = t^2 \]
Смешанный экспериментальный план — и межгрупповые, и внутригрупповые переменные
Связь есть:
Связи нет:
Взаимодействие факторов говорит о том, что один фактор влияет на целевую переменную по-разному в зависимости от уровня второго фактора.
При планировании исследования сразу подумайте, как вы будете анализировать данные — что будет входить в модель в качестве основных предикторов, что в качестве ковариат, и какие взаимодействия в ней будут.
\[ \eta^2_p = \frac{\text{SS}_X}{\text{SS}_X + \text{SS}_e} \]
Пусть есть ситуация исследования в области образования
Нас не интересуют различия между группами \(\text{L}\) и \(\text{G}\) — обе эти группы выступают как контрольные.
Интересно различие между группами \(\text{C}\) и \(\text{L+G}\).
Для этого существуют контрасты.
\[ \begin{split} H_0 &: \mu_{\text{C}} = \mu_{\text{L+G}} \\ H_0 &: \mu_{\text{C}} \neq \mu_{\text{L+G}} \end{split} \]
\[ F = \frac{\text{MS}_\text{cont}}{\text{MS}_e}, \]
\[ \text{SS}_e = \displaystyle \sum_{j = \text{\{L,G,C\}}} \sum_{i=1}^{n_j} (\bar y_j - \bar y_{ji}), \]
\[ \text{MS}_\text{cont} = \frac{\text{SS}_\text{cont}}{\text{df}_\text{cont}} \]
\[ \text{df}_\text{cont} = 2-1 = 1 \]
\[ \begin{split} \text{SS}_\text{cont} & = \displaystyle \sum_{j=\{\text{C, L+G}\}} n_j \cdot (\bar y - \bar y_j)^2 = \\ & = n_\text{C} \cdot (\bar y - \bar y_\text{C})^2 + n_\text{L+G} \cdot (\bar y - \bar y_\text{L+G})^2 = \\ &= n_\text{C} \cdot (\bar y - \bar y_\text{C})^2 + (n_\text{L} + n_\text{G}) \cdot \left(\bar y - \frac{\bar y_\text{L} + \bar y_\text{G}}{2} \right)^2 \end{split} \]
\[ \begin{split} H_0 &: \mu_{\text{C}} = \mu_{\text{G}} \\ H_0 &: \mu_{\text{C}} \neq \mu_{\text{G}} \end{split} \]
\[ F = \frac{\text{MS}_\text{cont}}{\text{MS}_e}, \]
\[ \text{SS}_e = \displaystyle \sum_{j = \text{\{L,G,C\}}} \sum_{i=1}^{n_j} (\bar y_j - \bar y_{ji}), \]
\[ \text{MS}_\text{cont} = \frac{\text{SS}_\text{cont}}{\text{df}_\text{cont}} \]
\[ \begin{split} \text{SS}_\text{cont} & = \displaystyle \sum_{j=\{\text{C,G}\}} n_j \cdot (\bar y - \bar y_j)^2 = \\ & = n_\text{C} \cdot (\bar y - \bar y_\text{C})^2 + n_\text{G} \cdot (\bar y - \bar y_\text{G})^2 \end{split} \]
\[ \hat y_i = b_0 + b_1 I + b_2 x_2 = b_0 + b_1 x_1 + b_2 x_2 \]
Антон Ангельгардт
WLM 2023