\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p + \varepsilon \]
\[ \varepsilon \thicksim N (0, \sigma^2) \]
\[ y \thicksim N (\mu, \sigma^2) \]
функция связи (link function)
\(y \thicksim f(y|\theta)\), \(\theta\) — параметр(ы) распределения
хотим моделировать \(\mathbb{E}(y)\)
преобразование (функция) \(g \big( \mathbb{E}(y) \big) = \eta\), линеаризующее матожидание — функция связи
линейная величина \(\eta\)
\[ \eta_i = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p + \varepsilon \]
Обобщенные линейные модели (generalized linear models, GLM)
\[ g \big( \mathbb{E}(y_i) \big) = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \varepsilon_i \]
\[ g \big( \mathbb{E}(y_i) \big) = \mu_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \varepsilon_i \]
\[ \mathbb{P}(X = k) = C_n^k \, p^k \, q^{n-k} \]
\(\mathbb{P}(X = k) \thicksim \text{Bin}(n, p)\)
\[ y = \frac{e^x}{1 + e^x} \]
\[ \mathbb{P}(Y=1|x_i) = p_i = \frac{e^{ \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots \beta_p x_{ip}} } {1 + e^{ \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots \beta_p x_{ip}} } \]
Шанс (отношение шансов, odds, odds ratio) — это отношение вероятности «успеха» (\(1\)) к вероятности «неудачи» (\(0\))
\[ \text{odds}_i = \frac{\mathbb{P}(Y=1|x_i)}{1 - \mathbb{P}(Y=1|x_i)} = \frac{p_i}{1 - p_i} \]
\[ \text{logit}(p_i) = \ln \left(\frac{p_i}{1 - p_i} \right) \]
\[ p_i = \frac{e^{\beta_0 + \beta_1 x_{i1}}} {1 + e^{\beta_0 + \beta_1 x_{i1}}} \]
\[ \beta_0 + \beta_1 x_{i1} = t_i \]
\[ \text{logit} (p_i) = \ln \left(\frac{p_i}{1 - p_i} \right) \]
\[ \ln \left(\frac{p_i}{1 - p_i} \right)\overset{\text ?}{=} t_i \]
\[ \begin{split} \ln \left(\frac{p}{1-p} \right)&= \\ &= \ln \left(\frac{\frac{e^t}{1 + e^t}}{1 - \frac{e^t}{1 + e^t}} \right)= \\ &= \ln \left(\frac{e^t}{1 + e^t} \right)- \ln \left(1 - \frac{e^t}{1 + e^t} \right)= \\ &= \ln \left(\frac{e^t}{1 + e^t} \right)- \ln \left(\frac{1 + e^t - e^t}{1 + e^t} \right)= \\ &= \ln \left(\frac{e^t}{1 + e^t} \right)- \ln \left(\frac{1}{1 + e^t} \right)= \\ &= \ln (e^t) - \ln (1 + e^t) - \big(\ln (1) - \ln (1+e^t)\big) = \\ &= \ln (e^t) - \ln (1) = \\ &= \ln (e^t) = t \end{split} \]
\[ p_i = \frac{e^{\beta_0 + \beta_1 x_{i1}}} {1 + e^{\beta_0 + \beta_1 x_{i1}}} \]
\[ \text{logit} (p_i) = \ln \left(\frac{p_i}{1 - p_i} \right)= \eta_i \]
\[ \eta_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} \]
\[ p_i = \frac{e^{\eta_i}}{1 + e^{\eta_i}} \]
Правдоподобие (likelihood) — это способ измерить соответствие имеющихся данных тому, что можно получить при определенных значениях параметров модели.
\[ L(\theta|\text{data}) = \prod_{i=1}^n f(\text{data}|\theta), \]
где \(f(\text{data}|\theta)\) — функция распределения с параметрами \(\theta\).
Задача идентификации модели решается максимизацией функции правдоподобия по параметрам модели
\[ L(\theta|\text{data}) \to \max_{\mathbf{b}} \]
\[ \ln \big( L(\theta | \text{data}) \big) \to \max_{\mathbf{b}} \]
\[ \begin{split} & \ln L_\text{sat} = 0 \\ & \text{df}_\text{sat} = n - p_\text{sat} = n - n = 0 \end{split} \]
\[ \begin{split} & \eta_i = \beta_0 \\ & \ln L_\text{null} \neq 0, \; \ln L_\text{null} \to -\infty \\ & \text{df}_\text{null} = n - p_\text{null} = n - 1 \end{split} \]
\[ \begin{split} & \eta_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} \\ & \ln L_\text{model} \neq 0 \\ & \text{df}_\text{model} = n - p_\text{model} \end{split} \]
Девианса является мерой различия правдоподобий двух моделей (оценка разницы логарифмов правдоподобий)
\[ \begin{split} d_\text{null} - d_\text{resid} &= \\ &= -2 (\ln L_\text{null} - \ln L_\text{model}) = \\ &= 2 (\ln L_\text{model} - \ln L_\text{null}) = \\ &= 2 \ln \left(\frac{L_\text{model}}{L_\text{null}} \right) \end{split} \]
\[ \text{LRT} = 2 \ln \left(\frac{L_\text{M1}}{L_\text{M2}} \right)= 2 (\ln L_\text{M1} - \ln L_\text{M2}), \]
Распределение разницы логарифмов правдоподобий аппроксимируется распределением \(\chi^2\) со степенями свободы \(\text{df} = \text{df}_\text{M2} - \text{df}_\text{M1}\).
\[ \begin{split} & \text{LRT} = 2 \ln \left(\frac{L_\text{model}}{L_\text{null}} \right)= 2 (\ln L_\text{model} - \ln L_\text{null}) = d_\text{null} - d_\text{model} \\ & \text{df} = p_\text{model} - 1 \end{split} \]
\[ \begin{split} & \text{LRT} = 2 \ln \left(\frac{L_\text{model}}{L_\text{reduced}} \right)= 2 (\ln L_\text{model} - \ln L_\text{reduced}) \\ & \text{df} = p_\text{model} - p_\text{reduced} \end{split} \]
\[ \frac{d_\text{null} - d_\text{residual}}{d_\text{null}} \]
\[ \begin{split} & \mathbb{E}(X) = np \\ & \text{var}(X) = np(p-1) \end{split} \]
Если обнаруживается свердисперсия, то мы не можем гарантировать, что закономерность смоделирована точно.
\[ \begin{split} H_0 &: \beta_k = 0 \\ H_1 &: \beta_k \neq 0 \end{split} \]
\[ z = \frac{b_k - \beta_k}{\text{se}_{b_k}} = \frac{b_k}{\text{se}_{b_k}} \thicksim N(0, 1) \]
\[ \eta_i = \hat \beta_0 + \hat \beta_1 x_{i1} + \hat \beta_2 x_{i2} + \dots + \hat \beta_p x_{ip} \]
\[ \eta = b_0 + b_1 x \]
\[ \eta = \ln \left(\frac{p}{1-p} \right)= \ln (\text{odds}) \]
\[ \eta_{x+1} - \eta_x = \ln (\text{odds}_{x+1}) - \ln (\text{odds}_x) = \ln \left(\frac{\text{odds}_{x+1}}{\text{odds}_x} \right) \]
\[ \begin{split} \eta_{x+1} - \eta_x &= \big( b_0 + b_1(x+1) \big) - \big( b_0 + b_1 x \big) = \\ &= b_0 + b_1 x + b_1 - b_0 - b_1 x = b_1 \end{split} \]
\[ \begin{split} \ln \left(\frac{\text{odds}_{x+1}}{\text{odds}_x} \right)&= b_1 \\ \frac{\text{odds}_{x+1}}{\text{odds}_x} = e^{b_1} \end{split} \]
Значение порога влияет на качество модели.
Предсказания: \(0\) | Предсказания: \(1\) | |
---|---|---|
Данные: \(0\) | \(\text{TN}\) | \(\text{FP}\) |
Данные: \(1\) | \(\text{FN}\) | \(\text{TP}\) |
\[ \text{accuracy} = \frac{\text{TP} + \text{TN}}{\text{TP} + \text{TN} + \text{FP} + \text{FN}} \]
\[ \begin{pmatrix} 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0 & 1 & 1 \end{pmatrix} \]
\[ \text{precision} = \frac{\text{TP}}{\text{TP} + \text{FP}} \]
\[ \text{recall} = \frac{\text{TP}}{\text{TP} + \text{FN}} \]
\[ \text{F1} = 2 \cdot \frac{\text{precision} \cdot \text{recall}}{\text{precision} + \text{recall}} \]
№ наблюдения | Вероятность |
---|---|
1 | 1.00 |
2 | 0.90 |
3 | 0.80 |
4 | 0.75 |
5 | 0.60 |
6 | 0.50 |
7 | 0.43 |
8 | 0.32 |
9 | 0.20 |
10 | 0.15 |
№ наблюдения | Вероятность | Значение |
---|---|---|
1 | 1.00 | 1 |
2 | 0.90 | 1 |
3 | 0.80 | 0 |
4 | 0.75 | 1 |
5 | 0.60 | 0 |
6 | 0.50 | 1 |
7 | 0.43 | 0 |
8 | 0.32 | 0 |
9 | 0.20 | 0 |
10 | 0.15 | 0 |
Свойства счетных величин
\[ Y \thicksim \text{Poisson} (\mu) \]
\[ f(y) = \frac{\mu^y e - \mu}{y!} \]
\[ \begin{split} \mathbb{E}(Y) = \mu \\ \text{var}(Y) = \mu \end{split} \]
линейнная регрессия будет предсказывать отрицательные значения
изначально не выполнено допущение гомоскедастичности остатков
оценки коэффициентов модели будут неточны
ошибки завышены
результатам статистического тестирования доверять нельзя
\[ \eta_i = \ln (y_i) \]
\[ \eta_i = \hat \beta_0 + \hat \beta_1 x_{i1} + \hat \beta_2 x_{i2} + \dots + \hat \beta_p x_{ip} \]
\[ \begin{split} & \text{var}(y_i) = \mu_i \\ & \text{var}(\mathbb{E}(y_i)) = \frac{\mu}{n} \\ & \text{se}_{\mathbb{E}(y_i)} = \sqrt{\text{var}\big( \mathbb{E}(y_i) \big)} \end{split} \]
\[ \begin{split} & \text{var}(y_i) = \phi \mu_i \\ & \text{var}(\mathbb{E}(y_i)) = \frac{\phi \mu}{n} \\ & \text{se}_{\mathbb{E}(y_i)} = \sqrt{\phi \text{var}\big( \mathbb{E}(y_i) \big)} \end{split} \]
Антон Ангельгардт
WLM 2023