HSE UX LAB | Анализ данных + R: мир линейных моделей, 2021

Описательная статистика

Описательные статистики — обобщенные статистики, количественно описывающие особенности имеющихся данных.

Описательная статистика — области статистики, занимающаяся обработкой статистических данных, их наглядным представлением, и собственно описанием через описательные статистики.

Зачем нужны описательные статистики?

  • ёмко описать имеющиеся данные
  • составить на основе этих описаний общее представление о них
  • обнаружить особенности, которые могут повлиять на дальнейший анализ

Меры центральной тенденции

Мода

  • наиболее часто встречающееся значение данной переменной

\[ \mathrm{mode}(X) = \max(\mathrm{PMF}(X)) \]

\[ X = [1,1,4,5,2,4,3,4,3,3,3,4,3,5] \]

## x
## 1 2 3 4 5 
## 2 1 5 4 2

Мода

Медиана

  • значение, которые располягается на середине сортированного вектора значений переменной
  • второй квартиль

\[ \mathrm{median} = \begin{cases} X(\frac{n+1}{2}), & \text{ if } n \text{ is odd},\\ \dfrac{X(\frac{n}{2}) + X(\frac{n}{2}+1)}{2}, & \text{ otherwise} \end{cases} \]

\[ X_{\text{sort}} = [\underbrace{1,1,2,3,3,3,3}_{50\%},\underbrace{3,4,4,4,4,5,5}_{50\%}]\\ \text{median}(X) = \frac{3+3}{2}=3 \]

Арифметическое среднее

\[ \bar x = \frac{x_1 + x_2 + \dots + x_n}{n} = \frac{\sum_{i=1}^{n}x_i}{n}, \]

Мода vs медиана vs арифметрическое среднее

mean
median
mode

Усеченное и межквартильное среднее

Усеченное среднее

  • отбросить по 2.5% наблюдений с обеих стороны сортированного вектора (низких и высоких)
  • вычислить среднее по оставшимся

Межквартильное среднее

\[ X_{\mathrm{IQM}} = \frac{2}{n} \sum_{i=\frac{n}{4}+1}^{\frac{3n}{4}} x_i \]

Усеченное и межквартильное среднее

mean
trimmed mean
IQM

Геометрическое среднее

\[ G_{X} = \sqrt[n]{x_1 \cdot x_2 \cdot \dots \cdot x_n} = \sqrt[n]{\prod_{i=1}^n x_i} = \Big(\prod_{i=1}^n x_i\Big)^{\tfrac{1}{n}} \]

Гармоническое среднее

\[ H_X = \frac{n}{\tfrac{1}{x_1} + \tfrac{1}{x_2} + \dots + \tfrac{1}{x_n}} = \frac{n}{\sum_{i=1}^n \tfrac{1}{x_i}} \]

Квадратичное среднее

\[ X_{\mathrm{RMS}} = \sqrt{\frac{\sum_{i=1}^n x_i^2}{n}} \]

Взвешенное среднее

  • \(x_i\) — некоторый параметр
  • \(w_i\) — его вес в суммарном балле (\(w_i \in \mathbb{R}^+\))

\[ \bar x = \frac{\sum_{i=1}^n w_i x_i}{\sum_{i=1}^n w_i} = \sum_{i=1}^n w_i' x_i \]

Меры разброса

Минимум, максимум, размах

\[ \mathrm{range}(X) = \max(X) - \min(X) \]

Дисперсия

Отклонение

\[ d_i = \bar x - x_i \]

\[ \sum_{i=1}^n d_i \approx 0 \]

Дисперсия

Среднее отклонение

\[ \bar d = \frac{\sum_{i=1}^n (\bar x - x_i)}{n} \approx 0 \]

Сумма квадратов

\[ \mathrm{SS}(X) = \sum_{i=1}^n (\bar x - x_i)^2 \]

Степени свободы

Сколько нужно сделать измерений, чтобы узнать все значения на выборке, если известно среднее?

\(n-1\) — число «степеней свободы»

Генеральная и выборочная дисперсии

Генеральная (смещённая) дисперсия

\[ \sigma^2 = \frac{\sum_{i=1}^n (\bar x - x_i)^2}{n} \]

Выборочная (несмещённая, исправленная) дисперсия

\[ s^2 = \frac{\sum_{i=1}^n (\bar x - x_i)^2}{\mathrm{df}} = \frac{\sum_{i=1}^n (\bar x - x_i)^2}{n-1} \]

Стандартное отклонение

  • возвращаемся к исходным единицам измерения

\[ \sigma = \sqrt{\sigma^2} \]

\[ \mathrm{sd}(X) = s = \sqrt{s} \]

Стандартная ошибка

\[ \mathrm{se}(X) = \frac{\mathrm{sd}(X)}{\sqrt{n}} \]

Форма распределения

Асимметрия

\[ \text{skew}(X) = \frac{m_3}{s^3} = \frac{\frac{1}{n} \sum_{i=1}^n (\bar x - x_i)^3}{\big(\frac{1}{n-1} \sum_{i=1}^n (\bar x - x_i)^2\big)^{3/2}} \]

Эксцесс

\[ \text{kurt}(X) = \frac{m_4}{s^4} - 3 = \frac{\frac{1}{n} \sum_{i=1}^n (\bar x - x_i)^4}{\big(\frac{1}{n-1} \sum_{i=1}^n (\bar x - x_i)^2\big)^2} - 3 \]

The end