Статистика — это междисциплинарная область знаний, а также практической деятельности, изучающая массовые явления, а также прицнипи и методы работы с данными, характеризующими эти явления.
Генеральная совокупность (population) — множество всех [существующих] исследуемых объектов и сведений о них.
Объем генеральной совокупности (\(N\)) — число единиц, образующих генеральную совокупность.
Выборка, или выборочная совокупность (sample) — множество объектов генеральной совокупности, объемом \(n\) (\(n \ll N\)).
Garbage in, garbage out.
Репрезентативность — степень соответствия характеристик выборки характеристикам генеральной совокупности.
Почему выборка должна быть репрезентативной?
Признак | Показатель |
---|---|
Рабочая память | Объем рабочей памяти |
Нейротизм | Уровень нейротизма по BFI |
Доход | Совокупный годовой доход после уплаты налогов |
Когнитивная нагрузка | Уровень когнитивной нагрузки по ЭЭГ-коррелятам |
Доверие к ИИ | Уровень доверия к ИИ по опроснику TAIA |
Индивидуализм/коллективизм | Индекс индивидуализма/коллективизма по модели Хофстеде |
Параметр (\(\theta\)) — относительно постоянная [от одной совокупности к другой] величина, харакретизующая генеральную совокупность по некоторому показателю.
Величина параметра, который мы изучаем, неизвестна. И никогда не будет известна.
Величину параметра мы можем только предсказать с определённой статистической точностью.
Измеряя что-либо на выборке, мы получаем выборочную характеристику, или оценку (\(\hat \theta\)) — эмпирический (измеримый) аналог параметра.
Выборки между собой имеют право различаться
Мы не знаем, что мы получим в результате конкретного измерения на конкретном изучаемом объекте
Ни один измерительный инструмент не является совершенным
Неопределённость нам говорит о том, что мы не знаем, что именно мы получим в результате наших измерений для конкретной выборки.
Вариативность означает, что наши данные будут различатся от выборки к выборке и от респондента к респонденту
Статистика помогает нам делать выводы о нашей генеральной совокупности по выборке.
Случайный эксперимент — это математическая модель некоторого реального эксперимента, результат которого невозможно точно предсказать.
любой акт измерения — это [с точки зрения статистики] случайный эксперимент
В случайном эксперименте возможны различные исходы, называемые элементарными событиями (\(\omega_i\)). Например, в случае упомянутого выше игрального кубика при его бросании возможны шесть элементарных событий (исходов):
Множество всех элементарных событий называется пространством элементарных событий (\(\Omega\)) случайного эксперимента.
Для кубика:
\[ \Omega = \{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6\} \]
Для \(n\) случайных исходов:
\[ \Omega = \{\omega_1, \omega_2, \dots, \omega_{n-1}, \omega_n\} \]
Для пятибалльной шкалы Ликерта:
\[ \Omega = \{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5\}, \]
где
Случайное событие — любое подмножество множества элементарных событий.
Для кубика
Всё множество случайных событий \(A_i\) обозначается \(\mathcal A\).
Вероятность (\(\mathbb{P}\))— относительная мера возможности наступления некоторого события в результате случайного эксперимента.
Пространство элементарных событий для случайного эксперимента «бросание игрального кубика»:
\[ \Omega = \{\omega_1, \omega_2, \omega_3, \omega_4, \omega_5, \omega_6\} \]
Выпадение каждой грани равновозможно — вероятность выпадения каждой грани:
\[ \mathbb{P}(\omega_i) = \frac{1}{n}, \]
Аналогично можно определить вероятность любого случаного события \(A_i\):
\[ \mathbb{P}(A_i) = \frac{n_i}{n}, \]
Тройку \((\Omega, \mathcal A, \mathbb{P})\) называются вероятностным пространством.
Какова вероятность встретить динозавра на улице?
Пространство элементарных событий: \(\Omega = \{\omega_1, \omega_2\}\)
Вероятность встретить динозавра на улице равняется
\[ \mathbb{P}(\omega_1) = \frac{1}{n} = \frac{1}{2} \]
Но ведь это не так.
Статистическая вероятность — предел частоты наблюдений некоторого события при стремлении количества наблюдений к бесконечности [при их независимости и однороности]:
\[ \mathbb{P}(A) = \lim_{N \rightarrow \infty} \frac{n}{N}, \]
Подход работает и с игральным кубиком: много бросков \(\rightarrow\) вероятность выпадения каждой грани — \(\frac{1}{6}\), при условии, что кубик честный.
Возьмем квадрат, в который вписан круг:
Будем бросать в этот квадрат точки случайным образом:
Вопрос: какова вероятность, что случайно брошенная точка попадет в круг (событие \(A\))?
Набросаем больше точек:
Вероятность попадания случайно прошенной точки в круг равняется отношению площади круга к площади квадрата, то есть:
\[ \mathbb{P}(A) = \lim_{N \rightarrow \infty} \frac{n}{N} = \frac{S_\text{circle}}{S_\text{square}} \]
Можно расписать точнее, если вспомнить геометрические формулы:
\[ \mathbb{P}(A) = \frac{S_\text{circle}}{S_\text{square}} = \frac{\pi r^2}{a^2} = \frac{\pi \big(\frac{1}{2}a\big)^2}{a^2} = \frac{1}{4}\pi \approx 0.785 \]
Такое подход к определению вероятности называется геометрической вероятностью.
Случайная величина — это некоторая переменная, значения которой представляют собой численные исходы некоторого случайного эксперимента.
Формально случайная величина \(\xi\) — это функция \(y = \xi(\omega)\), или \(\xi: \Omega \rightarrow \mathbb{R}\), на вероятностном пространстве \((\Omega, \mathcal A, \mathbb{P})\), которая сопоставляет исходам случайного эксперимента некоторые числа.
Случайная величина является дискретной, если множество её значений конечно или счётно.
Это позволяет задать случайную величину с помощью функции вероятности (probability mass function, PMF).
\[ f(x) = \mathbb{P}(X = x), \]
Функция распределения (cumulative distribution function, CFD) задается так:
\[ F(x) = \mathbb{P}(X < x), \]
\[ F(x) = \sum_{x' \leq x} f(x') \]
Случайная величина является непрерывной, если множество её значений обладает мощностью континуума.
\[ \mathbb{P}(X = x) = \frac{1}{n} = \frac{1}{\infty} = 0 \]
Или более аккуратно:
\[ \mathbb{P}(X = x) = \lim_{n \rightarrow \infty} \frac{1}{n} = 0 \]
— Получается, что вероятность вытащить конкретное значение равна нулю?
— Да.
— Значит ли это, что мы не сможем извлечь из отрезка от 0 до 1 ни одного числа?
— Нет.
\[ \mathbb{P}(X = x) = 0, \]
вероятность того, что непрерывная случайная величина примет своё конкретное значение, равна нулю.
Функция вероятности для игрального кубика:
Для нашего отрезка:
Чтобы это понять, дайате сравним два графика ниже:
Формально плотность вероятности случайной величины \(\xi\) — это числовая фукнция \(f(x)\), отношение \(\dfrac{f(x_1)}{f(x_2)}\) значений которой в точках \(x_1\) и \(x_2\) задаёт отношение вероятностей попадания случайной величины \(\xi\) в интервалы \([x_1, x_1 + \Delta x]\) и \([x_2, x_2 + \Delta x]\) при \(\Delta x \rightarrow 0\).
График, который мы рассматривали выше, называется графиком функции плотности вероятности (probability density function, PDF).
Вероятность попадания значения случайной величины в интервал \([a, b]\) определяется как интеграл функции плоности вероятности:
\[ \mathbb{P}(a \leq X \leq b) = \int_a^b f(x) dx \]
Необходимо потребовать, чтобы вся площадь под графиком была равна единице:
\[ \int_{-\infty}^{+\infty} f(x) dx = 1 \]
Из функции плотности вероятности можно построить функцию распределения непрерывной случайной величины (cumulative distribution function, CDF) — это будет первообразная от функции плотности:
\[ F(x) = \int_{-\infty}^x f(t) dt \]
\[ X \thicksim \mathcal N (\mu, \sigma^2), \]
\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}}e^{-\tfrac{(x - \mu)^2}{2\sigma^2}}, \]
\(x \in \mathbb{R}, \, \mu \in \mathbb{R}, \, \sigma \in \mathbb{R}_{>0}\)
\[ \sigma = \sqrt{\sigma^2} \]
Антон Ангельгардт
WLM 2023