6 Доверительные интервалы

6.1 Точечные и интервальные оценки

До этого момента мы работали только с точечными оценками — это оценки, представляющие собой одно число. Например, таковы меры центральной тенденции — медиана, среднее арифметическое — или меры разброса — межквартильный размах, дисперсия, стандартное отклонение. Когда мы рассчитываем каждый из этих показателей мы получаем только одно число.

Однако поскольку мы имеет дело со статистическими данными, основные свойства которых это неопределенность и вариативность, нам необходимы, помимо точечных оценок, ещё и интервальные оценки.

Напомним кратко себе, что

Неопределенность статистических данных означает, что мы никогда не знаем, что мы получим в результате данного конкретного измерения.
- во-первых, потому что мы работаем со случайными величинами,
- во-вторых, потому что наши измерительные инструменты не идеальны и всегда содержат ошибку измерения.
Вариативность статистических данных говорит нам о том, что наши измерения всегда обладают некоторым разбросом.
- во-первых, потому что объекты нашего изучения — люди — разные,
- во-вторых, потому наши измерительные инструменты всё ещё не идеальны и всегда содержат ошибку измерения.

Таким образом, мы не можем быть до конца уверены, что мы получили суперточную оценку изучаемых нами параметров. Даже если мы пользуемся достаточно точными измерительными инструментами, собираем большие выборки и вообще делаем всё, чтобы быть максимально точными и объективными. Возникает необходимость найти какие-то способы выражения нашей неуверенности в точечной оценки параметра генеральной совокупности. Это и есть интервальные оценки — по сути, меры нашей неуверенности.

Чтобы к ним подойти, нам придется познакомиться с одной важной статистической теоремой.

6.2 Центральная предельная теорема

Для построения интервальных оценок параметров используют центральную предельную теорему. Сформулировать её можно так.

Теорема 6.1 Центральная предельная теорема (ЦПТ). Cумма достаточно большого количества слабо зависимых одинаково распределенных случайных величин имеет распределение, близкое к нормальному.

Однако нас будет интересовать не столько сама теорема, сколько одно из её следствий.

Следствие 6.1 Если \(X_1, \, X_2, \, \ldots, X_n\) — независимые одинаково распределённые случайные величины со средним \(\mu\) и дисперсией \(\sigma^2\), то при увеличении их числа распределение средних этих случайных величин имеет распределение, близкое к нормальному со средним \(\mu\) и дисперсией \(\dfrac{\sigma^2}{n}\) (стандартным отклонением \(\dfrac{\sigma}{\sqrt{n}}\)):

\[ X_i \overset{\text{i.i.d}}{\thicksim} (\mu, \sigma^2) \Rightarrow \overline X_i \overset{d}{\to} \mathcal{N} \bigg( \mu, \frac{\sigma^2}{n} \bigg) \]

Формулировка следствия довольно сложна. Давайте подумаем, чем она соответствует в области исследовательской практики.

Когда мы проводим исследование, мы извлекаем выборку из генеральной совокупности.
На этой выборке мы измеряем какую-либо переменную \(X\).
Пусть на этой выборке мы получили случайную величину \(X_1\), измерив интересующая нас переменную.
Повторив исследование несколько раз — допустим, \(n\) — на других выборках из той же генеральной совокупности, мы получим случайные величины \(X_2,\, X_3,\, \ldots X_n\).
Поскольку все выборки приходили из одной и той же генеральной совокупности, распределения всех случайных величин будут иметь одни и те же параметры — то есть наши случайные величины будут одинаково распределены.
Так как выборки извлекались отдельно для каждого исследования, получившиеся случайные величины оказываются независимы.

Таким образом, [следствие] ЦПТ рассматривает поведение распределения выборочных средних при многократном повторении исследования. По сути, это та же ситуация, которую мы рассматривали при обсуждении несмещённости точечных оценок.

Итак, пусть есть некоторая случайная величина \(X\), распределение которой в генеральной совокупности асимметрично. Случай асимметричного распределения удобен для рассмотрения, поскольку эффект, описываемый ЦПТ можно увидеть более наглядно. Допустим, выглядит это как-то так:

Рисунок 6.1: Распределение случайной величины в генеральной совокупности

Откуда мы знаем, что случайная величина распределена так? Ниоткуда. В рамках симуляции, которой мы сейчас будем заниматься мы просто рассматриваем такой случай. Разумеется, в реальной ситуации мы может сделать только допущение о распределении величины генеральной совокупности — как она распределена на самом деле мы никогда не узнаем.

Понятно, что это распределение будет обладать неким средним и некоторым стандартным отклонением — в нашем случае значения будут такими:

Таблица 6.1: Параметры распределения случайной величины в генеральной совокупности

Параметр распределения	Значение
Среднее	0.4
Стандартное отклонение	0.2

Чтобы максимально точно приблизиться к оценке нашего параметра — будем оценивать среднее генеральной совокупности — нам надо извлечь много больших выборок из нашей генеральной совокупности. Ну, допустим мы извлекаем 1000 выборок по 50 наблюдений. Можно и больше, но давайте посмотрим пока, что будет на таких значениях.

Посмотрим на распределения нашей переменной в нескольких из выборок:

Рисунок 6.2: Распределения случайной величины в первых двадцати выборках

Вот распределения в первых двадцати выборках. На что здесь стоит обратить внимание?

От выборки к выборки распределения, безусловно, отличаются. Причем достаточно сильно — где-то распределение больше похоже на нормальное, где-то оно более асимметричное, где-то менее, где-то вообще напоминает равномерное. Это мы в живую увидели вариативность и неопределенность.

Каждая из выборок характеризуется каким-то своим средним и каким-то своим разбросом (Таблица 6.2).

Таблица 6.2: Выборочные средние и стандарные отклонения первых двадцати выборок

Sample	Mean	SD
V1	0.37	0.18
V2	0.35	0.22
V3	0.40	0.20
V4	0.40	0.21
V5	0.42	0.22
V6	0.35	0.20
V7	0.38	0.15
V8	0.36	0.23
V9	0.45	0.21
V10	0.34	0.20
V11	0.40	0.20
V12	0.38	0.22
V13	0.39	0.19
V14	0.35	0.19
V15	0.42	0.22
V16	0.44	0.22
V17	0.33	0.21
V18	0.43	0.23
V19	0.39	0.20
V20	0.39	0.20

Видим, что есть некоторая вариативность выборочных средних. Но раз у нас есть 1000 выборок — а значит и 1000 средних — мы можем построить распределение выборочных средних (Рисунок 6.3).

Рисунок 6.3: Распределение выборочных средних

Мы получили распределение выборочных средних значений, которое очень похоже на нормальное — эмпирическое распределение отображено с помощью гистограммы, а ожидаемое теоретическое с помощью чёрной линии. Вот об этом и говорит центральная предельная теорема.

Более того, если мы посчитаем среднее и стандартное отклонение данного распределения, мы получим следующее (Таблица 6.3).

Таблица 6.3: Параметры распределения выборочных средних

Параметры	Значение
Среднее (M)	0.4
Стандартное отклонение (SD)	0.03

Также нужно обратить внимание еще на две важные детали:

чем большее количество выборок мы наберем, тем ближе распределение будет к нормальному и тем более точную оценку среднего мы получим
чем большее количество наблюдений будет в отдельной выборке, тем ближе распределение будет к нормальному и тем более точную оценку среднего мы получим

Здесь можно посмотреть динамическую симуляцию, изучить роль количества выборок и количества наблюдений в формировании итогового распределения средних.

Итак, независимо от того, какое распределение переменной есть в генеральной совокупности, при извлечении достаточно большого количества выборок достаточно большого объема мы можем получить очень точную оценку среднего генеральной совокупности, а распределение выборочных средних будет стремиться к нормальному.

6.3 Стандартная ошибка среднего

Собственно, а зачем нам это надо было?

Посмотрим на стандартное отклонение выборочных средних (Рисунок 6.4).

Рисунок 6.4: Стандартная ошибка среднего. Точечная линия — среднее выборочных средних, пунктирные линии — плюс-минус одно стандартное отклонение.

Поскольку ЦПТ обеспечила нам возможность пользоваться свойствами нормального распределения, то в пределах одного стандартного отклонения от среднего средних будет лежать 68.2% выборочных средних (Рисунок 5.3 и Уравнение 5.1). Таким образом, мы получаем диапазон, в пределах которого лежат наиболее часто встречающиеся выборочные средние, а значит это может служить интервальной оценкой нашего параметра — он называется стандартной ошибкой среднего.

Определение 6.1 Стандартная ошибка среднего (\(\text{se}\)) — стандартное отклонение распределения выборочных средних.

Теперь задумаемся о следующем: чтобы получить стандартную ошибку, мы сгенерировали 1000 выборок, однако в рамках отдельного исследования мы работаем только с одной выборкой — значит ли это, что мы не сможем посчитать стандартную ошибку, чтобы получить интервальную оценку среднего?

Нет. Рассчитать стандартную ошибку среднего можно и по одной выборке вот так:

\[ \text{se}_X = \frac{s_X}{\sqrt{n}}, \tag{6.1}\]

где \(s_X\) — это выборочное стандартное отклонение, а \(n\) — количество наблюдений в данной выборке.

Формула, прямо скажем, не то чтобы очень интуитивна, однако вам придется мне поверить, что она верна.

Я недоверчив(а)

Для того, чтобы доказать формулу, нам понадобятся два утверждения. С одним мы хорошо знакомы (Утверждение 4.2):

\[ D_{X \times c} = D_X \times c^2 \]

Второе утверждение говорит нам, чему равна дисперсия суммы случайных величин — тут вам точно придется мне просто поверить, иначе эта глава никогда не закончится:

\[ D_{X + Y} = D_X + D_Y + 2 \text{cov}_{X,Y}, \]

\(\text{cov}_{X,Y}\) — это ковариация двух случайных величин, мера их взаимной изменчивости. Мы будем обсуждать её в курсе позже, сейчас она для нас не столь существенна.

Так как мы предполагает, что выборки мы набирали независимо и из одной и той же генеральной совокупности, то величины в каждой из выборок независимы и [теоретически] одинаково распределены (independent identically distributed, i.i.d.) (для упрощения жизни здесь рассмотрено нормальное распределение):

\[ X_i \overset{\text{i.i.d.}}{\thicksim} \mathcal{N} (\mu, \sigma^2) \]

В частности, в силу независимости случайный величин их ковариация равна нулю. Поэтому дисперсия распределения выборочных средних — то есть суммы средних наших исходных случайных величин \(X_i\) — будет определяться так:

\[ \begin{split} D \big( \sum_{i=1}^n \frac{1}{n} X_i \big) &= D \big( \frac{1}{n} \sum_{i=1}^n X_i \big) = \\ &= \frac{1}{n^2} \sum_{i=1}^n D(X_i) = \\ &= \frac{1}{n^2} \sum_{i=1}^n \sigma^2 = \frac{1}{n^2} \cdot n \sigma^2 = \\ & = \frac{n}{n^2} \sigma^2 = \frac{\sigma^2}{n} \end{split} \]

А значит, стандартное отклонение этого распределения — оно же стандартная ошибка среднего — будет таким:

\[ \text{se}_X = \sqrt{\frac{\sigma^2}{n}} = \frac{\sigma}{\sqrt{n}} \]

Магия статистических допущений.

Стандартная ошибка используется и сама по себе как одна из описательных статистик. Однако также на её основе рассчитывается другая интервальная оценка.

6.4 Доверительные интервалы

Еще раз вспомним о том, что стандартная ошибка — это не что иное как стандартное отклонение [выборочных средних]. Также вспомним, что главой ранее мы определяли, с какой вероятностью лежит значение нашей случайной величины в пределах скольких-либо стандартных отклонений (Рисунок 5.3).

Можем ли мы через стандартное отклонение выразить такой интервал, в котором будет лежать, скажем, 95% значений величины? Для определенности возьмем стандартное нормальное распределение, и выделим на нём диапазон, в пределах которого лежит 95% значений.

Рисунок 6.5: Стандартное нормальное распределение. Диапазон, в пределах которого лежит 95% значений.

Математически вычислимо, что границы этого интервала будут такими — \([-1.96, 1.96]\).

Окей, но это не совсем то, что нас интересовало. Мы хотели узнать, в каких пределах лежит 95% выборочных средних, если мы знаем их распределение. Воспользуемся известной нам стандартизацией (Уравнение 5.2) — вернее, её обратным преобразованием — и перейдем от z-значений к значениям произвольного распределения:

\[ x_i = z_i \cdot s_x + \overline X, \]

где \(z_i\) — значения стандартного нормального распределения, \(x_i\) — значение нового распределения, \(\overline X\) — среднее нового распределения, \(s_x\) — стандартное отклонение нового распределения.

Рисунок 6.6: Доверительный интервал. Точечная линия — среднее выборочных средних, пунктирные линии — доверительный интервал для среднего.

Таким образом, мы можем перевести границы \([-1.96, 1.96]\) в границы на распределении выборочных средних следующим образом:

\[ [\overline X - 1.96 \cdot \text{se}_x, \, \overline X + 1.96 \cdot \text{se}_x] \tag{6.2}\]

В пределах такого интервала будет лежать 95% выборочных средних.

Однако на практике мы имеет дело только с одной выборкой, поэтому и интервал будет рассчитываться на основании одного выборочного среднего и стандартного отклонения по выборке. Например, если мы возьмем первую выборку из сгенерированных (Таблица 6.2) и рассчитаем такой интервал для её среднего, получится:

\[ \begin{split} &[\overline X - 1.96 \cdot \text{se}_X, \, \overline X + 1.96 \cdot \text{se}_X] = \Big[ \overline X - 1.96 \cdot \frac{s_X}{\sqrt{n}}, \, \overline X + 1.96 \cdot \frac{s_X}{\sqrt{n}} \Big] = \\ &= \Big[0.37 - 1.96 \cdot \frac{0.18}{\sqrt{50}}, \, 0.37 + 1.96 \cdot \frac{0.18}{\sqrt{50}} \Big] = [0.32, \, 0.42] \end{split} \]

Этот интервал называется 95%-ным доверительным интервалом (95% confidence interval, 95% CI). Он является второй интервальной оценкой среднего и мерой нашей неуверенности относительно точности оценки среднего генеральной совокупности.

Вообще можно рассчитать любой доверительный интервал, который вам захочется, однако самые популярные варианты — это 90%, 95% и 99%. Выражаются через стандартную ошибку они так:

\[ \begin{split} 90\%: &\quad \overline X \pm 1.645 \cdot \text{se}_x \\ 95\%: &\quad \overline X \pm 1.96 \cdot \text{se}_x \\ 99\%: &\quad \overline X \pm 2.576 \cdot \text{se}_x \end{split} \]

Наиболее широко в социальных науках используется 95%-ный. С ним и будем работать.

6.4.1 Интерпретация границ доверительного интервала

Теперь еще одна непростая задача — понять, что значит этот интервал.

Глядя на график распределения выборочных средних (Рисунок 6.6) и исходя из того, как интервал был получен, хочется сказать, что генеральное среднее лежит в границах 95%-ного доверительного интервала с вероятностью 0.95.

Но это не верно!!! Вновь необходимо вспомнить, что в рамках отдельного исследования мы имеем дело только с одной выборкой, и доверительный интервал, рассчитанный на одной выборке, это совершенно не то, что отображает вышеупомянутый график (Рисунок 6.6). Он показывает логику, положенную в механизм расчёта интервала, однако не пригоден для его интерпретации.

Статистика в отдельном исследовании

Отметим, что та статистика, которую мы изучаем — фреквентистская статистика — рассматривает любые результаты с точки зрения принципиальной возможности бесконечно повторять проведённое исследование. Соответственно, корректная интерпретация получаемых статистических штук будет строиться в долгосрочной перспективе повторения исследований.

Такое положение дел затрудняет интерпретацию результатов отдельного исследования и часто приводит к некорректным выводам, поэтому необходимо уделить вопросу интерпретации отдельное серьезное внимание.

Давайте на примере самого доверительного интервала. Корректная статистическая интерпретация звучит так:

Если мы будет бесконечно извлекать новые выборки из генеральной совокупности, рассчитывать на них средние и 95% доверительные интервалы к ним, то генеральное среднее попадёт в границы 95% таких доверительных интервалов.

То есть, если мы извлечем 100 выборок, посчитаем на каждой из них среднее и построим 95% доверительный интервал к каждому из 100 средних, то 95 доверительных интервалов из 100 будут содержать генеральное среднее, а 5 интервалов содержать его не будут.

В частности, если мы посмотрим, что происходит на сгенерированных ранее выборках (Рисунок 6.2), мы получим следующую картину (Рисунок 6.7).

Рисунок 6.7: Покрытие генерального среднего доверительными интервалами. Из 1000 доверительных интервалов 966 содержат генеральной среднее, 34 — не содержат.

Динамическую визуализацию этого можно наблюдать здесь.

Корректная статистическая интерпретация, конечно, корректная, однако трудноусваемая и сложноприменяемая в практике Попробуем сделать её более осязаемой. Есть три путя.

Самый простой, но крайне некорректный

Если, ну, прям ваще никак не получается уложить статистическую интерпретацию, то можно думать о доверительном интервале так: «генеральное среднее, скорее всего, лежит где-то в этих пределах».

Однако в приличных местах об этом говорить никому не стоит. И даже когда соберетесь прибегнуть к такой интерпретации, обязательно сначала вспомните, что она некорректная!

Скорректированный вариант

К подобной интерпретации также есть некоторые вопросы, однако, по крайней мере, она обоснована симуляциями. Задаваться вопросом о вероятности попадания генерального среднего в конкретный рассчитанный нами здесь и сейчас доверительный интервал всё же можно. Симуляции показывают, что эта вероятность приблизительно равна 84.3%. Эту величину назвали capture percentage — то есть отдельный 95% доверительный интервал «ловит» генеральное среднее 843 раза из 1000.

Практически применимый вариант

Ежели мы всё же посмотрим на Рисунок 6.6 и попробуем вытащить практически пригодную интерпретацию, то мы можем заметить, что в границы доверительного интервала попадают наиболее частотные, типичные значения среднего. Также необходимо вспомнить, что мы работаем с конкретными данными в рамках одного исследования. Исходя из этих двух пунктов, можно сказать, что границы доверительного интервала задают диапазон значений, которые не противоречат имеющимся у нас данным.

Эта интерпретация хорошо согласуется с NHST-подходом к тестированию статистических гипотез, о котором мы будем говорить далее.

6.4.2 Доверительный интервал и сравнение средних

Чем нам может помочь интервальная оценка при поиске различий между группами? Посмотрим на возможные ситуации. Пусть у нас есть средние и доверительные интервалы к ним в двух группах наблюдений — например, балл по шкале депрессии HADS у жителей Москвы и Петербурга.

Первоначально попробуем выяснить, справедливо ли утверждение «у жителей столиц нет клинически выраженной депрессии». Для этого необходимо, чтобы средний балл был меньше 11. Рассмотрим картину.

Рисунок 6.8: Сравнение выборочного среднего с данным значением через доверительный интервал

Мы наблюдаем, что в случае Москвы интересующее нас значение 11 не попадает в доверительный интервал, в то время как в случае Петербурга — попадает. Поскольку доверительный интервал отображает нашу неуверенность в том, что наше выборочное среднее отражает генеральное среднее, для нас все значения в пределах доверительного интервала статистически равны между собой. Или же можем сказать, что границы доверительного интервала обозначают значения, не противоречащие данным. Таким образом, так как 11 не попадает в 95%-ный доверительный интервал для Москвы, мы можем сказать, что средний уровень депрессии жителей Москвы ниже порога клинически выраженной депрессии. Про петербуржцев такого сказать не получится, так как 11 попало в доверительный интервал для Петербурга — а значит, средний уровень депрессии 8.5 статистически равен 11, хотя по абсолютному значению ниже. Иначе говоря, значение 11 не противоречит имеющимся данным, хотя выборочное среднее и не совпадает с ним.

если некоторое число попадает в доверительный интервал для выборочного среднего, то мы говорим, что среднее статистически не отличается от этого числа — даже если по абсолютным значениям разница существенна
если некоторое число не попадает в доверительный интервал для выборочного среднего, то мы говорим, что среднее статистически отличается от этого числа — и больше или меньше в зависимости от абсолютных значений

Однако чаще мы сравниваем две группы между собой. Посмотрим на ситуации, которые принципиально возможны при сравнении средних в двух группах.

Рисунок 6.9: Сравнение выборочных средних в двух группах

По оси \(x\) — группы наблюдений, по оси \(y\) — значение интересующей нас переменной. Видим четыре возможные ситуации:

А — каждое среднее попадает в доверительный интервал другого среднего
B — одно среднее попадает в доверительный интервал другого среднего, а второе — не попадает
- в данном случае, среднее второй группы попало в доверительный интервал среднего первой группы, в то время как среднее первой группы лежит за границами доверительного интервала среднего второй группы
С — ни одно из средних не попало в доверительный интервал другого среднего
- но есть пересечение доверительных интервалов
D — доверительные интервалы не пересекаются, следовательно, ни одно из средних не попало в доверительный интервал другого среднего

Исходя из рассуждений выше, можно отметить, что если хотя бы одно среднее попало в доверительный интервал другого — случаи A и B — то различий между группами нет. А вот если средние не попадают в доверительные интервалы друг друга — случаи C и D — то различия между группами есть.

6.4.3 Связь доверительного интервала с разбросом и объемом выборки

Так как доверительный интервал рассчитывается на основе стандартной ошибки (Уравнение 6.2), которая в свою очередь рассчитывается на основе стандартного отклонения и числа наблюдений (Уравнение 6.1), нетрудно заметить, что:

чем выше разброс в данных, тем будет шире доверительный интервал, так как больше стандартная ошибка
чем больше наблюдений в нашей выборке, тем будет у́же доверительный интервал, так как меньше стандартная ошибка

6.4.4 Статистическая и практическая значимость

Итак, мы обсудили, как сравнивать средние значения в двух группах между собой с помощь доверительных интервалов. Однако это не всё, что можно с их помощью делать. Помимо статистически значимых различий нас могут интересовать и практически значимые различия, то есть различия или эффекты, значимые с точки зрения практической деятельности.

Что такое практическая значимость и откуда её взять? Как ни странно — из практики. Например, пусть из клинической практики известно, что снижение суммарного балла по шкале депрессии Бэка на 5 единиц приводит к улучшению качества жизни пациента. Это может считаться практически значимым эффектом. Или же из предшествующих исследований UX-отдела некоторой IT-компании известно, что если время, проведенное на странице регистрации превышает 2 минуты, то конверсия в постоянных пользователей существенно снижается. Это также может быть практически значимым эффектом. Таким образом, что считать практически значимым эффектом будет различаться в зависимости от области, в которой мы работаем. Тем не менее, для статистики практически значимый эффект — это некоторое число или диапазон значений какой-либо переменной. Следовательно, мы можем сравнить измеренное нами в исследовании значение этой переменной со значением, соответствующим практической значимости эффекта с помощью доверительного интервала.

Принципиально возможны следующие случаи (Рисунок 6.10).

Рисунок 6.10: Возможные результаты с точки зрения статистической и практической значимости эффекта. Цветом обозначена область практической значимости эффекта.