P8 // Оценивание параметров в практике статистического анализа. Тестирование статистических гипотез

Основные задания

#1

Сегодня мы будем активно заниматься симуляциями. Начнем с трёх матриц.

Сгенерируйте матрицы sim1, sim2 и sim3:

  • первые две должны содержать по 1000 выборок из 100 наблюдений из генеральной совокупности, в которой параметр распределен \(\mathcal N (10, 225)\)
  • третья должна содержать 1000 выборок из 100 наблюдений из генеральной совокупности, в которой параметр распределен \(\mathcal N (15, 225)\)

Описание формата инпута.

#2

Пользуясь матрицей sim1 визуализируйте центральную предельную теорему.

Центральная предельная теорема

Центральная предельная теорема утверждает, что распределение выборочных средних с ростом числа выборок стремиться к нормальному распределению.

Описание формата инпута.

#3

На лекции мы математически вывели, что среднее арифметическое является несмещенной оценкой математического ожидания генеральной совокупности. Проверьте это на симуляции. Используйте матрицу sim1.

Описание формата инпута.

#4

Мы также математически вывели, что оценка дисперсии \(\hat \sigma^2 = \frac{\sum_{i=1}^n (x_i - \bar x)}{n}\) является смещенной, а оценка \(\hat \sigma^2 = s^2 = \frac{\sum_{i=1}^n (x_i - \bar x)}{n-1}\) является несмещенной. Проверьте это на симуляциях. Используйте матрицу sim1.

Описание формата инпута.

#5

Ещё на лекции мы говорили о состоятельности оценки. Покажите с помощью симуляций, что среднее арифметической является состоятельной оценкой математического ожидания генеральной совокупности.

Описание формата инпута.

#6

Покажите с помощью симуляций, что s^2 является состоятельной оценкой дисперсии генеральной совокупности.

Описание формата инпута.

#7

Напишите функцию для вычисления доверительного интервала для среднего. Считайте, что мы работем с выборокой большого объема (порядка 100 наблюдений).

Описание формата инпута.

#8

Постройте визуализацию, выражающую статистически корректную интерпретацию доверительного интервала для среднего. Используйте матрицу sim1.

Описание формата инпута.

#9

На лекции мы упомянули, что реальную вероятность того, что математическое ожидание попадает в пределы отдельного доверительного интервала называют capture percantage. Эта вероятность оказывается значительно меньше 0.95 для 95% доверительного интервала.

Постройте визуализацию, показывающую это графически. Используйте матрицу sim1.

Описание формата инпута.

#10

Повторите построение визуализаций из двух предыдущих заданий для матрицы sim2. Сравните визуализации.

Описание формата инпута.

#11

Поизучаем закономерности p-value. Для этого нам потребуется какой-то статистический тест — возьмем t-тест Стьютенда как наиболее простой и, вероятно, знакомый:

\[ t = \frac{\bar X_1 - \bar X_2}{s_{\bar \Delta}}, \quad s_{\bar \Delta} = \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}} \]

Формула выше справедлива для двухвыборочного t-теста (выборки независимы). Существует также и одновыборочный t-тест:

\[ t = \frac{\bar X - \mu}{s / \sqrt{n}} = \frac{\bar X - \mu}{\text{se}_X} \]

Проведите одновыборочный t-тест на первых выборка sim1 и sim3. Дайте статистическую интерпретацию результатов.

Описание формата инпута.

#12

Покажите графически, что t-распределение сходится к стандартному нормальному распределению с ростом объема выборки:

\[ t(n-1) \underset{n \to \infty}{\to} \mathcal N (0,1) \]

Описание формата инпута.

#13

Выясните с помощью симумляций, какова вероятность получить статистически значимые резульаты при заданном уровне значимости, если верна \(H_0\). Рассчитайте эту вероятность для случаев \(\alpha = 0.05\) и \(\alpha = 0.005\). Используйте матрицы sim1 и sim2.

Описание формата инпута.

#14

Рассчитайте вероятность получить статистически значимые результаты, если верна \(H_1\), для случаев \(\alpha = 0.05\) и \(\alpha = 0.005\). Используйте матрицы sim1 и sim3.

Описание формата инпута.

#15

Визуализируйте распределение p-value при справедливости \(H_0\) и \(H_1\).

Описание формата инпута.

#16

Визуализируйте зависимость распределения p-value от объема выборки.

Описание формата инпута.

#17

Визуализируйте зависимость распределения p-value от размера эффекта.

Описание формата инпута.

#18

Визуализируйте зависимость распределения размера эффекта от размера выборки.

\[ d = \frac{\bar X_1 - \bar X_2}{s}, \quad s = \sqrt{\frac{(n_1 - 1)s_1^2 + (n_2 - 1)s_2^2}{n_1 + n_2}} \]

Описание формата инпута.

#19

Постройте 95% доверительный интервал для среднего методом bootstrap.

Описание формата инпута.

#20

Постройте 95% доверительный интервал для медианы методом bootstrap.

Описание формата инпута.