Построение доверительных интервалов для среднего, дисперсии, вероятности

Общий обзор

Взяв выборку из популяции, мы получим точечную оценку интересующего нас параметра и вычислим стандартную ошибку для того, чтобы указать точность оценки.

Однако, для большинства случаев стандартная ошибка как такова не приемлема. Гораздо полезнее объединить эту меру точности с интервальной оценкой для параметра популяции.

Это можно сделать, используя знания о теоретическом распределении вероятности выборочной статистики (параметра) для того, чтобы вычислить доверительный интервал (CI – Confidence Interval, ДИ – Доверительный интервал) для параметра.

Вообще, доверительный интервал расширяет оценки в обе стороны некоторой величиной, кратной стандартной ошибке (данного параметра); два значения (доверительные границы), определяющие интервал, обычно отделяют запятой и заключают в скобки.

Обработка исной выборки

Обработка выборки методами статистики требует вычисления следующих значений:

1. Среднее арифметическое значение

2. Медиана – число, характеризующее выборку:

2. Медиана – число, характеризующее выборку: ровно половина элементов выборки больше медианы, другая половина меньше медианы

3. Размах – разница между максимальным и мин (для выборки, имеющей нечетное число значений)

3. Размах – разница между максимальным и минимальным значениями в выборке

4. Дисперсия – используется для более точног

4. Дисперсия – используется для более точного оценивания вариации данных

5. Среднеквадратическое отклонение по выборке (дал

5. Среднеквадратическое отклонение по выборке (далее – СКО) – наиболее распространённый показатель рассеивания значений корректировок вокруг среднего арифметического значения.

6. Коэффициент вариации – отражает степень р

6. Коэффициент вариации – отражает степень разбросанности значений корректировок

7. коэффициент осцилляции – отражает относит

7. коэффициент осцилляции – отражает относительное колебание крайних значений цен в выборке вокруг средней

Таблица 2. Статистические показатели исходной выбо

Таблица 2. Статистические показатели исходной выборки

Показатель

Значение

Ср. значение

54970

Медиана

53934

Размах

39194

Дисперсия

45126821

СКО

6755

Коэф. вариации

12,29%

Коэф. осциляции

71,30%

Коэффициент вариации, который характеризует однородность данных, составляет 12,29%, однако коэффициент осцилляции слишком велик. Таким образом, мы можем утверждать, что исходная выборка не является однородной, поэтому перейдем к расчету доверительного интервала.

Видео

Построение доверительного интервала при распределении отличном от нормального

В случае если среднеквадратичное отклонение генеральной совокупности не известно или распределение отлично от нормального, для построения доверительного интервала используется t-распределение. Это методика является более консервативной, что выражается в более широких доверительных интервалах, по сравнению с методикой, базирующейся на Z-оценке.

Формула

Для расчета нижнего и верхнего предела доверительного интервала на основании t-распределения применяются следующие формулы

L = X — tα  σ
n
U = X + tα  σ
n

где X – математическое ожидание выборки, α – уровень статистической значимости, tα – t-критерий Стьюдента для уровня статистической значимости α и количества степеней свободы (n-1), σ – среднеквадратическое отклонение выборки, n – количество наблюдений в выборке.

Сам доверительный интервал может быть записан в следующем виде

X ± tα  σ
n

Распределение Стьюдента или t-распределение зависит только от одного параметра – количества степеней свободы, которое равно количеству индивидуальных значений признака (количество наблюдений в выборке). Значение t-критерия Стьюдента для заданного количества степеней свободы (n) и уровня статистической значимости α можно узнать из справочных таблиц.

Пример

Предположим, что размер выборки составляет 25 индивидуальных значений, математическое ожидание выборки равно 50, а среднеквадратическое отклонение выборки равно 28. Необходимо построить доверительный интервал для уровня статистической значимости α=5%.

В нашем случае количество степеней свободы равно 24 (25-1), следовательно соответствующее табличное значение t-критерия Стьюдента для уровня статистической значимости α=5% составляет 2,064. Следовательно, нижняя и верхняя граница доверительного интервала составят

L = 50 — 2,064  28  = 38,442
25
L = 50 + 2,064  28  = 61,558
25

А сам интервал может быть записан в виде

50 ± 11,558

Таким образом, мы можем утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне [38,442; 61,558].

Использование t-распределения позволяет сузить доверительный интервал либо за счет снижения статистической значимости, либо за счет увеличения размера выборки.

Снизив статистическую значимость с 95% до 90% в условиях нашего примера мы получим соответствующее табличное значение t-критерия Стьюдента 1,711.

L = 50 — 1,711  28  = 40,418
25
L = 50 + 1,711  28  = 59,582
25

50 ± 9,582

В этом случае мы можем утверждать, что с вероятностью 90% математическое ожидание генеральной совокупности окажется в диапазоне [40,418; 59,582].

Если мы не хотим снижать статистическую значимость, то единственной альтернативой будет увеличение объема выборки. Допустим, что он составляет 64 индивидуальных наблюдения, а не 25 как в первоначальном условии примера. Табличное значение t-критерия Стьюдента для 63 степеней свободы (64-1) и уровня статистической значимости α=5% составляет 1,998.

L = 50 — 1,998  28  = 43,007
64
L = 50 + 1,998  28  = 56,993
64

50 ± 6,993

Это дает нам возможность утверждать, что с вероятностью 95% математическое ожидание генеральной совокупности окажется в диапазоне [43,007; 56,993].

: оператора ДОВЕРИТ.НОРМ

Данная функция впервые была внедрена в арсенал программы в редакции Эксель 2010 года (до этой версии ее заменял оператор “ДОВЕРИТ”). Оператор входит в категорию “статистические”.

Формула функции ДОВЕРИТ.НОРМ выглядит так:

=ДОВЕРИТ.НОРМ(Альфа;Станд_откл;Размер)

Как мы видим, у функции есть три аргумента:

  • “Альфа” – это показатель уровня значимости, который берется за основу при расчете. Доверительный уровень считается так:
    • 1-"Альфа". Это выражение применимо в случае, если значение “Альфа” представлено в виде коэффициента. Например, 1-0,7=0,3, где 0,7=70%/100%.
    • (100-"Альфа")/100. Применятся это выражение, если мы считаем доверительным уровень со значением “Альфа” в процентах. Например, (100-70)/100=0,3.
  • “Стандартное отклонение” — соответственно, стандартное отклонение анализируемой выборки данных.
  • “Размер” – объем выборки данных.

Примечание: У данной функции наличие всех трех аргументов является обязательным условием.

Оператор “ДОВЕРИТ”, который применялся в более ранних редакциях программы, содержит такие же аргументы и выполняет те же самые функции.

Формула функции ДОВЕРИТ выглядит следующим образом:

=ДОВЕРИТ(Альфа;Станд_откл;Размер)

Отличий в самой формуле нет никаких, лишь название оператора иное. В редакциях приложения Эксель 2010 года и последующих этот оператор находится в категории “Совместимость”. В более же старых версиях программы он находится в разделе статических функций.

Граница доверительного интервала определяется следующей формулой:

X+(-)ДОВЕРИТ.НОРМ

где Х – это среднее значение по заданному диапазону.

Теперь давайте разберемся, как применять эти формулы на практике. Итак, у нас есть таблица с различными данными 10-ти проведенных замеров. При этом, стандартное отклонение совокупности данных равняется 8.

Перед нами стоит задача – получить значение довери

Перед нами стоит задача – получить значение доверительного интервала с 95%-ым уровнем доверия.

  1. Первым делом выбираем ячейку для вывода результата. Затем кликаем по кнопке “Вставить функцию” (слева от строки формул).Откроется окно Мастера функций. Кликнув по текущей
  2. Откроется окно Мастера функций. Кликнув по текущей категории функций, раскрываем список и щелкаем в нем по строке “Статистические”.В предложенном перечне кликаем по оператору “ДОВЕР
  3. В предложенном перечне кликаем по оператору “ДОВЕРИТ.НОРМ”, затем жмем OK.Перед нами появится окно с настройками аргументов
  4. Перед нами появится окно с настройками аргументов функции, заполнив которые нажимаем кнопку OK.
    • в поле “Альфа” указываем уровень значимости. В нашей задаче предполагается 95%-ый уровень доверия. Подставив данное значение в формулу расчета, которую мы рассматривали выше, получаем выражение: (100-95)/100. Пишем его в поле аргумента (или можно сразу написать результат вычисления, равный 0,05).
    • в поле “Станд_откл” согласно нашим условия, пишем цифру 8.
    • в поле “Размер” указываем количество исследуемых элементов. В нашем случае было проведено 10 замеров, значит пишем цифру 10.
  5. Чтобы при изменении данных не пришлось заново настраивать функцию, можно автоматизировать ее. Для это применим функцию “СЧЁТ”. Ставим указатель в область ввода информации аргумента “Размер”, затем щелкаем по значку треугольника с левой стороны от строки формул и кликаем по пункту “Другие функции…”.В результате откроется еще одно окно Мастера функц
  6. В результате откроется еще одно окно Мастера функций. Выбрав категорию “Статистические”, кликаем по функции “СЧЕТ”, затем – OK.На экране отобразится еще одно окно с настройками
  7. На экране отобразится еще одно окно с настройками аргументов функции, которая применяется для определения числа ячеек в заданном диапазоне, в которых находятся числовые данные. Формула функции СЧЕТ пишется так: =СЧЁТ(Значение1;Значение2;...). Количество доступных аргументов этой функции может достигать 255 штук. Здесь можно прописать, либо конкретные числа, либо адреса ячеек, либо диапазоны ячеек. Мы воспользуемся последним вариантом. Для этого кликаем по области ввода информации для первого аргумента, затем зажав левую кнопку мыши выделяем все ячейки одного из столбцов нашей таблицы (не считая шапки), после чего жмем кнопку OK.В результате проделанных действий в выбранной ячей
  8. В результате проделанных действий в выбранной ячейке будет выведено результат расчетов по оператору ДОВЕРИТ.НОРМ. В нашей задаче его значение оказалось равным 4,9583603.Но это еще не конечный результат в нашей задаче. Д
  9. Но это еще не конечный результат в нашей задаче. Далее требуется рассчитать среднее значение по заданному интервалу. Для этого потребуется применить функцию “СРЗНАЧ”, которая выполняет задачу по вычислению среднего значения в пределах указанного диапазона данных. Формула оператора пишется так: =СРЗНАЧ(число1;число2;...). Выделяем ячейку, куда планируем вставить функцию и жмем кнопку “Вставить функцию”.В категории “Статистические” выбираем нудный опера
  10. В категории “Статистические” выбираем нудный оператор “СРЗНАЧ” и кликаем OK.В аргументах функции в значении аргумента “Число”
  11. В аргументах функции в значении аргумента “Число” указываем диапазон, в который входят все ячейки со значениями всех замеров. Затем кликаем OK.В результате проделанных действий среднее значение
  12. В результате проделанных действий среднее значение будет автоматически подсчитано и выведено в ячейку с только что вставленной функцией.Теперь нам нужно рассчитать границы ДИ (доверитель
  13. Теперь нам нужно рассчитать границы ДИ (доверительного интервала). Начнем с расчета значения правой границы. Выбираем ячейку, куда хотим вывести результат, и выполняем в ней сложение результатов, полученных с помощью операторов “СРЗНАЧ” и “ДОВЕРИТ.НОРМ”. В нашем случае формула выглядит так: A14+A16. После ее набора жмем Enter.В результате будет произведен расчет и результат н
  14. В результате будет произведен расчет и результат немедленно отобразится в ячейке с формулой.Затем аналогичным способом выполняем расчет для по
  15. Затем аналогичным способом выполняем расчет для получения значения левой границы ДИ. Только в этом случае значение результата “ДОВЕРИТ.НОРМ” нужно не прибавлять, а вычитать из результата, полученного при помощи оператора “СРЗНАЧ”. В нашем случае формула выглядит так: =A16-A14.После нажатия Enter мы получим результат в заданно
  16. После нажатия Enter мы получим результат в заданной ячейке с формулой.

Примечание: В пунктах выше мы постарались максимально подробно расписать все шаги и каждую применяемую функцию. Однако все прописанные формулы можно записать вместе, в составе одной большой:

  • Для определения правой границы ДИ общая формула будет выглядеть так:=СРЗНАЧ(B2:B11)+ДОВЕРИТ.НОРМ(0,05;8;СЧЁТ(B2:B11)).
  • Точно также и для левой границы, только вместо плюса нужно поставить минус:=СРЗНАЧ(B2:B11)-ДОВЕРИТ.НОРМ(0,05;8;СЧЁТ(B2:B11)).

Асимптотическое приближение

Однако не всегда можно рассчитать точный доверительный интервал. В этом случае строится приближённая вероятность — асимптотическая. Пусть для некоторого j Є (0,1) существует набор статистик S-(X|n|, j) и S-(X|n|, j), причём такие, что lim P{ S-(X|n|, j) < t < S-(X|n|, j), } = 1- j, при эн, стремящемуся к бесконечности, тогда область, ограниченная интервалом (S-(X|n|, j), S-(X|n|, j)), является асимптотической приближённой. Её построение основывается на свойствах нормальных оценок. То есть для начала необходимо для параметра выбрать оценку, обладающую свойством асимптотической нормальностью.

Оценку тэты можно выполнить по формуле: t = t (x|n|), при этом √n (t-t) * (d / n → ∞) ~ N (0, ς2), а ς2 — коэффициент асимптотического рассеивания. Если делается несколько анализов одного параметра, то считается лучшим тот, у которого коэффициент будет меньше.

Применив теорему непрерывности к статистике, можно показать, что функция вида √n (t — t), отнесённая к среднестатистическому отклонению ς (t) по распределению, при n → ∞ сходится к случайной величине, имеющей стандартное распределение. То есть для последовательности случайных векторов справедливо выражение: kn = (k (n1), …, (k (nm). И если заданная функция непрерывна H: Rm →R, то H (k (n) * d / n → ∞, то имеет место сходимость: (√n (t — t) / ς (t)) / *(d / n → ∞) k ~ N (0, 1).

Отсюда будет справедливым следующее соотношение: P{-z (1-j/2) < z (1-j/2} → 1 — j = 1 / √2p ∫ (e -y2/2) dy. Таким образом, вероятность попадания будет находиться в области P є (z (1 — j/2), — z (1 — j/2)) и будет стремиться к минусу йод. Здесь z является квантилем 1- j/2. Точность интервальной оценки характеризуется шириной доверительной области. Чем больше объём выборки, тем уже будет рассматриваемый интервал (меньше ширина) и тем точнее будет интервальная оценка.

Свойство статистики и распределения

Так как статистика по игреку строится таким образом, чтобы она была монотонной и непрерывной по тэте, то можно найти обратную функцию y-1. Для определённости принимают, что игрек по тэта монотонно возрастает. Тогда вероятность расположения будет эквивалентна неравенству: y-1(j/2) < t < y-1(-j/2). Отсюда можно получить доверительный интервал для тэта: P (S -(X | n |, j) < t < S +(X | n |, j)) = 1 — j. Где: S -(X | n |, j) = Y-1(y (a /2)), S +(X | n |, j) = Y-1(y (1- a /2).

Таким образом, определить доверительную вероятность попадания тэта в интервал от S- до S+ можно от значения обратной функции в точках, равняющихся квантили статистики игрек порядка j/2 и 1 — j/2. При этом когда рассматриваемая функция монотонно убывает, знаки в неравенстве меняются на противоположные.

Пользуясь общим подходом расчёта доверительных интервалов, можно посчитать вероятность для нормальной генеральной совокупности, опираясь на ряд утверждений. Пусть известна выборка X|n,| взятая из совокупности E ~ N (j, ς2), то есть имеющей нормальный закон распределения с математическим ожиданием j и дисперсией сигма в квадрате. Для такого состояния справедливо следующее:

  1. Функция вида (X-j) * √ n / ς соответствует стандартному нормальному закону распределения. Икс — это математическое ожидание неизвестного, из которого вычитается истинное значение для получения величины, имеющей нулевую вероятность. После этого величина центруется путём деления на среднее квадратичное отклонение: ς / √ n. Так как закон исходной генеральной совокупности нормальный, то и среднее арифметическое случайных величин будет являться нормально распределённой случайной величиной.
  2. Если статистика S2 не смещена от точки дисперсии, то функция (X — a) * √n / S будет подчиняться распределению Стьюдента с n — 1 степенью свободы.
  3. Статистика n — 1, умноженная на несмещённый центр дисперсии и отнесённая к истинному значению, подчиняется распределению хи-квадрат. В числителе формулы находится сумма квадратов нормальных распределений, которые приводятся к нормальным стандартам.
  4. Когда рассматривается смещённая оценка дисперсии, то статистика nS2 / ς2 соответствует распределению хи-квадрат с эн степенями свободы.

Доверительный интервал для математического ожидания нормальной случайной величины при известной дисперсии

Пусть количественный признак 1) Пусть для оценки       извлечена  выборка       генеральной совокупности имеет нормальное распределение 1) Пусть для оценки       извлечена  выборка       с заданной дисперсией 1) Пусть для оценки       извлечена  выборка       и неизвестным математическим ожиданием 1) Пусть для оценки       извлечена  выборка      .  Построим доверительный интервал для 1) Пусть для оценки       извлечена  выборка      .

1) Пусть для оценки       извлечена выборка       объема      . Тогда

2) Составим случайную  величину:

2) Составим случайную величину:

Нетрудно показать, что случайная величина        и

Нетрудно показать, что случайная величина нормальное распределение имеет стандартизированное нормальное распределение, то есть:

3) Зададим уровень  значимости      .

3) Зададим уровень значимости 4) Применяя формулу нахождения  вероятности отклон.

4) Применяя формулу нахождения вероятности отклонения нормальной величины от математического ожидания, имеем:

Это означает, что доверительный интервал

накрывает неизвестный  параметр       с надежность

накрывает неизвестный параметр       с надежностью      . Точность оценки определяется величиной:

Число       определяется  по таблице значений функ

Число таблице значений функции Лапласа определяется по таблице значений функции Лапласа из равенства

Окончательно получаем:

Окончательно получаем:

Концепция степеней свободы

Обратимся теперь к консервативной альтернативе и используем t-распределение Стьюдента, чтобы построить доверительные интервалы для среднего по совокупности, когда дисперсия генеральной совокупности не известна.

Для доверительных интервалов на основе выборок из нормально распределенных совокупностей с неизвестной дисперсией, теоретически правильный фактор надежности основан на t-распределении. Использование фактора надежности, основанного на t-распределении, имеет важное значение для выборок небольшого размера.

Применение фактора надежности \(t\) уместно, когда дисперсия генеральной совокупности неизвестна, даже если у нас есть большая выборка и мы можем использовать центральную предельную теорему для обоснования использования фактора надежности \(z\). В этом случае большой выборки, t-распределение обеспечивает более консервативные (широкие) доверительные интервалы.

t-распределение является симметричным распределением вероятностей и определяется одним параметром, известным как степени свободы (DF, от англ. ‘degrees of freedom’). Каждое значение для числа степеней свободы определяет одно распределение в этом семействе распределений.

Далее мы сравним t-распределения со стандартным нормальным распределением, но сначала мы должны понять концепцию степеней свободы. Мы можем сделать это путем изучения расчета выборочной дисперсии.

Формула 3 дает несмещенную оценку выборочной дисперсии, которую мы используем. Выражение в знаменателе, \( n — 1 \), означающее размер выборки минус 1, это число степеней свободы при расчете дисперсии совокупности с использованием Формулы 3.

Мы также используем \( n — 1 \) как число степеней свободы для определения факторов надежности на основе распределения Стьюдента. Термин «степени свободы» используются, так как мы предполагаем, что в случайной выборке наблюдения отобраны независимо друг от друга. Числитель выборочной дисперсии, однако, использует выборочное среднее.

Каким образом использование выборочного среднего влияет на количество наблюдений, отобранных независимо, для формулы выборочной дисперсии?

При выборке размера 10 и среднем значении в 10%, к примеру, мы можем свободно отобрать только 9 наблюдений. Независимо от отобранных 9 наблюдений, мы всегда можем найти значение для 10-го наблюдения, которое дает среднее значение, равное 10%. С точки зрения формулы выборочной дисперсии, здесь есть 9 степеней свободы.

Учитывая, что мы должны сначала вычислить выборочное среднее от общего числа \(n\) независимых наблюдений, только \(n — 1\) наблюдений могут быть отобраны независимо друг от друга для расчета выборочной дисперсии.

Концепция степеней свободы часто применяется в финансовой статистике, и вы встретите ее в последующих чтениях.

Доверительный интервал для среднего квадратического отклонения

Извлекая квадратный корень:

Положив:

Положив:

Получим следующий  доверительный интервал для сред

Получим следующий доверительный интервал для среднего квадратического отклонения:

Для отыскания       по заданным       и       поль

Для отыскания   Для проверки на нормальность заданного распредел по заданным   Для проверки на нормальность заданного распредел и   Для проверки на нормальность заданного распредел пользуются специальными таблицами.

Для проверки на нормальность заданного распределения случайной величины можно использовать правило трех сигм.

Теги

Популярные:

Последние:

Adblock
detector