Вибірковий розподіл — Вікіпедія

Вибірковий розподіл або розподіл скінченних вибірок у статистиці — це розподіл імовірності заданої статистики, що базується на випадковій вибірці. Вибіркові розподіли є важливими у статистиці, оскільки вони забезпечують значне спрощення на шляху до статистичного висновування. Конкретніше, вони дозволяють аналітичним міркуванням ґрунтуватися на вибірковому розподілі статистики, а не на спільному розподілі ймовірності всіх окремих значень вибірки.

Вступ[ред. | ред. код]

Вибірковий розподіл статистики — це розподіл цієї статистики, що розглядається як випадкова змінна, що виводиться з випадкової вибірки розміру $n$ . Його можна розглядати як розподіл статистики для всіх можливих вибірок з цієї ж генеральної сукупності, що мають заданий розмір вибірки. Вибірковий розподіл залежить від розподілу, що лежить в основі генеральної сукупності, статистики, що розглядається, залученої процедури відбору, та використовуваного розміру вибірки. Часто існує значний інтерес, чи може вибірковий розподіл бути наближено асимптотичним розподілом^[en], що відповідає граничному випадку або коли прямує до нескінченності кількість випадкових вибірок скінченного розміру, що відбираються з нескінченної генеральної сукупності та використовуються для отримання розподілу, або коли з цієї ж генеральної сукупності береться лише одна «вибірка» з розміром, що дорівнює нескінченності.

Наприклад, розгляньмо нормальну генеральну сукупність із середнім значенням $\mu$ та дисперсією $\sigma ^{2}$ . Припустімо, що ми багаторазово беремо вибірки заданого розміру з цієї сукупності та обчислюємо середнє арифметичне $\scriptstyle {\bar {x}}$ для кожної з них — цю статистика називають вибірковим середнім. Розподіл цих середніх, або усереднень, називають «вибірковим розподілом вибіркового середнього». Цей розподіл є нормальним $\scriptstyle {\mathcal {N}}(\mu ,\,\sigma ^{2}/n)$ (n є розміром вибірки), оскільки генеральна сукупність, що лежить в його основі, є нормальною, хоча вибіркові розподіли можуть також часто бути близькими до нормального навіть коли розподіл генеральної сукупності таким не є (див. центральна гранична теорема). Альтернативою вибірковому середньому є вибіркова медіана. При обчисленні з тієї ж самої генеральної сукупності вона має інший вибірковий розподіл, ніж у вибіркового середнього, і зазвичай не є нормальною (але може бути близькою до цього для великих розмірів вибірки).

Середнє значення вибірки з генеральної сукупності, що має нормальний розподіл, є прикладом простої статистики, що береться з однієї з найпростіших статистичних генеральних сукупностей. Формули для інших статистик та інших генеральних сукупностей є складнішими, і часто вони не існують у замкненому вигляді. В таких випадках вибіркові розподіли можна наближувати за допомогою симуляцій Монте-Карло,^[1] статистичного бутстрепу або теорії асимптотичного розподілу^[en].

Стандартна похибка[ред. | ред. код]

Стандартне відхилення вибіркового розподілу статистики називають стандартною похибкою цієї величини. Для випадку, коли статистика є середнім значенням вибірки і вибірки є некорельованими, стандартною похибкою є

\sigma _{\bar {x}}={\frac {\sigma }{\sqrt {n}}}

де $\sigma$ є стандартною похибкою розподілу цієї величини генеральної сукупності, а $n$ є розміром вибірки (кількістю елементів у вибірці).

Важливим наслідком цієї формули є те, що для досягнення половини (1/2) похибки вимірювання розмір вибірки має бути збільшено вчетверо (помножено на 4). При проектуванні статистичних досліджень, у яких витрати є чинником, це може відігравати свою роль у розумінні компромісу між витратами та вигодами.

Приклади[ред. | ред. код]

Генеральна сукупність	Статистика	Вибірковий розподіл
Нормальна: ${\mathcal {N}}(\mu ,\sigma ^{2})$	Вибіркове середнє ${\bar {X}}$ з вибірок розміру n	${\bar {X}}\sim {\mathcal {N}}{\Big (}\mu ,\,{\frac {\sigma ^{2}}{n}}{\Big )}$ або (якщо дисперсія не відома): ${\bar {X}}\sim {\mathcal {T}}{\Big (}\mu ,\,{\frac {S^{2}}{n}}{\Big )}$ , де $S$ є стандартним відхиленням вибірки, а ${\mathcal {T}}$ є t-розподілом Стьюдента.
Бернуллі: $\operatorname {Bernoulli} (p)$	Проста пропорція «успішних проб» ${\bar {X}}$	$n{\bar {X}}\sim \operatorname {Binomial} (n,p)$
Дві незалежні нормальні сукупності: ${\mathcal {N}}(\mu _{1},\sigma _{1}^{2})$ and ${\mathcal {N}}(\mu _{2},\sigma _{2}^{2})$	Різниця між вибірковими середніми, ${\bar {X}}_{1}-{\bar {X}}_{2}$	${\bar {X}}_{1}-{\bar {X}}_{2}\sim {\mathcal {N}}\!\left(\mu _{1}-\mu _{2},\,{\frac {\sigma _{1}^{2}}{n_{1}}}+{\frac {\sigma _{2}^{2}}{n_{2}}}\right)$
Абсолютно безперервний розподіл F із густиною ƒ	Медіана $X_{(k)}$ з вибірки розміром n = 2k − 1, де вибірку впорядковано від $X_{(1)}$ до $X_{(n)}$	$f_{X_{(k)}}(x)={\frac {(2k-1)!}{(k-1)!^{2}}}f(x){\Big (}F(x)(1-F(x)){\Big )}^{k-1}$
Довільний розподіл із функцією розподілу F	Максимум $M=\max \ X_{k}$ з випадкової вибірки розміру n	$F_{M}(x)=P(M\leq x)=\prod P(X_{k}\leq x)=\left(F(x)\right)^{n}$

Статистичне висновування[ред. | ред. код]

У теорії статистичного висновування ідея достатньої статистики пропонує основу для такого вибору статистики (як функції від точок даних вибірки), що жодна інформація не втрачається при заміні повного ймовірнісного опису вибірки вибірковим розподілом обраної статистики.

У частотному висновуванні, наприклад, у створенні перевірки статистичних гіпотез або довірчих інтервалів доступність вибіркового розподілу статистики (або його наближення у вигляді асимптотичного розподілу^[en]) може давати готове формулювання таких процедур, тоді як створення процедур починаючи зі спільного розподілу вибірки було би не таким очевидним.

У баєсовому висновуванні, коли доступний вибірковий розподіл статистики, можна розглядати заміну кінцевого виходу таких процедур, зокрема умовних розподілів будь-яких невідомих величин при заданих даних вибірки, умовними розподілами будь-яких невідомих величин при заданих вибіркових статистиках. Такі процедури залучатимуть вибірковий розподіл цих статистик. Результати будуть ідентичними за умови, що обрані статистики будуть спільно достатніми.

Примітки[ред. | ред. код]

↑ Mooney, 1999, с. 2.

Джерела[ред. | ред. код]

Mooney, Christopher Z. (1999). Monte Carlo simulation. Thousand Oaks, Calif.: Sage. ISBN 9780803959439. Архів оригіналу за 25 жовтня 2015. Процитовано 5 жовтня 2015. (англ.)
Merberg, A. and S.J. Miller (2008). "The Sample Distribution of the Median". Course Notes for Math 162: Mathematical Statistics, on the web at http://web.williams.edu/Mathematics/sjmiller/public_html/BrownClasses/162/Handouts/MedianThm04.pdf [Архівовано 18 лютого 2015 у Wayback Machine.], pgs 1–9. (англ.)

Посилання[ред. | ред. код]

Генерація вибіркових розподілів в Excel [Архівовано 17 травня 2008 у Wayback Machine.] (англ.)
Демонстрація Mathematica, що показує вибірковий розподіл різних статистик (наприклад, Σx²) для нормальної генеральної вибірки [Архівовано 6 жовтня 2015 у Wayback Machine.] (англ.)

[FOOTNOTEMooney19992-1] Mooney, 1999, с. 2.

[1]