Корелограма — Вікіпедія

Корелограма

В аналізі даних корелограмою називається зображення статистики кореляції. Наприклад, в аналізі часових рядів, корелограма, також знана як автокореляційна діаграма, являє собою графік зразка автокореляцій $r_{h}$ , в порівнянні з $h$ , (часові затримки).

Якщо використовується взаємно-кореляційна функція, результат називають поперечною корелограмою. Корелограми є широко використовуваним інструментом для перевірки випадковості в наборі даних. Випадковість знаходиться шляхом обчислення автокореляції для значень даних при різних часових затримках. Якщо випадково, такі автокореляції будуть близькі до нуля для будь-яких і всіх розділень часових затримок. Якщо невипадкове, то один або більше з автокореляції буде істотно відмінна від нуля.

Крім того, корелограми використовують в ідентифікації системи для Box-Jenkins моделі авторегресії ковзного середнього часового ряду. Автокореляція повинна бути близькою до нуль-випадковості, якщо аналітик не перевіряє випадковість, то справедливість багатьох з статистичних висновків попадає під сумнів. Корелограми є чудовим способом перевірки такої випадковості.

Застосування[ред. | ред. код]

Корелограми допомагають знайти відповіді на такі питання:

Чи дані насправді випадкові?
Чи спостереження пов'язані з суміжними спостереженнями?
Чи пов'язані спостереження з двічі зсунутим спостереженням?
Чи є спостережуваний часовий ряд — білим шумом?
Чи є спостережуваний часовий ряд — синусоїдою?
Чи є спостережуваний часовий ряд — авторегресивним?
Якою є модель, що підходить для спостереження за часовим рядом?
Чи є модель : $Y=\mathrm {constant} +\mathrm {error}$ дійсною та достатньою?
Чи є значення $s_{\bar {Y}}=s/{\sqrt {N}}$ дійсним?

Значення[ред. | ред. код]

Випадковість (разом з фіксованою моделлю, фіксованими змінними та фіксованим розподілом) є одним з чотирьох припущень, які лежать в основі всіх процесів вимірювань. Припущення випадковості дуже важливе з таких причин:

Більшість стандартних статистичних тестів залежать від випадковості. Валідність результатів тесту прямо пов'язане з тим, чи є дійсною припущена випадковість.
Багато формул в статистиці залежать від випадковості припущення, найбільш поширеною є формула для визначення стандартного відхилення:

$s_{\bar {Y}}=s/{\sqrt {N}}$ , Де S — це стандартне відхилення даних. Не зважаючи на те, що ця формула дуже поширення, її результати не мають цінності, якщо не триматися припущеної випадковості.

Для одновимірних даних, за замовчуванням: $Y=\mathrm {constant} +\mathrm {error}$

Якщо дані не є випадковими, ця модель — некоректна та не є дійсною, тому оцінки параметрів стають безглуздими.

Оцінка автокореляцій[ред. | ред. код]

Коефіцієнт автокореляції:

r_{h}=c_{h}/c_{0}\,

,

де c_h — автоковаріаційна функція.

c_{h}={\frac {1}{N}}\sum _{t=1}^{N-h}\left(Y_{t}-{\bar {Y}}\right)\left(Y_{t+h}-{\bar {Y}}\right)

c₀ — дисперсія функції

c_{0}={\frac {1}{N}}\sum _{t=1}^{N}\left(Y_{t}-{\bar {Y}}\right)^{2}

Отримане значення r_h буде в діапазоні від −1 до 1.

Альтернативні оцінки[ред. | ред. код]

Інколи використовують наступну формулу для автоваріації функції:

c_{h}={\frac {1}{N-h}}\sum _{t=1}^{N-h}\left(Y_{t}-{\bar {Y}}\right)\left(Y_{t+h}-{\bar {Y}}\right)

Хоча це визначення має менший відхил, (1/N) має деякі бажані статистичні властивості. Цю формулу часто використовують в літературі про статистику.

Статистичні висновки[ред. | ред. код]

В один графік можна провести верхню та нижню межі для автокореляції за рівнем значущості: $B=\pm z_{1-\alpha /2}SE(r_{h})$ , з $r_{h}$ як передбачувана автокореляція для запізнення $h$ . Якщо автокореляція вище (нижче), ніж ця верхня (нижня) межа, то нульова гіпотеза, тобто що немає автокореляції в самій затримці та за її межами відкидається на рівні значущості. Цей тест є наближеним і припускає, що часовий ряд є гаусовим. У наведеній вище z_1-α/2 квантиль нормального розподілу; SE — стандартна помилка, яка може бути обчислена за формулою Бартлетта:

SE(r_{1})={\frac {1}{\sqrt {N}}}

SE(r_{h})={\sqrt {\frac {1+2\sum _{i=1}^{h-1}r_{i}^{2}}{N}}}

for

h>1.\,

На картинці вище ми можемо відкинути нульову гіпотезу про те, що немає автокореляції між часовими точками, які є суміжними (запізнення = 1). Для інших періодів ніхто не може відкинути нульову гіпотезу про відсутність автокореляції.

Слід зазначити, що існують дві різні формули для генерації області впевненості:
1. Якщо корелограми використовується для перевірки випадковості (тобто не має часової залежності між даними), то краще використати наступну формулу: $\pm {\frac {z_{1-\alpha /2}}{\sqrt {N}}}$ де N є розмір вибірки, Z є квантиль функція стандартного нормального розподілу і α є рівень значущості. У цьому випадку, довірчі інтервали мають фіксовану довжину, яка залежить від розміру вибірки.
2. Корелограми також використовуються на стадії ідентифікації моделі для установки моделей типу ARIMA. У цьому випадку модель ковзного середнього значення визначений для даних і наступні області впевненості повинні бути сформовані: $\pm z_{1-\alpha /2}{\sqrt {{\frac {1}{N}}\left(1+2\sum _{i=1}^{k}y_{i}^{2}\right)}}$ де к-запізнення. У цьому випадку довірчі інтервали зростають в міру збільшення затримки.

Програмне забезпечення[ред. | ред. код]

Корелограми доступні у більшості статистичного програмного забезпечення загального призначення. Для створення такого типу графіка в R можна використовувати функції ACF і PACF.

Див. також[ред. | ред. код]

Корелометр