Корелограма — Вікіпедія

Корелограма

На малюнку — графік, що показує 100 випадкових чисел з «прихованою» функцією синус, автокореляція (корелограма) рядів на дні.
Приклад корелограми

В аналізі даних корелограмою називається зображення статистики кореляції. Наприклад, в аналізі часових рядів, корелограма, також знана як автокореляційна діаграма, являє собою графік зразка автокореляцій , в порівнянні з , (часові затримки).

Якщо використовується взаємно-кореляційна функція, результат називають поперечною корелограмою. Корелограми є широко використовуваним інструментом для перевірки випадковості в наборі даних. Випадковість знаходиться шляхом обчислення автокореляції для значень даних при різних часових затримках. Якщо випадково, такі автокореляції будуть близькі до нуля для будь-яких і всіх розділень часових затримок. Якщо невипадкове, то один або більше з автокореляції буде істотно відмінна від нуля.

Крім того, корелограми використовують в ідентифікації системи для Box-Jenkins моделі авторегресії ковзного середнього часового ряду. Автокореляція повинна бути близькою до нуль-випадковості, якщо аналітик не перевіряє випадковість, то справедливість багатьох з статистичних висновків попадає під сумнів. Корелограми є чудовим способом перевірки такої випадковості.

Застосування[ред. | ред. код]

Корелограми допомагають знайти відповіді на такі питання:

  • Чи дані насправді випадкові?
  • Чи спостереження пов'язані з суміжними спостереженнями?
  • Чи пов'язані спостереження з двічі зсунутим спостереженням?
  • Чи є спостережуваний часовий ряд — білим шумом?
  • Чи є спостережуваний часовий ряд — синусоїдою?
  • Чи є спостережуваний часовий ряд — авторегресивним?
  • Якою є модель, що підходить для спостереження за часовим рядом?
  • Чи є модель : дійсною та достатньою?
  • Чи є значення дійсним?

Значення[ред. | ред. код]

Випадковість (разом з фіксованою моделлю, фіксованими змінними та фіксованим розподілом) є одним з чотирьох припущень, які лежать в основі всіх процесів вимірювань. Припущення випадковості дуже важливе з таких причин:

  • Більшість стандартних статистичних тестів залежать від випадковості. Валідність результатів тесту прямо пов'язане з тим, чи є дійсною припущена випадковість.
  • Багато формул в статистиці залежать від випадковості припущення, найбільш поширеною є формула для визначення стандартного відхилення:

, Де S — це стандартне відхилення даних. Не зважаючи на те, що ця формула дуже поширення, її результати не мають цінності, якщо не триматися припущеної випадковості.

  • Для одновимірних даних, за замовчуванням:

Якщо дані не є випадковими, ця модель — некоректна та не є дійсною, тому оцінки параметрів стають безглуздими.

Оцінка автокореляцій[ред. | ред. код]

Коефіцієнт автокореляції:

,

де ch — автоковаріаційна функція.

c0 — дисперсія функції

Отримане значення rh буде в діапазоні від −1 до 1.

Альтернативні оцінки[ред. | ред. код]

Інколи використовують наступну формулу для автоваріації функції:

Хоча це визначення має менший відхил, (1/N) має деякі бажані статистичні властивості. Цю формулу часто використовують в літературі про статистику.

Статистичні висновки[ред. | ред. код]

В один графік можна провести верхню та нижню межі для автокореляції за рівнем значущості: , з як передбачувана автокореляція для запізнення . Якщо автокореляція вище (нижче), ніж ця верхня (нижня) межа, то нульова гіпотеза, тобто що немає автокореляції в самій затримці та за її межами відкидається на рівні значущості. Цей тест є наближеним і припускає, що часовий ряд є гаусовим. У наведеній вище z1-α/2 квантиль нормального розподілу; SE — стандартна помилка, яка може бути обчислена за формулою Бартлетта:

for

На картинці вище ми можемо відкинути нульову гіпотезу про те, що немає автокореляції між часовими точками, які є суміжними (запізнення = 1). Для інших періодів ніхто не може відкинути нульову гіпотезу про відсутність автокореляції.

Слід зазначити, що існують дві різні формули для генерації області впевненості:
1. Якщо корелограми використовується для перевірки випадковості (тобто не має часової залежності між даними), то краще використати наступну формулу: де N є розмір вибірки, Z є квантиль функція стандартного нормального розподілу і α є рівень значущості. У цьому випадку, довірчі інтервали мають фіксовану довжину, яка залежить від розміру вибірки.
2. Корелограми також використовуються на стадії ідентифікації моделі для установки моделей типу ARIMA. У цьому випадку модель ковзного середнього значення визначений для даних і наступні області впевненості повинні бути сформовані: де к-запізнення. У цьому випадку довірчі інтервали зростають в міру збільшення затримки.

Програмне забезпечення[ред. | ред. код]

Корелограми доступні у більшості статистичного програмного забезпечення загального призначення. Для створення такого типу графіка в R можна використовувати функції ACF і PACF.

Див. також[ред. | ред. код]