Канонічна кореляція — Вікіпедія

У статистиці, каноні́чно-кореляці́йний ана́ліз (ККА, англ. canonical-correlation analysis, CCA) це спосіб виведення інформації зі взаємно-коваріаційних матриць^[en]. Якщо ми маємо два вектори випадкових змінних, X = (X₁, ..., X_n) та Y = (Y₁, ..., Y_m), та між цими змінними існують кореляції, то канонічно-кореляційний аналіз знайде такі лінійні комбінації X_i та Y_j, які мають максимальну кореляцію між собою.^[1] Т. Р. Кнапп зазначає, що «практично всі загальноприйняті параметричні критерії^[en] значущості можна розглядати як окремі випадки канонічно-кореляційного аналізу, що є загальною процедурою для дослідження взаємозв'язків між двома наборами змінних.»^[2] Вперше цей метод було представлено Гарольдом Готелінґом 1936 року.^[3]

Визначення[ред. | ред. код]

Для двох заданих стовпчикових векторів випадкових змінних зі скінченними другими моментами $X=(x_{1},\dots ,x_{n})'$ та $Y=(y_{1},\dots ,y_{m})'$ можна визначити взаємну коваріацію $\Sigma _{XY}=\operatorname {cov} (X,Y)$ як матрицю $n\times m$ , чий $(i,j)$ -тий елемент є коваріацією $\operatorname {cov} (x_{i},y_{j})$ . На практиці ми б оцінювали коваріаційну матрицю на основі вибіркових даних з $X$ та $Y$ (тобто, з пари матриць даних).

Канонічно-кореляційний аналіз шукає таких векторів $a$ та $b$ , що випадкові змінні $a'X$ та $b'Y$ максимізують кореляцію $\rho =\operatorname {corr} (a'X,b'Y)$ . Випадкові змінні $U=a'X$ та $V=b'Y$ є першою парою канонічних змінних (англ. first pair of canonical variables). Потім шукають векторів, які максимізують ту саму кореляцію, з обмеженням, що вони не корелюють з першою парою канонічних змінних; це дає другу пару канонічних змінних (англ. second pair of canonical variables). Цю процедуру може бути продовжено аж до $\min\{m,n\}$ разів.

Обчислення[ред. | ред. код]

Виведення[ред. | ред. код]

Нехай $\Sigma _{XX}=\operatorname {cov} (X,X)$ , а $\Sigma _{YY}=\operatorname {cov} (Y,Y)$ . Параметром для максимізації є

\rho ={\frac {a'\Sigma _{XY}b}{{\sqrt {a'\Sigma _{XX}a}}{\sqrt {b'\Sigma _{YY}b}}}}.

Першим кроком є визначення заміни базису та визначення

c=\Sigma _{XX}^{1/2}a,

d=\Sigma _{YY}^{1/2}b.

І відтак ми маємо

\rho ={\frac {c'\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d}{{\sqrt {c'c}}{\sqrt {d'd}}}}.

Згідно нерівності Коші — Буняковського, ми маємо

\left(c'\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\right)d\leq \left(c'\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}\left(d'd\right)^{1/2},

\rho \leq {\frac {\left(c'\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}c\right)^{1/2}}{\left(c'c\right)^{1/2}}}.

Рівність є тоді, коли вектори $d$ та $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$ є колінеарними. Крім того, максимум кореляції досягається тоді, коли $c$ є власним вектором матриці $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$ з максимальним власним значенням (див. відношення Релея). Подальші пари знаходять, використовуючи власні значення зменшуваної величини. Ортогональність гарантовано симетричністю кореляційних матриць.

Розв'язок[ред. | ред. код]

Отже, розв'язанням є:

$c$ є власним вектором $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1/2}$
$d$ є пропорційним до $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1/2}c$

Аналогічно,

$d$ є власним вектором $\Sigma _{YY}^{-1/2}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1/2}$
$c$ є пропорційним до $\Sigma _{XX}^{-1/2}\Sigma _{XY}\Sigma _{YY}^{-1/2}d$

Обертаючи зміну координат, отримуємо, що

$a$ є власним вектором $\Sigma _{XX}^{-1}\Sigma _{XY}\Sigma _{YY}^{-1}\Sigma _{YX}$
$b$ є власним вектором $\Sigma _{YY}^{-1}\Sigma _{YX}\Sigma _{XX}^{-1}\Sigma _{XY}$
$a$ є пропорційним до $\Sigma _{XX}^{-1}\Sigma _{XY}b$
$b$ є пропорційним до $\Sigma _{YY}^{-1}\Sigma _{YX}a$

Канонічні змінні визначаються як

U=c'\Sigma _{XX}^{-1/2}X=a'X

V=d'\Sigma _{YY}^{-1/2}Y=b'Y

Реалізація[ред. | ред. код]

ККА може бути обчислювано із застосуванням сингулярного розкладу кореляційної матриці.^[4] Він доступний як функція в^[5]

MATLAB як canoncorr [Архівовано 30 серпня 2014 у Wayback Machine.]
R як cancor [Архівовано 17 вересня 2020 у Wayback Machine.], або в FactoMineR [Архівовано 9 листопада 2020 у Wayback Machine.], або в CCP [Архівовано 21 грудня 2016 у Wayback Machine.]
SAS^[en] як proc cancorr [Архівовано 26 липня 2017 у Wayback Machine.]
scikit-learn, Python як Cross decomposition [Архівовано 18 вересня 2020 у Wayback Machine.]
SPSS як макрос CanCorr, що постачається з основним програмним забезпеченням

Перевірка гіпотез[ред. | ред. код]

Кожен рядок може бути перевірено на значущість за допомогою наступного методу. Оскільки кореляції впорядковуються, то якщо сказати, що рядок $i$ є нульовим, з цього випливатиме, що всі наступні кореляції також є нульовими. Якщо ми маємо в вибірці $p$ незалежних спостережень, а ${\widehat {\rho }}_{i}$ є оцінкою кореляції для $i=1,\dots ,\min\{m,n\}$ , то для $i$ -того рядка статистичним критерієм є

\chi ^{2}=-\left(p-1-{\frac {1}{2}}(m+n+1)\right)\ln \prod _{j=i}^{\min\{m,n\}}(1-{\widehat {\rho }}_{j}^{2}),

що для великих $p$ асимптотично має розподіл хі-квадрат з $(m-i+1)(n-i+1)$ ступенями вільності.^[6] Оскільки всі кореляції від $\min\{m,n\}$ до $p$ є логічно нульовими (і оцінюваними таким чином), то добуток членів після цієї точки не має значення.

Практичні застосування[ред. | ред. код]

Типовим застосуванням для канонічної кореляції в експериментальному контексті є брати два набори змінних, і дивитися, що є спільного між цими двома наборами. Наприклад, у психологічному тестуванні можна взяти два добре усталені багатовимірні особистісні тести^[en], такі як мінесотський багатопрофільний особистісний опитувальник (MMPI-2) та NEO^[en]. Дивлячись, як співвідносяться коефіцієнти MMPI-2 та NEO, можна отримати розуміння, які виміри були спільними для цих двох наборів, і скільки було спільної мінливості. Наприклад, можна було би з'ясувати, що виміри екстравертності та невротизму відповідальні за значну величину спільної мінливості цих двох наборів.

Канонічно-кореляційний аналіз також можна використовувати для вироблення рівняння моделі, яка пов'язує два набори змінних, наприклад, набір вимірів продуктивності та набір пояснювальних змінних, або набір виходів та набір входів. На таку модель може бути накладено обмеження, щоби забезпечити відображення нею теоретичних вимог або інтуїтивно очевидних умов. Цей тип моделі відомий як модель з максимальною кореляцією (англ. maximum correlation model).^[7]

Унаочнюють результати канонічної кореляції зазвичай за допомогою стовпчикових діаграм коефіцієнтів двох наборів змінних для пар канонічних варіат^[en], що показують значущу кореляцію. Деякі автори вважають, що їх найкраще унаочнювати через геліографіки (англ. heliographs), круговий формат із променями як стовпчики, де кожна з половин представляє по набору змінних.^[8]

Приклади[ред. | ред. код]

Нехай $X=x_{1}$ з нульовим математичним сподіванням, тобто, $\operatorname {E} (X)=0$ . Якщо $Y=X$ , тобто $X$ та $Y$ є повністю корельованими, то, наприклад, $a=1$ та $b=1$ , і відтак першою (і єдиною в цьому прикладі) парою канонічних змінних є $U=X$ та $V=Y=X$ . Якщо $Y=-X$ , тобто $X$ та $Y$ є повністю антикорельованими, то, наприклад, $a=1$ та $b=-1$ , і відтак першою (і єдиною в цьому прикладі) парою канонічних змінних є $U=X$ та $V=-Y=X$ . Зауважмо, що в обох випадках $U=V$ , що показує, що канонічно-кореляційний аналіз трактує корельовані та антикорельовані змінні аналогічно.

Зв'язок із головними кутами[ред. | ред. код]

Виходячи з того, що $X=(x_{1},\dots ,x_{n})'$ та $Y=(y_{1},\dots ,y_{m})'$ мають нульові математичні сподівання, тобто $\operatorname {E} (X)=\operatorname {E} (Y)=0$ , їхні коваріаційні матриці $\Sigma _{XX}=\operatorname {Cov} (X,X)=\operatorname {E} [XX']$ та $\Sigma _{YY}=\operatorname {Cov} (Y,Y)=\operatorname {E} [YY']$ можна розглядати як матриці Грама у внутрішньому добутку для елементів $X$ та $Y$ відповідно. В цій інтерпретації випадкові змінні, елементи $x_{i}$ з $X$ та $y_{j}$ з $Y$ , розглядають як елементи векторного простору з внутрішнім добутком, заданим коваріацією $\operatorname {cov} (x_{i},y_{j})$ , див. Зв'язок коваріації з внутрішніми добутками.

Тоді визначення канонічних змінних $U$ та $V$ є рівнозначним визначенню кореневих векторів^[en] для пари підпросторів, породжуваних елементами $X$ та $Y$ по відношенню до цього внутрішньому добутку. Канонічні кореляції $\operatorname {corr} (U,V)$ дорівнюють косинусові головних кутів^[en].

Див. також[ред. | ред. код]

Узагальнена канонічна кореляція^[en]
Навчання полілінійного підпростору^[en]
R_V-коефіцієнт^[en]
Головні кути^[en]
Метод головних компонент
Дискримінантний аналіз
Регуляризований канонічно-кореляційний аналіз^[en]
Сингулярний розклад матриці
Регресія частинних найменших квадратів^[en]

Посилання[ред. | ред. код]

Discriminant Correlation Analysis (DCA) [Архівовано 11 червня 2018 у Wayback Machine.]^[9] (MATLAB)
Hardoon, D. R.; Szedmak, S.; Shawe-Taylor, J. (2004). Canonical Correlation Analysis: An Overview with Application to Learning Methods. Neural Computation. 16 (12): 2639—2664. doi:10.1162/0899766042321814. PMID 15516276. (англ.)
A note on the ordinal canonical-correlation analysis of two sets of ranking scores [Архівовано 18 вересня 2020 у Wayback Machine.] (також пропонує програму мовою FORTRAN) — в J. of Quantitative Economics 7(2), 2009, pp. 173–199 (англ.)
Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (також пропонує програму мовою FORTRAN) — в J. of Applied Economic Sciences 4(1), 2009, pp. 115–124

Примітки[ред. | ред. код]

↑ Härdle, Wolfgang; Simar, Léopold (2007). Canonical Correlation Analysis. Applied Multivariate Statistical Analysis. с. 321—330. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4. (англ.)
↑ Knapp, T. R. (1978). Canonical correlation analysis: A general parametric significance-testing system. Psychological Bulletin. 85 (2): 410—416. doi:10.1037/0033-2909.85.2.410. (англ.)
↑ Hotelling, H. (1936). Relations Between Two Sets of Variates. Biometrika. 28 (3–4): 321—377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955. (англ.)
↑ Hsu, D.; Kakade, S. M.; Zhang, T. (2012). A spectral algorithm for learning Hidden Markov Models (PDF). Journal of Computer and System Sciences. 78 (5): 1460. arXiv:0811.4413. doi:10.1016/j.jcss.2011.12.025. Архів оригіналу (PDF) за 1 жовтня 2020. Процитовано 11 серпня 2017. (англ.)
↑ Huang, S. Y.; Lee, M. H.; Hsiao, C. K. (2009). Nonlinear measures of association with kernel canonical correlation analysis and applications (PDF). Journal of Statistical Planning and Inference. 139 (7): 2162. doi:10.1016/j.jspi.2008.10.011. Архів оригіналу (PDF) за 13 березня 2017. Процитовано 11 серпня 2017. (англ.)
↑ Kanti V. Mardia^[en], J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press^[en]. (англ.)
↑ Tofallis, C. (1999). Model Building with Multiple Dependent Variables and Constraints. Journal of the Royal Statistical Society: Series D (The Statistician). 48 (3): 371—378. arXiv:1109.0725. doi:10.1111/1467-9884.00195. (англ.)
↑ Degani, A.; Shafto, M.; Olson, L. (2006). Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns. Diagrammatic Representation and Inference (PDF). Lecture Notes in Computer Science. Т. 4045. с. 93. doi:10.1007/11783183_11. ISBN 978-3-540-35623-3. Архів оригіналу (PDF) за 8 серпня 2017. Процитовано 11 серпня 2017. (англ.)
↑ M. Haghighat, M. Abdel-Mottaleb, & W. Alhalabi (2016). Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition. IEEE Transactions on Information Forensics and Security, 11(9), 1984-1996.

[1] Härdle, Wolfgang; Simar, Léopold (2007). Canonical Correlation Analysis. Applied Multivariate Statistical Analysis. с. 321—330. doi:10.1007/978-3-540-72244-1_14. ISBN 978-3-540-72243-4. (англ.)

[2] Knapp, T. R. (1978). Canonical correlation analysis: A general parametric significance-testing system. Psychological Bulletin. 85 (2): 410—416. doi:10.1037/0033-2909.85.2.410. (англ.)

[3] Hotelling, H. (1936). Relations Between Two Sets of Variates. Biometrika. 28 (3–4): 321—377. doi:10.1093/biomet/28.3-4.321. JSTOR 2333955. (англ.)

[4] Hsu, D.; Kakade, S. M.; Zhang, T. (2012). A spectral algorithm for learning Hidden Markov Models (PDF). Journal of Computer and System Sciences. 78 (5): 1460. arXiv:0811.4413. doi:10.1016/j.jcss.2011.12.025. Архів оригіналу (PDF) за 1 жовтня 2020. Процитовано 11 серпня 2017. (англ.)

[5] Huang, S. Y.; Lee, M. H.; Hsiao, C. K. (2009). Nonlinear measures of association with kernel canonical correlation analysis and applications (PDF). Journal of Statistical Planning and Inference. 139 (7): 2162. doi:10.1016/j.jspi.2008.10.011. Архів оригіналу (PDF) за 13 березня 2017. Процитовано 11 серпня 2017. (англ.)

[6] Kanti V. Mardia^[en], J. T. Kent and J. M. Bibby (1979). Multivariate Analysis. Academic Press^[en]. (англ.)

[7] Tofallis, C. (1999). Model Building with Multiple Dependent Variables and Constraints. Journal of the Royal Statistical Society: Series D (The Statistician). 48 (3): 371—378. arXiv:1109.0725. doi:10.1111/1467-9884.00195. (англ.)

[8] Degani, A.; Shafto, M.; Olson, L. (2006). Canonical Correlation Analysis: Use of Composite Heliographs for Representing Multiple Patterns. Diagrammatic Representation and Inference (PDF). Lecture Notes in Computer Science. Т. 4045. с. 93. doi:10.1007/11783183_11. ISBN 978-3-540-35623-3. Архів оригіналу (PDF) за 8 серпня 2017. Процитовано 11 серпня 2017. (англ.)

[dca-9] M. Haghighat, M. Abdel-Mottaleb, & W. Alhalabi (2016). Discriminant Correlation Analysis: Real-Time Feature Level Fusion for Multimodal Biometric Recognition. IEEE Transactions on Information Forensics and Security, 11(9), 1984-1996.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]