Баєсова лінійна регресія — Вікіпедія

Ба́єсова ліні́йна регре́сія в статистиці — це підхід до лінійної регресії, в якому статистичний аналіз застосовується в контексті баєсового висновування. Якщо помилки регресійної моделі мають нормальний розподіл і якщо розглядається певна форма апріорного розподілу, то для апостеріорного розподілу ймовірності параметрів моделі доступні точні результати.

Налаштування моделі[ред. | ред. код]

Розгляньмо стандартну задачу лінійної регресії, в якій для $i=1,...,n$ ми вказуємо умовну ймовірність $y_{i}$ для заданого вектора $k\times 1$ провісників $\mathbf {x} _{i}$ :

y_{i}=\mathbf {x} _{i}^{\rm {T}}{\boldsymbol {\beta }}+\epsilon _{i},

де ${\boldsymbol {\beta }}$ є вектором завдовжки $k\times 1$ , а $\epsilon _{i}$ є незалежними однаково розподіленими випадковими величинами з нормальним розподілом:

\epsilon _{i}\sim N(0,\sigma ^{2}).

Це відповідає такій функції правдоподібності:

\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).

Розв'язком звичайних найменших квадратів^[en] є оцінка вектора коефіцієнтів за допомогою псевдообернення Мура-Пенроуза:

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y}

де $\mathbf {X}$ є матрицею плану^[en] $n\times k$ , кожен з рядків якої є вектором провісників $\mathbf {x} _{i}^{\rm {T}}$ , а $\mathbf {y}$ є вектором-стовпцем $[y_{1}\;\cdots \;y_{n}]^{\rm {T}}$ .

Це є частотним підходом, що передбачає наявність достатньої кількості вимірювань, щоби сказати щось суттєве про ${\boldsymbol {\beta }}$ . За баєсового ж підходу дані надаються з додатковою інформацією у вигляді апріорного розподілу ймовірності. Ці апріорні переконання про параметри поєднуються з функцією правдоподібності даних згідно з теоремою Баєса для отримання апостеріорного переконання про параметри ${\boldsymbol {\beta }}$ та $\sigma$ . Це апріорне може мати різний функціональний вигляд в залежності від області визначення та інформації, що доступна апріорі.

Зі спряженими апріорними[ред. | ред. код]

Спряжений апріорний розподіл[ред. | ред. код]

Для довільного апріорного розподілу може не існувати аналітичного розв'язку задачі пошуку апостеріорного розподілу. В цьому розділі ми розглянемо так зване спряжене апріорне, для якого апостеріорний розподіл може бути виведено аналітично.

Апріорне $\rho ({\boldsymbol {\beta }},\sigma ^{2})$ є спряженим до функції правдоподібності, якщо вона має такий самий функційний вигляд по відношенню до ${\boldsymbol {\beta }}$ та $\sigma$ . Оскільки логарифмічна правдоподібність є квадратичною в ${\boldsymbol {\beta }}$ , логарифмічна правдоподібність переписується так, що правдоподібність стає нормальною в $({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})$ . Запишімо

{\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\\&+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}).\end{aligned}}

Логарифмічна правдоподібність тепер переписується як

{\begin{aligned}\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})&\propto (\sigma ^{2})^{-v/2}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-(n-v)/2}\\&\times \exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),\end{aligned}}

де

vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}),

та

v=n-k,

де $k$ є кількістю коефіцієнтів регресії.

Це підказує такий вигляд апріорного:

\rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2}),

де $\rho (\sigma ^{2})$ є оберненим гамма-розподілом

\rho (\sigma ^{2})\propto (\sigma ^{2})^{-(v_{0}/2+1)}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2{\sigma }^{2}}}\right).

У записі, запропонованому в статті про обернений гамма-розподіл, це є густиною розподілу ${\text{Inv-Gamma}}(a_{0},b_{0})$ з $a_{0}=v_{0}/2$ та $b_{0}={\frac {1}{2}}v_{0}s_{0}^{2}$ з $v_{0}$ та $s_{0}^{2}$ як апріорних значень $v$ та $s^{2}$ відповідно. Рівносильно, це також може бути описано як зважений обернений розподіл хі-квадрат^[en], ${\mbox{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).$

Далі густина умовного апріорного $\rho ({\boldsymbol {\beta }}|\sigma ^{2})$ є нормальним розподілом,

\rho ({\boldsymbol {\beta }}|\sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).

У записі нормального розподілу густина умовного апріорного є ${\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}\mathbf {\Lambda } _{0}^{-1}\right).$

Апостеріорний розподіл[ред. | ред. код]

Із вже визначеним апріорним, апостеріорний розподіл може бути виражено як

\rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2})\rho (\sigma ^{2})

\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)

\times (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)

\times (\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{{\sigma }^{2}}}\right).

За певного переформулювання^[1] апостеріорне може бути переписано так, що апостеріорне середнє ${\boldsymbol {\mu }}_{n}$ вектора параметрів ${\boldsymbol {\beta }}$ може бути виражено в термінах оцінки найменших квадратів ${\hat {\boldsymbol {\beta }}}$ та апріорного середнього ${\boldsymbol {\mu }}_{0}$ , де підтримка апріорного вказується матрицею точності апріорного ${\boldsymbol {\Lambda }}_{0}$

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).

Для підтвердження того, що ${\boldsymbol {\mu }}_{n}$ дійсно є апостеріорним середнім, квадратні члени в експоненті може бути переформульовано як квадратичну форму^[en] в ${\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}$ .^[2]

(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=

({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.

Тепер апостеріорне може бути виражено як добуток нормального розподілу на обернений гамма-розподіл:

\rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)

\times (\sigma ^{2})^{-(n+2a_{0})/2-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2{\sigma }^{2}}}\right).

Отже, апостеріорний розподіл може бути параметризовано таким чином.

\rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}|\sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}|\mathbf {y} ,\mathbf {X} ),

де ці два множники відповідають густинам розподілів ${\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)$ та ${\text{Inv-Gamma}}\left(a_{n},b_{n}\right)$ , з їхніми параметрами, що задаються як

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

Це може інтерпретуватися як баєсове навчання, де параметри уточнюються відповідно до наступних рівнянь.

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}})=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {y} ),

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},

b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

Свідчення моделі[ред. | ред. код]

Свідчення моделі $p(\mathbf {y} |m)$ є ймовірністю даних за заданої моделі $m$ . Воно також відоме як відособлена правдоподібність, а також як передбачувана апріорна густина. Тут модель визначається функцією правдоподібності $p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )$ та апріорним розподілом параметрів, тобто, $p({\boldsymbol {\beta }},\sigma )$ . Свідчення моделі фіксує одним числом, наскільки гарно така модель пояснює ці спостереження. Свідчення моделі баєсової лінійної регресії, представлене в цьому розділі, може застосовуватись для порівняння конкурентних лінійних моделей баєсовим порівнянням моделей. Ці моделі можуть відрізнятися як кількістю та значеннями змінних-провісників, так і своїми апріорними параметрами моделі. Складність моделі вже враховано свідченням моделі, оскільки воно відособлює параметри інтегруванням $p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma |\mathbf {X} )$ над усіма можливими значеннями ${\boldsymbol {\beta }}$ та $\sigma$ .

p(\mathbf {y} |m)=\int p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma

Цей інтеграл може бути обчислено аналітично, а розв'язок представлено наступним рівнянням.^[3]

p(\mathbf {y} |m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}

Тут $\Gamma$ позначає гамма-функцію. Оскільки ми обрали спряжене апріорне, то відособлену правдоподібність також може бути легко обчислено розв'язанням наступного рівняння для довільних значень ${\boldsymbol {\beta }}$ та $\sigma$ .

p(\mathbf {y} |m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma |\mathbf {y} ,\mathbf {X} ,m)}}

Зауважте, що це рівняння є ні чим іншим, як переформулюванням теореми Баєса. Підставлення формул для апріорного, правдоподібності та апостеріорного, та спрощення отримуваного виразу ведуть до аналітичного виразу, наведеного вище.

Інші випадки[ред. | ред. код]

Виводити апостеріорний розподіл аналітично в загальному випадку може бути неможливо або непрактично. Проте можливо наближувати апостеріорне методом приблизного баєсового висновування, таким як вибірка Монте-Карло^[4] або варіаційні баєсові методи^[en].

Особливий випадок ${\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I}$ називається гребеневою регресією.

Схожий аналіз може виконуватись для загального випадку багатовимірної регресії, і його частина забезпечує баєсову оцінку коваріаційних матриць^[en]: див. багатовимірну баєсову лінійну регресію^[en].

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

↑ Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.
↑ Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.
↑ Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.
↑ Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.

Джерела[ред. | ред. код]

Box, G. E. P.; Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis. Wiley. ISBN 0-471-57428-7. (англ.)
Carlin, Bradley P. and Louis, Thomas A. (2008). Bayesian Methods for Data Analysis, Third Edition. Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-697-8. (англ.)
O'Hagan, Anthony (1994). Bayesian Inference. Kendall's Advanced Theory of Statistics. Т. 2B (вид. First). Halsted. ISBN 0-340-52922-9. (англ.)
Gelman, Andrew^[en], Carlin, John B., Stern, Hal S. and Rubin, Donald B. (2003). Bayesian Data Analysis, Second Edition. Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-388-X. (англ.)
Walter Gero. Bayesian Linear Regression—Different Conjugate Models and Their (In)Sensitivity to Prior-Data Conflict. — 2009. Архівовано з джерела 5 січня 2015. Процитовано 10 вересня 2015. (англ.)
Goldstein, Michael; Wooff, David (2007). Bayes Linear Statistics, Theory & Methods. Wiley. ISBN 978-0-470-01562-9. (англ.)
Fahrmeir, L., Kneib, T., and Lang, S. (2009). Regression. Modelle, Methoden und Anwendungen (вид. Second). Heidelberg: Springer. doi:10.1007/978-3-642-01837-4. ISBN 978-3-642-01836-7. (англ.)
Rossi, Peter E.; Allenby, Greg M.; McCulloch, Robert (2006). Bayesian Statistics and Marketing. John Wiley & Sons. ISBN 0470863676. (англ.)
Thomas P. Minka (2001) Bayesian Linear Regression [Архівовано 26 жовтня 2008 у Wayback Machine.], Microsoft research web page (англ.)

Посилання[ред. | ред. код]

Bayesian estimation of linear models (R programming wikibook). Реалізація баєсової лінійної регресії мовою R.

[1] Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.

[2] Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.

[3] Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.

[4] Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.

[1]

[2]

[3]

[4]