مدل‌های سازنده مبتنی بر جریان - ویکی‌پدیا، دانشنامهٔ آزاد

تعریف[ویرایش]

مدل سازنده مبتنی بر جریان نوعی مدل سازنده است که در یادگیری ماشین استفاده می‌شود که یک توزیع احتمال را با اعمال جریان نرمال‌سازی^[۱] مدل می‌کند. این یک روش آماری با استفاده از قانون تغییر متغیر احتمالات برای تبدیل یک توزیع ساده به یک توزیع پیچیده‌است. مدل‌سازی مستقیم احتمال مزایای بسیاری دارد و نمونه‌های جدید را می‌توان با نمونه برداری از توزیع اولیه و اعمال تبدیل جریان تولید کرد. در مقابل مدل سازنده مبتنی بر جریان، بسیاری از روش‌های مدل‌سازی سازنده جایگزین مانند خودرمزگذار متغیر (VAE) و شبکه‌های سازنده تخاصمی تابع احتمال را نشان نمی‌دهند.

نحوه کارکرد[ویرایش]

سه نوع مدل سازنده: خودرمزنگار متغیر، شبکه‌های مولد تخاصمی، مدل سازنده مبتنی بر جریان

این روش شبیه به خودرمزگذار متغیر است با این تفاوت که به جای استفاده از رمزگذار و رمزگشا از یک جریان معکوس پذیر استفاده می‌شود. به این صورت که به جای رمزگذاری، جریان، ورودی را به فضای داده انتقال می‌دهد و سپس معکوس جریان، خروجی را تولید می‌کند. هدف این است که خروجی و ورودی کمترین تفاوت را با یکدیگر داشته باشند. پس از یادگیری به این روش، مدل باید قادر باشد تا با گرفتن یک بردار ویژگی از فضا و استفاده از معکوس جریان، خروجی معقولی تولید کند.

انواع[ویرایش]

انواع مختلفی از این مدل‌ها وجود دارد. در اینجا به توضیح دو مورد از مهم‌ترین نمونه‌ها می‌پردازیم.

Real Non-Volume Preserving (Real NVP):^[۲]

این مدل کلی‌شده نوع دیگری از مدل‌های مبتنی بر جریان به نام NICE است. روابط آن به صورت زیر می‌باشد:

$x={\begin{bmatrix}x_{1}\\x_{2}\end{bmatrix}}=f_{\theta }(z)={\begin{bmatrix}z_{1}\\e^{-s_{\theta }(z_{1})}\odot z_{2}\end{bmatrix}}+{\begin{bmatrix}0\\m_{\theta }(z_{1})\end{bmatrix}}$

معکوس آن $z_{1}=x_{1},z_{2}=e^{-s_{\theta }(x_{1})}\odot (x_{2}-m_{\theta }(x_{1}))$ و ژاکوبین آن $\prod _{i=1}^{n}e^{s_{\theta }(z_{1,})}$ است. که $z$ در آن خروجی جریان و $m_{\theta }$ هر شبکه عصبی با وزن‌های $\theta$ است.

نقشه Real NVP نیمه اول و دوم بردار $x$ را جدا نگه می‌دارد، معمولاً باید بعد از هر لایه Real NVP یک جایگشت به صورت $(x_{1},x_{2})\mapsto (x_{2},x_{1})$ اضافه شود.

Generative Flow (Glow) (جریان سازنده):^[۳]

در این مدل، هر لایه ۳ قسمت دارد.

تبدیل وابسته به کانال با فرمول $y_{cij}=s_{c}(x_{cij}+b_{c})$

و ژاکوبین $\prod _{c}s_{c}^{HW}$

کانولوشن 1x1 معکوس پذیر با فرمول

z_{cij}=\sum _{c'}K_{cc'}y_{cij}

با ژاکوبین

\det(K)^{HW}

است که

K

هر ماتریس دلخواه معکوس پذیر است.

Real NVP که بالاتر توضیح داده شد.

علت استفاده از لایه کانولوشن معکوس پذیر 1x1 استفاده از جایگشت همه لایه‌هاست. (برخلاف Real NVP که تنها از جایگشت نیمه‌های اول و دوم استفاده می‌کند)

مشکلات و کمبودها[ویرایش]

علی‌رغم اینکه نرمال سازی جریان‌ها در تخمین چگالی‌های ابعاد بالا موفق بوده‌است، برخی از جنبه‌های منفی هنوز در آنها وجود دارد. اول از همه، فضای پنهان آنها که در آن داده‌های ورودی بر روی آن پیش‌بینی می‌شود، فضایی با ابعاد پایین‌تر نیست و بنابراین، مدل‌های مبتنی بر جریان به‌طور پیش فرض اجازه فشرده سازی داده‌ها را نمی‌دهند و به محاسبات زیادی نیاز دارند. با این حال، هنوز امکان فشرده سازی تصویر با آنها وجود دارد.^[۴] همچنین این مدل‌ها در تخمین احتمال نمونه‌های خارج از توزیع (نمونه‌هایی که از توزیع مشابه داده‌های یادگیری استخراج نشده‌اند)^[۵] ناموفق هستند. برخی فرضیه‌ها به توضیح این پدیده می‌پردازند که از جمله آنها فرضیه مجموعه معمولی است.

یکی از جالب‌ترین ویژگی‌های نرمال‌سازی جریان‌ها، معکوس‌پذیری جریان آنهاست. این ویژگی توسط محدودیت‌هایی در طراحی مدل‌ها داده می‌شود که وارونگی نظری را تضمین می‌کنند. یکپارچگی معکوس به منظور اطمینان از کاربردی بودن قضیه تغییر متغیر، محاسبه ژاکوبین جریان و همچنین نمونه برداری با مدل مهم است. با این حال، در عمل این برگشت‌پذیری نقض می‌شود.

کاربردها[ویرایش]

مدل‌های مولد مبتنی بر جریان در کاربردهای مختلفی استفاده شده‌اند، از جمله:

تولید صدا^[۶]
تولید تصویر^[۳]
تولید گراف مولکولی^[۷]
مدل‌سازی نقطه-ابر^[۸]
تولید ویدیو^[۹]
فشرده سازی تصویر^[۱۰]

جستارهای وابسته[ویرایش]

منابع[ویرایش]

↑ Levy، Shiran؛ Laloy، Eric؛ Linde، Niklas (۲۰۲۲-۰۳-۲۸). «Efficient inversion with complex geostatistical priors using normalizing flows and variational inference». dx.doi.org. دریافت‌شده در ۲۰۲۲-۱۲-۳۱.
↑ https://arxiv.org/abs/1605.08803
↑ ^۳٫۰ ^۳٫۱ Kingma, Diederik P.; Dhariwal, Prafulla (2018-07-10). "Glow: Generative Flow with Invertible 1x1 Convolutions". arXiv:1807.03039 [cs, stat].
↑ Helminger, Leonhard; Djelouah, Abdelaziz; Gross, Markus; Schroers, Christopher (2020-08-24). "Lossy Image Compression with Normalizing Flows". arXiv:2008.10486 [cs].
↑ Nalisnick, Eric; Matsukawa, Akihiro; Teh, Yee Whye; Gorur, Dilan; Lakshminarayanan, Balaji (2019-02-24). "Do Deep Generative Models Know What They Don't Know?". arXiv:1810.09136 [cs, stat].
↑ Ping, Wei; Peng, Kainan; Zhao, Kexin; Song, Zhao (2020-06-24). "WaveFlow: A Compact Flow-based Model for Raw Audio". arXiv:1912.01219 [cs, eess].
↑ Shi, Chence; Xu, Minkai; Zhu, Zhaocheng; Zhang, Weinan; Zhang, Ming; Tang, Jian (2020-02-27). "GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation". arXiv:2001.09382 [cs, stat].
↑ Yang, Guandao; Huang, Xun; Hao, Zekun; Liu, Ming-Yu; Belongie, Serge; Hariharan, Bharath (2019-09-02). "PointFlow: 3D Point Cloud Generation with Continuous Normalizing Flows". arXiv:1906.12320 [cs].
↑ Kumar, Manoj; Babaeizadeh, Mohammad; Erhan, Dumitru; Finn, Chelsea; Levine, Sergey; Dinh, Laurent; Kingma, Durk (2020-02-12). "VideoFlow: A Conditional Flow-Based Model for Stochastic Video Generation". arXiv:1903.01434 [cs].
↑ Helminger, Leonhard; Djelouah, Abdelaziz; Gross, Markus; Schroers, Christopher (2020-08-24). "Lossy Image Compression with Normalizing Flows". arXiv:2008.10486 [cs].

[1] Levy، Shiran؛ Laloy، Eric؛ Linde، Niklas (۲۰۲۲-۰۳-۲۸). «Efficient inversion with complex geostatistical priors using normalizing flows and variational inference». dx.doi.org. دریافت‌شده در ۲۰۲۲-۱۲-۳۱.

[2] ttps://arxiv.org/abs/1605.08803

[:0-3] ۳٫۰ ^۳٫۱ Kingma, Diederik P.; Dhariwal, Prafulla (2018-07-10). "Glow: Generative Flow with Invertible 1x1 Convolutions". arXiv:1807.03039 [cs, stat].

[4] Helminger, Leonhard; Djelouah, Abdelaziz; Gross, Markus; Schroers, Christopher (2020-08-24). "Lossy Image Compression with Normalizing Flows". arXiv:2008.10486 [cs].

[5] Nalisnick, Eric; Matsukawa, Akihiro; Teh, Yee Whye; Gorur, Dilan; Lakshminarayanan, Balaji (2019-02-24). "Do Deep Generative Models Know What They Don't Know?". arXiv:1810.09136 [cs, stat].

[6] Ping, Wei; Peng, Kainan; Zhao, Kexin; Song, Zhao (2020-06-24). "WaveFlow: A Compact Flow-based Model for Raw Audio". arXiv:1912.01219 [cs, eess].

[7] Shi, Chence; Xu, Minkai; Zhu, Zhaocheng; Zhang, Weinan; Zhang, Ming; Tang, Jian (2020-02-27). "GraphAF: a Flow-based Autoregressive Model for Molecular Graph Generation". arXiv:2001.09382 [cs, stat].

[8] Yang, Guandao; Huang, Xun; Hao, Zekun; Liu, Ming-Yu; Belongie, Serge; Hariharan, Bharath (2019-09-02). "PointFlow: 3D Point Cloud Generation with Continuous Normalizing Flows". arXiv:1906.12320 [cs].

[9] Kumar, Manoj; Babaeizadeh, Mohammad; Erhan, Dumitru; Finn, Chelsea; Levine, Sergey; Dinh, Laurent; Kingma, Durk (2020-02-12). "VideoFlow: A Conditional Flow-Based Model for Stochastic Video Generation". arXiv:1903.01434 [cs].

[10] Helminger, Leonhard; Djelouah, Abdelaziz; Gross, Markus; Schroers, Christopher (2020-08-24). "Lossy Image Compression with Normalizing Flows". arXiv:2008.10486 [cs].

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]