پیش‌نویس:تقویت یادگیری از بازخورد انسانی - ویکی‌پدیا، دانشنامهٔ آزاد

درحوزه یادگیری ماشین، یادگیری تقویتی از بازخورد انسانی^{[پاورقی ۱]} (اختصاری RLHF) تکنیکی برای همسو کردن یک عامل هوشمند با ترجیحات انسانی است. در یادگیری تقویتی کلاسیک، هدف غایی چنین عاملی، آموزش تابعی (که خط‌مشی^{[پاورقی ۲]} نامیده می‌شود) است تا رفتار آن عامل را هدایت کند. این تابع یاد می‌گیرد که چگونه بر اساس عملکرد خود، بتواند پاداش دریافتی خود را از یک تابع پاداش بیرونی به حداکثر برساند.^[۱] ولی در مورد ترجیحات انسانی، تعریف دقیق تابع پاداشی که ترجیحات انسان را تقریب می‌زند، دشوار است. بنابراین، RLHF به دنبال آموزش مستقیم "مدل پاداش" از روی بازخورد انسانی است.^[۲] ابتدا مدل پاداش، مستقل از خط‌مشی در حال بهینه‌سازی، به شیوه‌ای نظارت‌شده آموزش داده می‌شود. بدین روش که بر اساس داده‌های رتبه‌بندی تهیه شده توسط نظرنویسان انسانی (برچسب‌گذار)، بتواند پیش‌بینی کند که آیا پاسخ داده شده به پرسش (ورودی) خوب (پاداش بالا) است یا بد (پاداش کم). سپس این مدل در یک الگوریتم بهینه‌سازی، مانند بهینه‌سازی خط‌مشی پروگزیمال ^(en)، به عنوان یک تابع پاداش برای بهبود خط‌مشی عامل مورد استفاده قرار می‌گیرد.^[۳]

RLHF در حوزه‌های مختلف یادگیری ماشین کاربرد دارد، همچون وظایف پردازش زبان طبیعی (مانند خلاصه کردن متن و عامل‌های مکالمه‌کننده)، یا وظایف بینایی رایانه‌ای (مانند مدل‌های متن به تصویر ، و توسعه ربات‌های بازی‌های ویدئویی ^(en)). در حالی که RLHF یک روش بهبود عملکرد در آموزش مدل به منظور انطباق با ترجیحات انسانی است، ولی در نحوه جمع‌آوری داده‌های ترجیحات انسانی با چالش‌هایی نیز مواجه است. اگرچه RLHF برای بهبود عملکرد به مقادیر زیادی داده نیاز ندارد، با این حال تامین داده‌های ترجیحی با کیفیت بالا هنوز هم یک فرآیند گران به حساب می‌آید. علاوه بر این، اگر داده‌ها از یک نمونه نماینده، به دقت جمع آوری نشده باشند، مدل به‌دست آمده ممکن است سوگیری‌های ^(en) ناخواسته‌ای را نشان دهد.

پیشینه و انگیزه[ویرایش]

بهینه‌سازی یک مدل بر اساس بازخورد انسانی زمانی مطلوب است که تعیین تکلیف دشوار باشد اما قضاوت آن آسان باشد. ^[۴] برای مثال، ممکن است در نظر داشته باشید که مدلی را آموزش دهید تا متن ایمن تولید کند که همزمان هم مفید و هم بی‌ضرر (مثلاً بدون سوگیری ^(en)، غیر سمی یا بدون مضر) باشد. درخواست از انسان برای ایجاد فهرستی از نمونه‌های بی‌ضرر و مضر به صورت دستی دشوار و وقت‌گیر خواهد بود. با این حال، انسان‌ها در ارزیابی و مقایسه سریع مضرات متن‌های مختلف تولید شده توسط هوش مصنوعی ماهر هستند. بنابراین، یک راهکار عملی این است که به مدل اجازه دهیم از این نوع بازخورد انسانی برای بهبود تولید متن خود استفاده کند.^[۵]

علی‌رغم مزایای واضح ادغام بازخورد انسانی در آموزش مدل‌ها، تلاش‌های اولیه با چالش‌های مهمی مواجه شدند. مشکل یادگیری تقویتی در بیشتر تلاش‌ها اول آن بود که محدود بودند و تعمیم آنها دشوار بود، و در انجام وظایف پیچیده‌تر به شکست منجر می‌شدند، ^[۶] ^[۷] ^[۸] ^[۹] و دوم این که در استفاده از توابع پاداش پراکنده (که فاقد اطلاعات خاص و ارتباط لازم با مقادیر زیادی از متن در یک زمان بودن) یا توابع پاداش با نویز بالا ( که به طور متناقض به خروجی‌های مشابه پاداش یکسان می‌دادند) با مشکلاتی مواجه بودند. ^[۱۰]^[۱۱]

RLHF اولین روش موفق استفاده از بازخورد انسانی برای یادگیری تقویتی نبود، اما یکی از پرکاربردترین روش هاست. پایه و اساس RLHF در تلاش به منظور ایجاد یک الگوریتم عمومی برای یادگیری با استفاده از بازخورد انسانی معرفی شد.^[۴]^[۳] الگوریتمی که امروزه استفاده می‌شود توسط اوپن‌ای‌آی در مقاله‌ای پیرامون بهبود جریان پیشنهاد متن، یا خلاصه‌سازی بر اساس بازخورد انسانی معرفی شد. و همزمان که در مقاله دیگری در رابطه با InstructGPT (سلف چت‌جی‌پی‌تی) مورد استفاده قرار گرفت محبوبیت عمومی پیدا کرد.^[۱۲]^[۱۳] به‌علاوه، نشان داده شده است که RLHF استواری عامل‌های RL و ظرفیت آنها برای اکتشاف را بهبود می‌بخشد، که منجر به یک فرآیند بهینه‌سازی کاراتر در مدیریت عدم قطعیت و کاوش موثرتر محیط خود جهت به‌دست آوردن بالاترین پاداش می‌شود.^[۱۴]

جمع آوری بازخوردهای انسانی[ویرایش]

بازخورد انسانی معمولاً با جمع‌آوری پاسخ انسان‌ها به درخواست رتبه‌بندی رفتارهای خروجی عامل انجام می‌شود. ^[۱۵]^[۱۶] از این رتبه‌بندی‌ها برای امتیاز دادن به خروجی‌ها استفاده می‌شود. برای مثال، سیستم رده‌بندی الو، که الگوریتمی است برای محاسبه سطح مهارت نسبی بازیکنان در یک بازی است و به نتیجه همان بازی بستگی دارد.^[۳] با وجودی که رتبه‌بندی خروجی‌ها رایج‌ترین شکل بازخورد است، تحقیقات اخیر انواع دیگری از بازخورد مانند بازخورد عددی، بازخورد زبان طبیعی، و درخواست برای ویرایش مستقیم خروجی مدل را بررسی کرده‌اند.^[۱۷]

یکی از انگیزه‌های اولیه استفاده از RLHF این بود که به مقادیر نسبتاً کمی از داده مقایسه‌ای برای مؤثر بودن نیاز دارد. ^[۴] نشان داده شده که حجم کوچکی از داده‌ها می‌تواند منجر به نتایج قابل مقایسه با مقدار زیادی از داده شود. علاوه بر این، افزایش مقدار داده اثر کمتری دارد نسبت به همان میزان افزایش در اندازه مدل پاداش. ^[۱۳] با این وجود در مواردی که گروه برچسب‌گذار نماینده یکدستی از داده‌ها نباشد، حجم وسیع‌تر و متنوع‌تر داده‌ها می‌تواند برای اجتناب از سوگیری ^(en) حیاتی باشد.

در هنگام بهره‌گیری از RLHF از طریق مقایسه زوجی ^(en) تحت مدل بردلی-تری-لوس ^(en) (یا مدل پلاکت-لوس برای مقایسه‌های K-wise بیش از دو مقایسه)، برآورد درست‌نمایی بیشینه^{[پاورقی ۳]} توابع پاداش خطی، تنها زمانی همگرا می‌شود که داده‌های مقایسه‌ای توسط یک مدل خطی ^(en) خوش‌تعریف، به خوبی تولید شوند. این بدان معناست که، تحت شرایط خاص، اگر یک مدل آموزش در انتخاب بین یک (یا گروهی از) جفت گزینه‌های پیش رو، تصمیمی را بگیرد که به ترجیح انسان‌ها نزدیک‌تر است، لزوماً در پیش‌بینی ترجیحات آینده بهبود می‌یابد. انتظار بهبود در پاسخ‌ها تا زمانی برقرار است که مقایسه‌هایی که مدل از آنها می‌آموزد مبتنی بر یک قانون منسجم و ساده (غیر پیچیده) باشد. ^[۱۸]^[۱۹]

تا اینجا با دو مدل جمع‌آوری داده آشنایی داریم. در روش جمع‌آوری داده غیربرخط، مدل در تعامل با یک مجموعه داده ایستا آموزش می‌بیند و به صورت دسته‌ای خط‌مشی خود را به‌روزرسانی می‌کند. در روش برخط، مدل به طور مستقیم با محیط پویا در تعامل است و خط‌مشی خود را بلافاصله به‌روزرسانی می‌کند. هر دو روش از نظر ریاضی مورد مطالعه قرار گرفت و به این نتیجه منتهی شد که اجرای RLHF تحت مدل‌های بازخوردی مختلف مرزهای پیچیدگی یکسانی دارد. ^[۱۸]^[۲۰]

در مرحله آموزش خط‌مشی با استفاده از روش جمع‌آوری داده غیربرخط، استفاده از یک MLE بدبینانه دارای یک کران اطمینان پایین به عنوان تخمین پاداش، مؤثرتر خواهد بود. علاوه بر این، در صورت امکان، نشان داده شده است که استفاده مستقیم از مقایسه‌های K-wise به طور مجانبی کارآمدتر از تبدیل آنها به مقایسه‌های زوجی برای اهداف پیش‌بینی است. ^[۲۰] ^[۲۱]

در روش برخط، که بازخورد انسانی از طریق مقایسه‌های زوجی تحت مدل بردلی-تری-لوس ^(en) جمع‌آوری می‌شود و هدف ما به حداقل رساندن پشیمانی ^(en) الگوریتم (تفاوت عملکرد در مقایسه با عامل بهینه) است، نشان داده شده که، استفاده از یک MLE خوش بینانه با یک کران اطمینان بالا به عنوان تخمین پاداش، می‌تواند به طراحی الگوریتم‌های کارآمد منتهی شود. به این معنی که به داده‌های آموزشی نسبتا کمی نیاز داریم. یک چالش کلیدی در RLHF هنگام یادگیری از طریق مقایسه‌های زوجی (یا دوئل)، مشکل ماهیت غیر مارکوفی خط‌مشی بهینه‌سازی است. برخلاف سناریوهای ساده‌تر که در آن استراتژی بهینه نیاز به خاطر سپردن اقدامات گذشته ندارد، در RLHF، غالباً بهترین روش عملیاتی به رویدادها و تصمیم‌های قبلی بستگی دارد و استراتژی را وابسته به حافظه می‌کند. ^[۱۹]

کاربرد[ویرایش]

RLHF در حوزه‌های مختلف پردازش زبان طبیعی (NLP)، مانند عامل‌های مکالمه‌کننده، خلاصه‌سازی متن و درک زبان طبیعی به کار گرفته شده است. ^[۱۳] در یادگیری تقویتی مرسوم عامل‌ها از اقدامات خود بر اساس یک "عملکرد پاداش" از پیش تعریف شده یاد می‌گیرند. استفاده از چنین روشی برای کاربردهای NLP دشوار خواهد بود از این جهت که تعریف یا اندازه‌گیری پاداش‌ها دشوار است. به ویژه زمانی که با وظایف پیچیده‌ای سروکار داریم که در بر گیرنده اولویت‌ها، ترجیحات و ارزش‌های انسانی است.^[۴] RLHF می‌تواند به‌وسیلهٔ دریافت کردن پیشاپیش ترجیحات و اعمال آن در مدل پاداش، مدل‌های NLP (به‌ویژه مدل‌های زبانی) را طوری هدایت کند که پاسخ‌هایی منطبق بر ترجیحات انسان ارائه کند. این روش به مدلی منتهی می‌شود که قادر به ایجاد پاسخ‌های مرتبط‌تر و حذف پرس‌و‌جوهای نامناسب یا نامربوط است. ^[۲۲] برخی از نمونه‌های قابل‌توجه از مدل‌های زبان آموزش‌دیده با RLHF عبارتند از چت‌جی‌پی‌تی (و InstructGPT سلف آن) از شرکت اوپن‌ای‌آی ، ^[۱۵] ^[۲۳] ^[۲۴] اسپارو (گنجشک)^{[پاورقی ۴]} از شرکت دیپ‌مایند،^[۲۵] ^[۲۶] جمینای شرکت گوگل، ^[۲۷] و کلود ^(en) از شرکت آنتروپیک هستند. ^[۲۸]

در بینایی کامپیوتر، RLHF برای همسو کردن مدل‌های متن به تصویر نیز استفاده شده است. مطالعاتی که با موفقیت از RLHF برای این هدف استفاده کردند، اشاره کرده‌اند که استفاده از منظم‌سازی KL در RLHF، که با هدف جلوگیری از دور شدن بیش از حد خط‌مشی آموخته‌شده از مدل ناهمسو بکارگرفته شد، منجر به کاهش بیش‌برازش در طول آموزش مدل پاداش شد و به پایداری کل پروسه کمک کرد. خروجی‌های تصویر نهایی مدل‌های آموزش‌دیده با تنظیم KL به طور قابل توجهی کیفیت بالاتری از مدل‌های بدون آن بودند. ^[۲۹] ^[۳۰] روش‌های دیگر سعی کردند بازخورد را از طریق آموزش مستقیم‌تر - بر اساس به حداکثر رساندن پاداش بدون استفاده از یادگیری تقویتی - ترکیب کنند، اما پذیرفتند که رویکرد مبتنی بر RLHF عملکرد بهتری خواهد داشت. به‌علاوه، RLHF امکان تولید نمونه برخط را در طول به‌روزرسانی‌ها به محققان می‌داد. همین ویژگی باعث دور نگه داشته شدن بیش‌برازش تابع پاداش می‌شد.

RLHF در ابتدا در زمینه‌های دیگر مانند توسعه ربات‌های بازی‌های ویدئویی ^(en) و وظایف رباتیک شبیه‌سازی شده ^(en) استفاده شد. به عنوان مثال، اوپن‌ای‌آی و دیپ‌مایند عامل‌هایی را برای انجام بازی‌های آتاری بر اساس ترجیحات انسانی آموزش دادند. در آموزش کلاسیک چنین ربات‌هایی مبتنی بر روش RL، تابع پاداش به عملکرد عامل در بازی مرتبط می‌شد، که معمولاً از معیارهایی مانند امتیاز ^(en) درون بازی استفاده می‌کردند. ولی در RLHF، یک انسان به طور مداوم با دو کلیپ متفاوت از رفتار عامل در بازی مواجه می‌شود و باید تصمیم بگیرد که کدام یک بهتر به نظر می‌رسد. این رویکرد می‌تواند به عامل‌ها بیاموزد که در سطح بالاتر و بدون دسترسی به امتیاز خود عمل کنند. در واقع، نشان داده شد که گاهی اوقات RLHF می‌تواند به عملکرد برتر نسبت به RL با معیارهای امتیاز منجر شود. زیرا ترجیحات انسان می‌تواند حاوی اطلاعات مفیدتری نسبت به معیارهای مبتنی بر عملکرد باشد. ^[۴] ^[۳۱] این عامل‌های آموزش دیده با RLHF در بسیاری از محیط‌های آزمایش‌شده به عملکرد قوی دست یافتند که اغلب از عملکرد انسان پیشی می‌گرفتند. ^[۳۲]

آموزش[ویرایش]

در RLHF، دو مدل به طور مستقل آموزش داده می‌شوند: یک مدل پاداش و یک مدل خط‌مشی از طریق یادگیری تقویتی (اختصاری RL). مدل پاداش، بر اساس بازخورد انسانی یاد می‌گیرد که تعیین کند چه رفتاری مطلوب است. مدل پاداش در همین حین، خط‌مشی را به گونه‌ای هدایت می‌کند که اقدامات عامل را تعیین کند. هر دو مدل معمولاً با استفاده از یک مدل زبانی خودهمبسته پیش‌آموزش‌دیده مقداردهی اولیه می‌شوند. سپس این مدل به شیوه‌ای نظارت‌شده بر روی مجموعه داده‌های نسبتاً کوچکی از جفت پرسش و پاسخ‌هایی که توسط برچسب‌گذار‌‌های انسانی نوشته شده، آموزش داده می‌شود. یک مزیت برای مدل پاداش این است که با یک مدل از پیش آموزش‌دیده شروع به کار می‌کند، زیرا این مدل با درک زبان انسان ترجیحات انسانی به سرعت دریافت کرده ودر نتیجه روند آموزش را تسریع می‌کند.^[۱۳]

سپس مدل پاداش با جایگزینی لایه انتهایی مدل قبلی، با یک سر رگرسیون با داده تصادفی، آموزش داده می‌شود.با این کار، مدل را از وظیفه اولیه دسته‌بندی خود بر روی دانشنامه‌اش، تغییر میدهیم به طوری که خروجی آن یک عدد است که مطابق با امتیاز هر پرسش و پاسخ معین تغییر می‌دهد. این مدل بر روی داده‌های مقایسه‌ای ترجیحات انسانی، که قبلاً از مدل نظارت‌شده جمع‌آوری شده بود آموزش داده می‌شود. در این مقاله، مدل برای به حداقل رساندن تابع تلفات آنتروپی متقاطع زیر آموزش داده شده است، که آن را تشویق می‌کند تا پیش‌بینی‌هایی نزدیک‌تر به رتبه‌بندی‌های واقعی انسان انجام دهد:

${\mathcal {L}}(\theta )=-{\frac {1}{K \choose 2}}E_{(x,y_{w},y_{l})}[\log(\sigma (r_{\theta }(x,y_{w})-r_{\theta }(x,y_{l})))]$

که $K$ تعداد پاسخ‌هایی است که برچسب‌گذاران رتبه‌بندی کرده‌اند، $r_{\theta }(x,y)$ خروجی مدل پاداش برای پرسش $x$ و تکمیل پرسش $y$ است، $y_{w}$ تکمیل پرسش ترجیح داده شده از مجموعه $y_{l}$ است، $\sigma (x)$ نشان دهنده تابع سیگموئید و $E[X]$ نشان دهنده مقدار مورد انتظار است. این تابع تلفات اساساً تفاوت بین پیش‌بینی‌های مدل پاداش و تصمیم‌های گرفته شده توسط انسان را اندازه‌گیری می‌کند. هدف این است که حدس‌های مدل را تا حد امکان به ترجیحات انسان‌ها نزدیک کنیم و اختلاف اندازه‌گیری شده توسط این معادله را به حداقل برسانیم. در حالت‌های مقایسه‌ای فقط زوجی، عامل $1/{\tbinom {K}{2}}$ حذف می‌شود.^[۱۳] در باقی موارد، همه مقایسه‌های ${\tbinom {K}{2}}$ مربوط به یک پرسش، برای آموزش، تحت یک دسته واحد استفاده می‌شود. ^[۳۳] پس از آموزش، خروجی‌های مدل نرمال می‌شوند. ^[۱۳]

بسیار شبیه به مدل پاداش، خط‌مشی بازخورد انسانی نیز بر روی یک مدل از پیش آموزش دیده تنظیم دقیق شده است. هدف از مرحله تنظیم دقیق، انطباق مدل موجود و غیرهمسو (که در ابتدا به روش نظارت‌شده آموزش دیده) با هدف همسویی بهتر با ترجیحات انسان است. که این امر با تنظیم پارامترهای آن بر اساس پاداش‌های حاصل از بازخورد انسان انجام می‌پذیرد. با استفاده از RL بر روی جفت‌های پرسش و پاسخ، خروجی مدل پاداش را می‌توان پاداشی در نظر گرفت که باید به حداکثر برسد.^[۱۳] محیط، خط‌مشی را با اعلان‌های تصادفی از مجموعه داده مواجه می‌کند و انتظار پاسخ به آن‌ها دارد. با این کار سناریوهای دنیای واقعی را شبیه‌سازی می‌کند که در آن عامل باید اعلان‌های متنوع را درک کند و پاسخ‌های مناسب ایجاد کند. با نمایش خط‌مشی RL آموخته شده با پارامترها $\phi$ مانند $\pi _{\phi }^{\text{RL}}$ ، می‌توانیم تابع هدف زیر را تعریف کنیم:

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]$

که $D_{\pi _{\phi }^{\text{RL}}}$ توزیع آموزشی است که ما نمونه‌ها را از آن می‌گیریم و $\pi ^{\text{SFT}}$ مدل قبلی آموزش‌دیده و ناهمسو است. ثابت $\beta$ برای تنظیم شدت مجازات KL استفاده می‌شود. این جریمه برای هر کدام از نشانه‌ها، بین خروجی‌های خط‌مشی و خروجی‌های مدل ناهمسو اعمال می‌شود. هدف آن اجتناب از تنظیم بیش از حد خط‌مشی است، و تضمین می‌کند که فرآیند آموزش، مدل را بر روی داده‌های آموزشی جدید بیش از حد متخصص نمی‌کند. ^[۱۳] بخش KL با جریمه کردن واگرایی KL (اندازه‌گیری فاصله آماری بین توزیع‌ها) بین مدل تنظیم دقیق شده و مدل نظارت‌شده اولیه کار می‌کند. با انتخاب $\beta$ مناسب، آموزش می‌تواند یادگیری از داده‌های جدید را متعادل کند و در عین حال اطلاعات مفید مدل اولیه را حفظ کند و با اجتناب از بیش‌برازش، با داده‌های جدید تعمیم ^(en) یابد. جدای از جلوگیری از تولید خروجی‌های بسیار متفاوت در مدل جدید در مقایسه با خروجی‌های مدل اولیه، انگیزه دوم از گنجاندن اصطلاح KL این است که به خطی مشی اجازه می‌دهد با ایجاد آنتروپی ^(en) مدل را تشویق می‌کند، محیط بزرگتری را مورد بررسی قرار دهد، که می‌تواند از فروریزش مدل بر روی یک واحد مد (حالت) جلوگیری کند. ^[۱۳]

به عبارت ساده‌تر، تابع هدف، میزان بهبود همسویی پاسخ‌های خط‌مشی را با بازخورد انسانی محاسبه می‌کند. خط‌مشی به هر درخواست یک پاسخ تولید می‌کند و هر پاسخ نیز بر اساس میزان مطابقت با دو معیار دیگر، اول ترجیحات انسانی (که توسط مدل پاداش اندازه‌گیری می‌شود) و دوم شباهت به پاسخ‌هایی است که مدل به طور طبیعی ایجاد می‌کند، ارزیابی می‌شود. هدف، ایجاد تعادل بین بهبود همسویی با ترجیحات انسانی است، در حالی که اطمینان حاصل می‌شود که پاسخ‌های مدل متنوع باقی می‌مانند و از آنچه در طول آموزش اولیه آموخته است فاصله زیادی نمی‌گیرد. این به مدل کمک می‌کند تا نه تنها پاسخ‌هایی تولید کند که که افراد مفید یا قابل قبول می‌دانند، بلکه درک گسترده‌ای را حفظ کند و از پاسخ‌های بیش از حد محدود یا تکراری اجتناب کند.

معمولاً یک بخش دوم به تابع هدف اضافه می‌شود که به خط‌مشی اجازه می‌دهد تا گرادیان‌های پیش‌آموزش را در خود جای دهد. این بخش باعث می‌شود که مدل توانایی درک زبان اولیه خود را از دست ندهد، در حالی که وظیفه اصلی خود (تکمیل متن) را انجام می‌دهد، با گنجاندن پیش‌آموزش و بر اساس بازخورد انسانی، وظایف جدید را نیز بیاموزد. تابع هدف نهایی به صورت زیر نوشته می‌شود:

${\text{objective}}(\phi )=E_{(x,y)\sim D_{\pi _{\phi }^{\text{RL}}}}\left[r_{\theta }(x,y)-\beta \log \left({\frac {\pi _{\phi }^{\text{RL}}(y|x)}{\pi ^{\text{SFT}}(y|x)}}\right)\right]+\gamma E_{x\sim D_{\text{pretrain}}}[\log(\pi _{\phi }^{\text{RL}}(x))]$

که $\gamma$ میزان اثرگذاری بخش دوم را کنترل می‌کند و $D_{\text{pretrain}}$ توزیع متن اصلی قبل از آموزش است. در ادامه این تابع هدف می‌تواند مستقیماً برای آموزش خط‌مشی با استفاده از الگوریتم بهینه‌سازی خط‌مشی پروگزیمال ^(en) استفاده شود. ^[۳۳] ^[۱۳]

در مجموع، این تابع هدف، با ترکیب هدف همسویی با استفاده از بازخورد انسانی، و همچنین حفظ درک زبان اصلی مدل، روشی را برای تنظیم خط‌مشی RL، ، تعریف می‌کند.

محدودیت ها[ویرایش]

RLHF در بخش‌های جمع‌آوری بازخورد انسانی، یادگیری مدل پاداش و بهینه‌سازی خط‌مشی با چالش‌های جدی روبرو.^[۳۴] از نظر جمع‌آوری داده‌ها، مقیاس‌پذیری و هزینه بازخورد انسانی در مقایسه با یادگیری بدون نظارت می‌تواند زمان‌بر و گران باشد. کیفیت و انسجام آن نیز ممکن است بسته به وظیفه، رابط، و ترجیحات و سوگیری‌های افراد مختلف متفاوت باشد. ^[۳۵]

اثربخشی RLHF به کیفیت بازخورد انسان بستگی دارد. به عنوان مثال، اگر بازخورد فاقد بی‌طرفی، ناسازگار یا نادرست باشد، ممکن است سوگیرانه ^(en) شود و گروه‌های خاصی را بر گروه‌های دیگر ترجیح دهد. ^[۳] ^[۳۶] در جایی که مدل به جای یادگیری تعمیم‌یافته ^(en) نمونه‌های بازخورد خاصی را حفظ می‌کند، خطر بیش‌برازش وجود دارد. برای مثال، بازخورد به‌دست آمده از یک جمعیت خاص ممکن است مدل را به یادگیری ویژگی‌ها یا نویز، همراه با همسویی متفق با آن گروه سوق دهد. همسویی بیش از حد، با بازخورد خاصی که دریافت می‌کند (یعنی سوگیری ^(en) در آن) می‌تواند منجر به عملکرد ضعیف مدل در زمینه‌های جدید یا زمانی که توسط گروه‌های مختلف استفاده می‌شود، شود. ^[۳۷] یک تابع پاداش واحد نمی‌تواند همیشه نظرات گروه‌های مختلف مردم را نشان دهد. حتی با وجود یک نمونه نماینده، دیدگاه‌ها و ترجیحات متضاد ممکن است منجر به این شود که مدل پاداش به نفع نظر اکثریت باشد و به طور بالقوه به گروه‌های دارای نمایندگی کمتر آسیب برساند. ^[۳۴]

در برخی موارد، همانطور که در یادگیری تقویتی معمولی امکان‌پذیر است، ممکن است خطر یادگیری مدل برای دستکاری فرآیند بازخورد یا بازی دادن سیستم ^(en) برای دستیابی به پاداش‌های بالاتر به جای بهبود واقعی عملکرد آن وجود داشته باشد. ^[۳۸] در مورد RLHF، یک مدل ممکن است یاد بگیرد که از این واقعیت استفاده کند که برای آنچه به طور مثبت ارزیابی می‌شود و نه لزوماً برای آنچه واقعا خوب است، پاداش می‌گیرد، که می‌تواند منجر به یادگیری برای دنباله‌روی و دست‌آموز شدن بشود. برای مثال، مدل‌ها ممکن است یاد بگیرند که اعتماد ظاهری، حتی اگر نادرست باشد، پاداش‌های بیشتری را به همراه دارد. چنین رفتاری، اگر کنترل نشود، نه تنها مشوق است، بلکه به دلیل پتانسیل مدل برای گمراه کردن، می‌تواند باعث ایجاد مشکلات قابل توجهی در اجرایی شدن بشود. مطالعات نشان داده‌اند که انسان‌ها در شناسایی اشتباهات در خروجی‌های LLM در کارهای پیچیده مهارت ندارند. بنابراین، مدل‌هایی که یاد می‌گیرند متنی با صدایی مطمئن و در عین حال نادرست تولید کنند، می‌توانند منجر به مشکلات مهمی در هنگام پیاده سازی شوند. ^[۳۴]

گزینه‌های جایگزین[ویرایش]

در زمینه یادگیری ترجیحات انسانی، جایگزینی برای RLHF به نام بهینه سازی ترجیح مستقیم^{[پاورقی ۵]} (اختصاری DPO) پیشنهاد شده است. درست مشابه RLHF، با استفاده از داده‌های ترجیحی تولید شده توسط انسان با هدف همسو کردن، به مدل زبانی بزرگ از پیش آموزش‌دیده اعمال می‌شود. با این حال، برخلاف RLHF، که ابتدا یک مدل واسط جداگانه را آموزش می‌دهند تا بفهمد نتایج خوب چگونه باید به نظر برسند و سپس آموزش مدل اصلی برای دستیابی به آن نتایج، در روش پیشنهادی DPO، با تنظیم مستقیم مدل اصلی بر اساس ترجیحات افراد، فرآیند را ساده می‌کنند. این روش برای تعریف "هزینه ترجیح" به عنوان تابعی از خط‌مشی، مستقیماً متغیرها را تغییر می‌دهد، و از این هزینه برای تنظیم دقیق مدل استفاده می‌کند. این کار به مدل کمک می‌کند ترجیحات انسانی را بدون نیاز به مراحل جداگانه درک و اولویت‌بندی کند. اساساً، این رویکرد مستقیماً تصمیمات مدل را بر اساس بازخورد مثبت یا منفی انسان شکل می‌دهد.

DPO برای پیاده سازی و آموزش ساده‌تر از RLHF است و نشان داده شده است که نتایج قابل مقایسه و گاهی بهتر را ایجاد می‌کند. ^[۳۹] با این وجود، نشان داده شده است که RLHF در برخی از مجموعه داده‌ها، به عنوان مثال، در معیارهایی که سعی در اندازه‌گیری درستی دارند، DPO را پشت سر می‌گذارد. بنابراین، انتخاب روش ممکن است بسته به ویژگی‌های داده‌های ترجیحی انسان و ماهیت کار متفاوت باشد. ^[۴۰]

مشاهدات بیشتر[ویرایش]

انسان در حلقه ^(en)
انتخاب بر اساس پاداش ^(en)

منابع[ویرایش]

↑ Russell, Stuart J.; Norvig, Peter (2016). Artificial intelligence: a modern approach (Third, Global ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. pp. 830–831. ISBN 978-0-13-604259-4.
↑ Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). "Fine-Tuning Language Models from Human Preferences". arXiv:1909.08593 [cs.CL].
↑ ^۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Retrieved 4 March 2023. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «huggingface» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ ^۴٫۰ ^۴٫۱ ^۴٫۲ ^۴٫۳ ^۴٫۴ Amodei, Dario; Christiano, Paul; Ray, Alex (13 June 2017). "Learning from human preferences". openai.com. Retrieved 4 March 2023.
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
↑ Knox, W. Bradley; Stone, Peter; Breazeal, Cynthia (2013). "Training a Robot via Human Feedback: A Case Study". Social Robotics. Lecture Notes in Computer Science (به انگلیسی). Springer International Publishing. 8239: 460–470. doi:10.1007/978-3-319-02675-6_46. ISBN 978-3-319-02674-9. Retrieved 26 February 2024.
↑ Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). "APRIL: Active Preference Learning-Based Reinforcement Learning". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science (به انگلیسی). Springer. 7524: 116–131. arXiv:1208.0984. doi:10.1007/978-3-642-33486-3_8. ISBN 978-3-642-33485-6. Retrieved 26 February 2024.
↑ Wilson, Aaron; Fern, Alan; Tadepalli, Prasad (2012). "A Bayesian Approach for Policy Learning from Trajectory Preference Queries". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25. Retrieved 26 February 2024.
↑ Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18 June 2014). "Programming by Feedback". Proceedings of the 31st International Conference on Machine Learning (به انگلیسی). PMLR: 1503–1511. Retrieved 26 February 2024.
↑ Warnell, Garrett; Waytowich, Nicholas; Lawhern, Vernon; Stone, Peter (25 April 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence. 32 (1). arXiv:1709.10163. doi:10.1609/aaai.v32i1.11485.
↑ MacGlashan, James; Ho, Mark K.; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70. JMLR.org: 2285–2294. arXiv:1701.06049.
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۲].
↑ ^۱۳٫۰۰ ^۱۳٫۰۱ ^۱۳٫۰۲ ^۱۳٫۰۳ ^۱۳٫۰۴ ^۱۳٫۰۵ ^۱۳٫۰۶ ^۱۳٫۰۷ ^۱۳٫۰۸ ^۱۳٫۰۹ Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (به انگلیسی). 33. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «summarizationpaper» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ A bot will complete this citation soon. Click here to jump the queue arXiv:[۳].
↑ ^۱۵٫۰ ^۱۵٫۱ Edwards, Benj (1 December 2022). "OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results". Ars Technica (به انگلیسی). Retrieved 4 March 2023.
↑ Abhishek, Gupta (5 February 2023). "Getting stakeholder engagement right in responsible AI". VentureBeat. Retrieved 4 March 2023.
↑ Fernandes. "Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation". {{cite arxiv}}: |arxiv= required (help)
↑ ^۱۸٫۰ ^۱۸٫۱ Xie, Tengyang; Jiang, Nan; Wang, Huan; Xiong, Caiming; Bai, Yu (2021). "Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning". Advances in Neural Information Processing Systems. Curran Associates, Inc. 34: 27395–27407. arXiv:2106.04895. Retrieved 10 March 2024.
↑ ^۱۹٫۰ ^۱۹٫۱ Pacchiano, Aldo; Saha, Aadirupa; Lee, Jonathan (2023-03-03). "Dueling RL: Reinforcement Learning with Trajectory Preferences". Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (به انگلیسی). PMLR: 6263–6289. arXiv:2111.04850.
↑ ^۲۰٫۰ ^۲۰٫۱ Zhu, Banghua; Jordan, Michael; Jiao, Jiantao (2023-07-03). "Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons". Proceedings of the 40th International Conference on Machine Learning (به انگلیسی). PMLR: 43037–43067. arXiv:2301.11270.
↑ Li, Zihao; Yang, Zhuoran; Wang, Mengdi (20 June 2023). "Reinforcement learning with Human Feedback: Learning Dynamic Choices via Pessimism". ILHF Workshop ICML 2023 (به انگلیسی). arXiv:2305.18438. Retrieved 10 March 2024.
↑ Wiggers, Kyle (24 February 2023). "Can AI really be protected from text-based attacks?". TechCrunch. Retrieved 4 March 2023.
↑ Heikkilä, Melissa (21 February 2023). "How OpenAI is trying to make ChatGPT safer and less biased". MIT Technology Review (به انگلیسی). Retrieved 4 March 2023.
↑ Douglas Heaven, Will (30 November 2022). "ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense". MIT Technology Review (به انگلیسی). Retrieved 4 March 2023.
↑ Goldman, Sharon (23 September 2022). "Why DeepMind isn't deploying its new AI chatbot — and what it means for responsible AI". VentureBeat. Retrieved 4 March 2023.
↑ The Sparrow team (22 September 2022). "Building safer dialogue agents". www.deepmind.com (به انگلیسی). Retrieved 4 March 2023.
↑ Pinchai, Sundar; Hassabis, Demis (6 December 2023). "Introducing Gemini: our largest and most capable AI model". Google (به انگلیسی). Retrieved 29 February 2024.
↑ Henshall, Will (18 July 2023). "What to Know About Claude 2, Anthropic's Rival to ChatGPT". TIME (به انگلیسی). Retrieved 6 March 2024.
↑ Fan, Ying; Watkins, Olivia; Du, Yuqing; Liu, Hao; Ryu, Moonkyung; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Lee, Kangwook (2 November 2023). "DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models". NeurIPS 2023 (به انگلیسی). arXiv:2305.16381. Retrieved 1 March 2024.
↑ Xu, Jiazheng; Liu, Xiao; Wu, Yuchen; Tong, Yuxuan; Li, Qinkai; Ding, Ming; Tang, Jie; Dong, Yuxiao (15 December 2023). "ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation". Advances in Neural Information Processing Systems (به انگلیسی). 36: 15903–15935. arXiv:2304.05977. Retrieved 1 March 2024.
↑ Leike, Jan; Martic, Miljan; Legg, Shane (12 June 2017). "Learning through human feedback". www.deepmind.com (به انگلیسی). Retrieved 4 March 2023.
↑ Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. Retrieved 4 March 2023.
↑ ^۳۳٫۰ ^۳۳٫۱ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام instructgptpaper وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ ^۳۴٫۰ ^۳۴٫۱ ^۳۴٫۲ Casper, Stephen; Davies, Xander; Shi, Claudia; Gilbert, Thomas Krendl; Scheurer, Jérémy; Rando, Javier; Freedman, Rachel; Korbak, Tomasz; Lindner, David (18 September 2023). "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback". Transactions on Machine Learning Research. arXiv:2307.15217. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «openproblems» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).
↑ Christiano, Paul. "Thoughts on the impact of RLHF research" (به انگلیسی). Retrieved 4 March 2023.
↑ Belenguer, Lorenzo (2022). "AI bias: exploring discriminatory algorithmic decision-making models and the application of possible machine-centric solutions adapted from the pharmaceutical industry". AI and Ethics. AI Ethics. 2 (4): 771–787. doi:10.1007/s43681-022-00138-8. PMC 8830968. PMID 35194591.
↑ Zhang, Chiyuan; Bengio, Samy; Hardt, Moritz; Recht, Benjamin; Vinyals, Oriol (4 November 2016). "Understanding deep learning requires rethinking generalization". International Conference on Learning Representations.
↑ Clark, Jack; Amodei, Dario (21 December 2016). "Faulty reward functions in the wild". OpenAI.
↑ Rafailov. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model". {{cite arxiv}}: |arxiv= required (help)
↑ Wang. "HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM". {{cite arxiv}}: |arxiv= required (help)

خطای یادکرد: خطای یادکرد: برچسب <ref> برای گروهی به نام «پاورقی» وجود دارد، اما برچسب <references group="پاورقی"/> متناظر پیدا نشد. ().

[3] Russell, Stuart J.; Norvig, Peter (2016). Artificial intelligence: a modern approach (Third, Global ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. pp. 830–831. ISBN 978-0-13-604259-4.

[ziegler2-4] Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). "Fine-Tuning Language Models from Human Preferences". arXiv:1909.08593 [cs.CL].

[huggingface-5] ۳٫۰ ^۳٫۱ ^۳٫۲ ^۳٫۳ Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Retrieved 4 March 2023. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «huggingface» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[openai-6] ۴٫۰ ^۴٫۱ ^۴٫۲ ^۴٫۳ ^۴٫۴ Amodei, Dario; Christiano, Paul; Ray, Alex (13 June 2017). "Learning from human preferences". openai.com. Retrieved 4 March 2023.

[7] A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].

[8] Knox, W. Bradley; Stone, Peter; Breazeal, Cynthia (2013). "Training a Robot via Human Feedback: A Case Study". Social Robotics. Lecture Notes in Computer Science (به انگلیسی). Springer International Publishing. 8239: 460–470. doi:10.1007/978-3-319-02675-6_46. ISBN 978-3-319-02674-9. Retrieved 26 February 2024.

[9] Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). "APRIL: Active Preference Learning-Based Reinforcement Learning". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science (به انگلیسی). Springer. 7524: 116–131. arXiv:1208.0984. doi:10.1007/978-3-642-33486-3_8. ISBN 978-3-642-33485-6. Retrieved 26 February 2024.

[10] Wilson, Aaron; Fern, Alan; Tadepalli, Prasad (2012). "A Bayesian Approach for Policy Learning from Trajectory Preference Queries". Advances in Neural Information Processing Systems. Curran Associates, Inc. 25. Retrieved 26 February 2024.

[11] Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18 June 2014). "Programming by Feedback". Proceedings of the 31st International Conference on Machine Learning (به انگلیسی). PMLR: 1503–1511. Retrieved 26 February 2024.

[12] Warnell, Garrett; Waytowich, Nicholas; Lawhern, Vernon; Stone, Peter (25 April 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence. 32 (1). arXiv:1709.10163. doi:10.1609/aaai.v32i1.11485.

[13] MacGlashan, James; Ho, Mark K.; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70. JMLR.org: 2285–2294. arXiv:1701.06049.

[ziegler-14] A bot will complete this citation soon. Click here to jump the queue arXiv:[۲].

[summarizationpaper-15] ۱۳٫۰۰ ^۱۳٫۰۱ ^۱۳٫۰۲ ^۱۳٫۰۳ ^۱۳٫۰۴ ^۱۳٫۰۵ ^۱۳٫۰۶ ^۱۳٫۰۷ ^۱۳٫۰۸ ^۱۳٫۰۹ Nisan Stiennon; Long Ouyang; Jeffrey Wu; Daniel Ziegler; Ryan Lowe; Chelsea Voss; Alec Radford; Dario Amodei; Paul F. Christiano (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems (به انگلیسی). 33. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «summarizationpaper» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[16] A bot will complete this citation soon. Click here to jump the queue arXiv:[۳].

[ars-17] ۱۵٫۰ ^۱۵٫۱ Edwards, Benj (1 December 2022). "OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results". Ars Technica (به انگلیسی). Retrieved 4 March 2023.

[18] Abhishek, Gupta (5 February 2023). "Getting stakeholder engagement right in responsible AI". VentureBeat. Retrieved 4 March 2023.

[19] Fernandes. "Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation". {{cite arxiv}}: |arxiv= required (help)

[xiejiang-21] ۱۸٫۰ ^۱۸٫۱ Xie, Tengyang; Jiang, Nan; Wang, Huan; Xiong, Caiming; Bai, Yu (2021). "Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning". Advances in Neural Information Processing Systems. Curran Associates, Inc. 34: 27395–27407. arXiv:2106.04895. Retrieved 10 March 2024.

[pacchiano-22] ۱۹٫۰ ^۱۹٫۱ Pacchiano, Aldo; Saha, Aadirupa; Lee, Jonathan (2023-03-03). "Dueling RL: Reinforcement Learning with Trajectory Preferences". Proceedings of the 26th International Conference on Artificial Intelligence and Statistics (به انگلیسی). PMLR: 6263–6289. arXiv:2111.04850.

[zhujordan-23] ۲۰٫۰ ^۲۰٫۱ Zhu, Banghua; Jordan, Michael; Jiao, Jiantao (2023-07-03). "Principled Reinforcement Learning with Human Feedback from Pairwise or K-wise Comparisons". Proceedings of the 40th International Conference on Machine Learning (به انگلیسی). PMLR: 43037–43067. arXiv:2301.11270.

[24] Li, Zihao; Yang, Zhuoran; Wang, Mengdi (20 June 2023). "Reinforcement learning with Human Feedback: Learning Dynamic Choices via Pessimism". ILHF Workshop ICML 2023 (به انگلیسی). arXiv:2305.18438. Retrieved 10 March 2024.

[25] Wiggers, Kyle (24 February 2023). "Can AI really be protected from text-based attacks?". TechCrunch. Retrieved 4 March 2023.

[26] Heikkilä, Melissa (21 February 2023). "How OpenAI is trying to make ChatGPT safer and less biased". MIT Technology Review (به انگلیسی). Retrieved 4 March 2023.

[27] Douglas Heaven, Will (30 November 2022). "ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense". MIT Technology Review (به انگلیسی). Retrieved 4 March 2023.

[29] Goldman, Sharon (23 September 2022). "Why DeepMind isn't deploying its new AI chatbot — and what it means for responsible AI". VentureBeat. Retrieved 4 March 2023.

[30] The Sparrow team (22 September 2022). "Building safer dialogue agents". www.deepmind.com (به انگلیسی). Retrieved 4 March 2023.

[31] Pinchai, Sundar; Hassabis, Demis (6 December 2023). "Introducing Gemini: our largest and most capable AI model". Google (به انگلیسی). Retrieved 29 February 2024.

[32] Henshall, Will (18 July 2023). "What to Know About Claude 2, Anthropic's Rival to ChatGPT". TIME (به انگلیسی). Retrieved 6 March 2024.

[33] Fan, Ying; Watkins, Olivia; Du, Yuqing; Liu, Hao; Ryu, Moonkyung; Boutilier, Craig; Abbeel, Pieter; Ghavamzadeh, Mohammad; Lee, Kangwook (2 November 2023). "DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models". NeurIPS 2023 (به انگلیسی). arXiv:2305.16381. Retrieved 1 March 2024.

[34] Xu, Jiazheng; Liu, Xiao; Wu, Yuchen; Tong, Yuxuan; Li, Qinkai; Ding, Ming; Tang, Jie; Dong, Yuxiao (15 December 2023). "ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation". Advances in Neural Information Processing Systems (به انگلیسی). 36: 15903–15935. arXiv:2304.05977. Retrieved 1 March 2024.

[35] Leike, Jan; Martic, Miljan; Legg, Shane (12 June 2017). "Learning through human feedback". www.deepmind.com (به انگلیسی). Retrieved 4 March 2023.

[36] Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. Retrieved 4 March 2023.

[instructgptpaper-37] ۳۳٫۰ ^۳۳٫۱ خطای یادکرد: خطای یادکرد:برچسب <ref>‎ غیرمجاز؛ متنی برای یادکردهای با نام instructgptpaper وارد نشده است. (صفحهٔ راهنما را مطالعه کنید.).

[openproblems-38] ۳۴٫۰ ^۳۴٫۱ ^۳۴٫۲ Casper, Stephen; Davies, Xander; Shi, Claudia; Gilbert, Thomas Krendl; Scheurer, Jérémy; Rando, Javier; Freedman, Rachel; Korbak, Tomasz; Lindner, David (18 September 2023). "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback". Transactions on Machine Learning Research. arXiv:2307.15217. خطای یادکرد: برچسب <ref> نامعتبر؛ نام «openproblems» چندین بار با محتوای متفاوت تعریف شده است. (صفحهٔ راهنما را مطالعه کنید.).

[39] Christiano, Paul. "Thoughts on the impact of RLHF research" (به انگلیسی). Retrieved 4 March 2023.

[40] Belenguer, Lorenzo (2022). "AI bias: exploring discriminatory algorithmic decision-making models and the application of possible machine-centric solutions adapted from the pharmaceutical industry". AI and Ethics. AI Ethics. 2 (4): 771–787. doi:10.1007/s43681-022-00138-8. PMC 8830968. PMID 35194591.

[41] Zhang, Chiyuan; Bengio, Samy; Hardt, Moritz; Recht, Benjamin; Vinyals, Oriol (4 November 2016). "Understanding deep learning requires rethinking generalization". International Conference on Learning Representations.

[42] Clark, Jack; Amodei, Dario (21 December 2016). "Faulty reward functions in the wild". OpenAI.

[44] Rafailov. "Direct Preference Optimization: Your Language Model is Secretly a Reward Model". {{cite arxiv}}: |arxiv= required (help)

[45] Wang. "HelpSteer: Multi-attribute Helpfulness Dataset for SteerLM". {{cite arxiv}}: |arxiv= required (help)

[پاورقی ۱]

[پاورقی ۲]

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[پاورقی ۳]

[۱۸]

[۱۹]

[۲۰]

[۲۱]

[۲۲]

[۲۳]

[۲۴]

[پاورقی ۴]

[۲۵]

[۲۶]

[۲۷]

[۲۸]

[۲۹]

[۳۰]

[۳۱]

[۳۲]

[۳۳]

[۳۴]

[۳۵]

[۳۶]

[۳۷]

[۳۸]

[پاورقی ۵]

[۳۹]

[۴۰]