PG电子官网设计RLHF不足用了OpenAI打算出了新的赞美机造

| 2024-07-25 21:57:40

　　自豪模子兴盛今后，运用加强进修从人类反应（RLHF）中微调言语模子向来是确保 AI 确实依照指令的首选法子。

　　为了确保 AI 体例安宁运转并与人类价格观保留相似，咱们需求界说愿望手脚并搜罗人类反应来锻炼「嘉奖模子」。这种模子通过发出愿望的作为来向导 AI。然而PG电子官网，搜罗这些常例和反复做事的人类反应平常效能不高。其它，即使安宁计谋爆发转折，仍旧搜罗的反应或者会过期，需求新的数据。

　　咱们能否修建一种新的机造来完工这些做事？今天，OpenAI 发表了一种教诲 AI 模子坚守安宁计谋的新法子，称为基于法规的嘉奖（Rule-Based Rewards，RBR）。

　　论文作家之一、OpenAI 安团体例担负人 Lilian Weng 默示，「RBR 可能自愿践诺少许模子微调。守旧上，咱们依赖于来自人类反应的加强进修行为默认的对齐锻炼法子来锻炼模子，这确实有用。然而正在推行中，咱们面对的挑拨是，咱们花了许多时代筹商计谋的细节，而到末了，计谋或者仍旧爆发了转折。」

　　RBR 依据一组安宁法规供应 RL 信号，使其更容易顺应络续转折的安宁计谋，而无需紧要依赖人类数据。其它，借帮 RBR，筹议者也许以更团结的视角对付安宁性和模子才干，由于更健旺的分级模子可能供应更高质料的 RL 信号。

　　OpenAI 默示自 GPT-4 揭晓今后，他们向来将 RBR 用作安宁旅馆的一局部，网罗 GPT-4o mini，并策画正在异日的模子中实践它。

　　跟着大型言语模子（LLM）效用的巩固和普及，确保其安宁性和对齐变得越来越要紧。比来的很多处事都荟萃正在运用人类偏好数据来调度模子上，比如基于人类反应的加强进修（RLHF）。

　　然而，仅运用人类反应来完毕目的安宁类型还面对很多挑拨。为模子安宁性搜罗和维持人类数据平常既用钱又费时，并且跟着模子才干的抬高或用户手脚的改换，安宁法例也会爆发转折，这些数据或者会过期。假使恳求相对安宁，也很难向解说者通报。安宁方面的状况更加如斯，由于所需的模子呼应卓殊庞大，需求对是否呼应以及若何呼应哀告做出细幼差异。即使表明不足真切，解说者或者不得不依赖一面私见，从而导致赶过预期的模子手脚，如变得过于仔细，或以不睬思的格调（如评判）做出呼应。

　　比如，正在 OpenAI 的一次实习中，少许解说者正在对用户相闭自残哀告的或者回答举行排序时，倾向于将用户转到美国寻短见热线，而这对美国以表的用户没有帮帮。要处理这些题目，往往需求从新标注或搜罗新数据，这既高贵又耗时。

　　为知道决这些题目，运用 AI 反应的法子比来越来越受迎接，个中最特出的是宪法 AI（Constitutional AI）。这些法子使用 AI 反应合成锻炼数据，与人类数据相联合设计，用于监视微调（SFT）和嘉奖模子（RM）锻炼环节。但是，正在宪法 AI 和其他法子中，「宪法」涉及「抉择危机较幼的呼应」等日常性向导规定，AI 模子有很大的自正在裁量权来决策什么是无益的。正在实际全国的布置中，咱们需求践诺更注意的计谋，原则该当拒绝哪些提示，以及拒绝的办法是什么。

　　所以，正在这篇论文中，OpenAI 的筹议者提出了一种新的 AI 反应法子 ——RBR，它同意人类注不测明所需的模子呼应，雷同于给人类解说者的指示设计。

　　实践 RBR 的法子网罗界说一组命题 —— 闭于模子呼应中愿望或不肯望方面的简略陈述，比如「带有评判性」、「包括分别意的实质」、「提及安宁计谋」、「免责声明」等。然后，这些命题被用来变成法规，这些法规被悉心策画以搜捕正在各类场景中安宁和妥善呼应的细幼差异。

　　比如，正在面临担心全哀告时，拒绝（如「致歉，我无法帮你」）是一种愿望的模子呼应。闭连法规将原则，拒绝应「包括简短的赔礼」而且「应表明无法遵照」。

　　筹议团队策画了三类愿望的模子手脚，用于收拾无益或敏锐的话题。依据安宁计谋，分此表哀告对应分此表模子呼应类型。

　　以下是少许命题的简化示例，以及它们若何映照理思手脚或非理思手脚到分别呼应类型的。

　　评估器是一个固定的言语模子，依据呼应依照法规的水平对其举行评分，从而使 RBR 法子也许矫捷顺应新法规和安宁计谋设计。

　　RBR 运用这些评分来拟合一个线性模子，该模子的权重参数是从一个已知理思呼应类型的幼数据集，以及对应的愿望做法和不肯望做法中进修的。

　　这些 RBR 嘉奖随后与来自「仅供应帮帮」的嘉奖模子的嘉奖联合起来，行为 PPO 算法的特地信号，以唆使模子依照安宁手脚战术。

　　该法子同意筹议者对模子的手脚举行邃密限定，确保其不只避免无益实质，并且以一种既默示推崇又有帮帮的办法举行。

　　实习显示，始末 RBR 锻炼的模子涌现出与始末人类反应锻炼的模子相当的安宁机能。前者还删除了差错地拒绝安宁哀告（即太过拒绝）的状况。

　　其它，RBR 还明显删除了对巨额人为数据的需求，使锻炼进程更疾、更具本钱效益。

　　跟着模子才干和安宁法例的成长，RBR 可能通过删改或增加新法规急速更新，而无需举行巨额从新锻炼。

　　该图显示了有效性（以模子准确依照安宁提示的百分比来量度）与安宁性（以模子准确拒毫担心全提示的百分比来量度）之间的衡量设计。对待这两个目标，值越高越好。右上角标帜了有效性和安宁性之间的圆满均衡。有效性基线不运用安宁性 RBR，往往更有效但安宁性较低。人类基线是正在仅有帮帮和人为解说的安宁性数据前举行锻炼的，往往卓殊安宁但有效性较低。借帮 RBR，OpenAI 的目的是使模子既安宁又有效。

　　虽然法规根基的体例（RBR）正在有真切、直观法规的做事中涌现优秀，但正在更主观的做事中（如撰写高质料的著作），操纵 RBR 或者会有些棘手。然而，RBR 可能与人类反应联合起来，以均衡这些挑拨。比如，RBR 可能强造践诺特定的法例（如「不要运用俚语」或模子类型中的法规），而人类反应可能帮帮收拾更细幼的方面（如团体连贯性）。RBR 的强度被优化为既能准确践诺安宁偏好，又不会太过影响最终的嘉奖评分 —— 如此，RLHF 嘉奖模子依然可能正在如写态度格等方面供应强有力的信号。

　　伦理考量：将安宁搜检从人类迁移到 AI 上或者会删除对 AI 安宁的人为监视，而且即使运用有私见的模子供应 RBR 嘉奖，还或者放大潜正在的私见。为知道决这个题目，筹议职员该当提防策画 RBR，以确保其公和悦确实，并切磋联合运用 RBR 和人类反应，以最大范围地删除危害。

　　OpenAI 默示，RBR 不只限于安宁锻炼，它们可能顺应各类做事，个中真切的法规可能界说所需的手脚，比如为特定操纵标准定造模子呼应的天性或花式。下一步，OpenAI 还策画举行更寻常的融化筹议，以更周全地知道分此表 RBR 组件、运用合成数据举行法规开采以及人为评估，以验证 RBR 正在网罗安宁以表的其他范围的各类操纵中的有用性。PG电子官网设计RLHF不足用了OpenAI打算出了新的赞美机造