‌苹果突破性研究:用“任务清单”训练AI 复杂指令执行能力提升8.2%

‌苹果突破性研究:用“任务清单”训练AI 复杂指令执行能力提升8.2%

近日,科技媒体9to5Mac报道称,苹果研究团队提出全新“基于清单反馈的强化学习”(RLCF)方法,通过任务清单替代传统人工评分,显著提升大语言模型执行复杂指令的能力。与依赖人类点赞/点踩的RLHF不同,RLCF为每条指令生成具体检查项并逐项评分,例如“是否翻译成西班牙语?”,最终以0-100分综合评估指导模型优化。

研究团队在Qwen2.5-7B-Instruct模型上测试该方法,涵盖五个主流评测基准。结果显示,RLCF是唯一在所有测试中均实现提升的方案:FollowBench硬性满意率提高4个百分点,InFoBench提升6分,Arena-Hard胜率增加3分,部分任务最高涨幅达8.2%。这一成果表明,清单反馈尤其适用于多步骤复杂指令场景。值得注意的是,清单生成过程颇具创新——团队利用更大的Qwen2.5-72B-Instruct模型,为13万条指令构建“WildChecklists”数据集,由大模型担任“老师”对小模型回答进行逐项打分。

尽管效果显著,研究者也指出RLCF存在局限。该方法依赖强大模型作为评判者,在资源有限环境中可能难以推广;此外,其设计初衷是提升指令执行精度,而非安全对齐,因此不能替代安全性评估。分析人士认为,这项研究为AI训练开辟了新路径,但若要广泛应用于各类任务,仍需进一步验证其普适性。

原创文章,作者:聆听,如若转载,请注明出处:https://www.kejixun.co/article/731995.html

聆听的头像聆听认证作者

相关推荐

发表回复

登录后才能评论