腾讯联合人大开源PlanningBench,专攻大模型规划能力评测

腾讯联合人大开源PlanningBench,专攻大模型规划能力评测

近日,腾讯混元团队与中国人民大学高瓴人工智能学院等机构联合推出并开源了PlanningBench。这是一个可扩展、可验证的数据生成框架,专门用于评测和训练大语言模型的规划能力。PlanningBench从实际规划场景出发,系统化地抽象了任务、约束和难度等因素,构建了覆盖超过30种规划任务类型的数据生成与验证体系。它不仅可以评测模型是否具备规划能力,还能为模型训练提供稳定且可迁移的奖励信号。

在具体任务设计上,PlanningBench涵盖了日程排布、资源分配、人力排班、路径调度、生产运营和应急服务六大类任务,避免了模型仅在单一领域“刷题”的现象,使其更能适应多样化的实际应用场景。该框架的难度控制体系通过拆解任务结构、约束层级和资源紧张度等因素,让数据生成围绕真实难点调整,而非简单延长提示内容。每条数据实例还配备了checklist,用以评估模型输出是否满足输入条件、资源限制和目标最优性。

值得注意的是,PlanningBench同时关注局部合规与全局成功的评测方式,能够识别出“看似大部分正确但整体不可执行”的计划,这对诊断大模型在复杂约束下的真实规划能力具有重要意义。通过PlanningBench的可验证数据进行训练后,模型在未见过的规划基准和通用任务上的表现均有显著提升,显示出其学习信号的通用性。总体而言,这一框架形成了真实场景驱动的闭环生成与训练迁移体系,为人工智能规划研究提供了新的工具与方向。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/754475.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论