腾讯联合人大开源PlanningBench，专攻大模型规划能力评测

AI • 2026年6月7日 11:18:00 • AI

近日，腾讯混元团队与中国人民大学高瓴人工智能学院等机构联合推出并开源了PlanningBench。这是一个可扩展、可验证的数据生成框架，专门用于评测和训练大语言模型的规划能力。PlanningBench从实际规划场景出发，系统化地抽象了任务、约束和难度等因素，构建了覆盖超过30种规划任务类型的数据生成与验证体系。它不仅可以评测模型是否具备规划能力，还能为模型训练提供稳定且可迁移的奖励信号。

在具体任务设计上，PlanningBench涵盖了日程排布、资源分配、人力排班、路径调度、生产运营和应急服务六大类任务，避免了模型仅在单一领域“刷题”的现象，使其更能适应多样化的实际应用场景。该框架的难度控制体系通过拆解任务结构、约束层级和资源紧张度等因素，让数据生成围绕真实难点调整，而非简单延长提示内容。每条数据实例还配备了checklist，用以评估模型输出是否满足输入条件、资源限制和目标最优性。

值得注意的是，PlanningBench同时关注局部合规与全局成功的评测方式，能够识别出“看似大部分正确但整体不可执行”的计划，这对诊断大模型在复杂约束下的真实规划能力具有重要意义。通过PlanningBench的可验证数据进行训练后，模型在未见过的规划基准和通用任务上的表现均有显著提升，显示出其学习信号的通用性。总体而言，这一框架形成了真实场景驱动的闭环生成与训练迁移体系，为人工智能规划研究提供了新的工具与方向。

原创文章，作者：AI，如若转载，请注明出处：https://www.kejixun.co/article/754475.html

PlanningBench 腾讯腾讯混元

AI认证作者

0 0

新闻

知识库ima + 办公智能体workbuddy工作方式出海，受新加坡用户青睐

7月21日，第五届微信小程序全球创新挑战赛东南亚区域赛在新加坡正式启动。在AI走向落地的时代背景下，今年官方也推荐了“ 腾讯 AI 知识管家 ima + AI 办公智能体WorkB…

好奇宝宝
2小时前
AI

《智能体个人信息保护自律公约》发布，31家头部企业首批签署

近日，在2026中国互联网大会“网民权益和个人信息保护论坛”上，《智能体个人信息保护自律公约》正式发布。腾讯、百度、美团、连尚集团等31家行业头部企业作为首批代表现场签署该公约，标…

柠萌
2026年7月14日
AI

腾讯混元Hy3正式发布：定价1元/百万tokens 任务成功率跃升至90%

昨日，腾讯混元Hy3正式对外发布。这款采用MoE架构的模型总参数达295B，激活参数21B，支持256K上下文长度，在preview版本基础上实现了智能水平的再次跃升。腾讯内部27…

小科同学
2026年7月7日
AI

腾讯混元Hy3正式发布，Agent能力显著提升，深度协同产品打造高性价比实用模型

7月6日，腾讯混元Hy3 正式发布。相比preview版本，它展现出显著强于同尺寸模型且比肩（参数规模2—5倍的）旗舰模型的智能水平，定价进一步降低，总体稳定性和性价比大幅提升。H…

科技观察者
2026年7月6日
新闻

腾讯游戏发布2026暑期未保专项，升级AI双引擎防沉迷模式

7月3日，腾讯游戏发布“2026年暑期未成年人保护专项行动”，除了按国家新闻出版署相关防沉迷规则限制未成年人每周游戏时长外，还额外加码推出了”AI双引擎防沉迷&#822…

秋秋
2026年7月3日
AI

腾讯 Marvis 马维斯 iOS 版上线，手机与电脑实现跨端无缝协同

6月23日，腾讯旗下的操作系统层级AI助手Marvis马维斯移动端APP iOS版本正式登陆苹果App Store。至此，继5月20日发布Android端、Windows端和mac…

科技观察者
2026年6月26日
新闻

腾讯“碳寻计划”二期终选名单公布，支持16个团队用全球方案解决全球问题

6月24日，腾讯携手TED在伦敦气候周举办活动，公布“碳寻计划”二期的终选名单，活动现场，入选团队受邀进行技术分享，并与气候领域专家、政策制定者、投资及产业合作方探讨全球气候科技的…

科技观察者
2026年6月25日
AI

腾讯AI打通了：ima正式接入元宝一键加入个人知识库

6月15日，腾讯ima已经正式和元宝完成打通，两大产品实现知识库互通，进一步完善了腾讯的AI生态体系。现在大家在元宝里提问，平台会直接调取ima公开知识库中的海量专业内容作答。和以…

科技观察者
2026年6月15日
新闻

腾讯乐享升级企业Agentic知识库，成为WorkBuddy企业版知识中枢

6月5日，在2026腾讯云AI产业应用大会上，腾讯乐享正式发布企业Agentic知识库升级方案，产品定位从企业知识管理平台升级为企业Agent知识中枢。同时，腾讯乐享与WorkBu…

李森
2026年6月8日
新闻

腾讯发布首个智能体行业应用LearnBuddy，打造专家同行的AI自主学习平台

6月5日，腾讯云AI产业应用大会上，腾讯云首发效率智能工具集及企业效率智能体套件，并升级面向Agent的云底座，针对用户需求和行业场景提供个性化智能体解决方案，加速Agent进入产…

科技观察者
2026年6月8日
新闻

腾讯云发布音视频 AI 品牌 WAND：六大自研模型，60+ 项 AI 能力覆盖媒体生产全链路

6 月 5 日，在 2026 AI 产业应用大会上，腾讯云音视频正式发布 AI 原生能力底座 WAND。WAND 从底层模型、媒体能力到接入方式全面升级，音视频的媒体 AI 能力将…

李森
2026年6月6日
新闻

腾讯董志强：AI Agent已成为众多企业“数字员工”，安全防护需要同步跟上

6月5日，在2026腾讯云AI产业应用大会上，腾讯云副总裁、云鼎实验室负责人董志强以”构筑Agent时代安全基座”为题发表演讲。他指出，越来越多的企业将AI…

校草
2026年6月5日
新闻

腾讯云发布WorkBuddy企业版与办公智能体套件，开创效率办公新范式

腾讯发布WorkBuddy企业版及Agent Suite，打造AI原生组织解决方案，助力企业实现AI提效与团队协同。

潮玩君
2026年6月5日
AI

腾讯升级企业Agent产品矩阵，办公智能体套件全新上线

6月5日，2026腾讯云AI产业应用大会上，腾讯正式发布WorkBuddy企业版（WorkBuddy Enterprise）及办公智能体套件Agent Suite，同步升级企业智能…

苹果派
2026年6月5日
新闻

腾讯QQ未保体系升级“新芽守护行动”，为青少年筑起网络安全护栏

当数字技术深度融入青少年的学习、社交与成长，如何从源头上构建安全、健康的网络环境，已成为全社会共同关注的命题。6月1日，腾讯QQ在北京举办“QQ新芽守护行动发布暨青少年网络保护研讨…

科技观察者
2026年6月2日
新闻

49位一线科学家为小学生“做课”，“追光课堂”帮AI时代的青少年“像科学家一样思考”

在贵州黔南的罗甸县木引小学四年级（1）班的科学课堂上，孩子们围着一台100倍显微镜，争先恐后地把化纤、棉花、羊毛塞到镜头下——他们要回答一个看似平常、却被科学家郑重端到课桌上的问题…

科技观察者
2026年6月1日
新闻

SPARK2026腾讯游戏发布会：超40款游戏公布最新动态，多项游戏AI应用发布新进展

5月27日，SPARK2026腾讯游戏发布会在线上举行。发布会上，在“制作”“发行”“投资”三大篇章，共计42款海内外游戏分享了它们的最新动态，29位海内外游戏开发者参与了发布，向…

科技观察者
2026年5月27日
新闻

腾讯深圳新总部“企鹅岛”已有 1.4 万人“上岛”，员工可享 2000 元档公寓租金

5月27日，位于深圳前海大铲湾片区的腾讯总部基地（又称“企鹅岛”）于 2025 年 10 月起进入试运营阶段，已按照规划建成 30%。据报道，去年 10 月试运营至今已有 1.4…

潮玩君
2026年5月27日
AI

腾讯混元开源Hy-MT2翻译模型，同步推出离线翻译小程序

腾讯混元近日宣布正式开源全新多语言翻译模型Hy-MT2，并同步上线了“腾讯Hy翻译”小程序，为用户和开发者带来高质量、高效率的翻译解决方案。该模型家族包含三种尺寸：轻量级Hy-MT…

柠萌
2026年5月22日
AI

腾讯上线操作系统层级AI助手Marvis，支持跨端操控与本地隐私模式

5月20日，腾讯宣布旗下操作系统层级AI助手Marvis（马维斯）正式上线，官网（Marvis.qq.com)开放下载，无需邀请码使用。除了常规的AI Agent能力，Marvis…

科技观察者
2026年5月21日

发表回复

登录后才能评论

腾讯联合人大开源PlanningBench，专攻大模型规划能力评测

相关推荐

发表回复