别被模型宣传骗了，真实 Agent 任务一跑就知道

若安丶 • 1小时前 • 产经

现在市面上能调用的模型确实越来越多了，各家都有自己的亮点和侧重点，光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候，情况就更加复杂了。

所以我就想着，不如把几个主流模型都拉出来实际跑一遍，看看它们真实表现到底如何，也好给自己找个手感。

测评说明：本次并非严格意义上的 benchmark 评测，更像是一次围绕单个长链路 Agent 任务的体验观察记录，结果仅供参考，不构成对模型的全面定论。

本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个：

1.是否能连续调用工具完成任务

2.是否能稳定生成可运行页面

3.页面完成后是否会主动检查和修复问题

全局采用 WorkBuddy Agent 工具，费用为 WorkBuddy 平台本次任务消耗估算，不代表官方 API 价格。

通用提示词如下：

MiniMax-M3

MiniMax-M3 在这类长链路任务里表现比较稳定。

基本上会主动进行多轮工具调用，包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent，不会只停留在“给一段代码”的层面。

测试过程中，工具调用失败几率很小，但也不是完全没有。我这里有一次工具调用失败，不过没有影响最后的结果生成。模型会继续往下执行，并把页面做出来。

这个是制作完成后的页面效果。

从最终页面来看，MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷，但胜在流程稳定，任务理解也比较清楚。

Workbuddy里面消耗积分：27点积分左右。

换算一下差不多在1.33元左右。

如果按 API 单价估算，MiniMax-M3 属于中低成本模型，适合反复跑 Agent 流程类任务。

经过多次测试，MiniMax-M3 的任务制作完成率为 100% ，工具成功调用率约为 98% 。有少部分工具调用失败，但没有影响最后结果生成。

简单来说，MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。

说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。

DeepSeek-V4-flash

同样的提示词，我又测试了 DeepSeek-V4-flash。

DeepSeek-V4-flash 的整体速度比较快，响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

不过在长链路工具调用里，它的风格会更偏“快速完成任务”。也就是说，它会很快把代码生成出来，但在资料搜索、数据校验、细节修复方面，没有 MiniMax-M3 和 Step-3.7-flash 那么细。

从结果来看，页面是可以正常完成的，基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo，它的效率很高。

但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复，它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。

Workbuddy里面消耗积分：4点积分左右。换算一下差不多为0.2元左右。

从价格体感来看，DeepSeek-V4-flash 的成本优势明显，适合高频调用。

经过多次测试，DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。

我的感受是，DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好，但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。

Step-3.7-flash

Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。

它在多工具调用上的积极性比较高，会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务，而不是简单回答问题。

页面效果是典型的深色科技风。

AI 很喜欢这种配色，如果没有特别说明，很多模型都会默认生成深色系的网站页面。这个不能说不好，只是如果你想要清爽、明亮、偏公众号长图风格的页面，提示词里最好提前写清楚。

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全，分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别，而不是只列几个常见工具。

从页面完成度来看，Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上，包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。

本轮测试费用约为：0.7元左右

从单价来看，Step-3.7-flash 价格属于中等偏下选手，它的优势不在低价，而在“能连续跑、少中断、完成率高”。

经过多次测试，Step-3.7-flash 的任务制作完成率约为 100%，工具成功调用率约为99%。

如果你的任务是高频、多轮、低延迟，并且包含搜索、文件、代码、修复等工具链路，Step-3.7-flash 是比较值得放进候选列表的模型。

GLM5.2

然后我们来看看 GLM5.2 生成的效果。

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站，也能把页面模块拆得比较清楚。

从结果来看，页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。

GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力，最大的缺点就是太贵。

本轮测试费用约为：74点积分左右。换算一下，差不多在3.66元左右。

最后再测试一个国外的模型Gemini3.5 flash，看看效果怎么样。

Gemini3.5 flash

如果是做前端页面的话，Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。

下面是制作的AI工具导航网页效果。

Gemini3.5 flash 最大的优势是页面观感舒适。

它生成的前端页面会更精致，布局更舒服，留白和层次感也更好。相比前面几个模型，Gemini3.5 flash会更懂一点前端设计。

不过 Gemini3.5 flash 也有明显问题。

它在视觉表现上确实更好，但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比，Step 收集的数据更全，分类覆盖更完整，工具调用也更积极。

本轮测试费用约为：9元左右。

Gemini3.5 flash 的价格明显更贵，尤其是输出 token 较多、带工具调用、带代码生成的任务，费用会比国产 Flash 档模型高不少。

如果你对页面要求比较高，可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用，还是要谨慎一些。

测试结果对比

总结

这次测试下来，我更关注的不是单轮回答能力，而是模型能不能把一个真实任务从头跑到尾。

如果只看页面美观，Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo，视觉上会舒服一些。

如果看工具调用和数据完整度，Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查，适合长链路 Agent 任务。

如果看成本和稳定性，MiniMax-M3 是一个很稳的选择。它没有特别花哨，但多次测试都能完成任务，工具调用失败也不会明显影响结果。

DeepSeek-V4-flash 的优势是快和便宜，适合快速生成初稿。GLM5.2 则比较均衡，适合做综合型任务。

所以模型选择还是要看场景。

做展示型页面，可以优先看 Gemini。做生产级 Agent 流程，可以重点看 Step-3.7-flash。做高频低成本任务，可以看 MiniMax-M3 和 DeepSeek-V4-flash。

本文来自投稿，不代表科技讯立场，如若转载，请注明出处：https://www.kejixun.co/article/756710.html

若安丶管理团队

0 0

产经

聚焦数据资产化共探价值变现新机遇

中国企业数字化转型沙龙暨美俪家族初章系列上线发布会圆满启幕 2026年7月2日，由深创学院联合嘉兴市福建商会共同主办，以聚焦数据资产化，共探价值变现新机遇为核心主题的中…

陈晨
27分钟前
AI节点扩容里的内存品牌观察

服务器内存和AI内存评价，通常围绕容量、速率、功耗、封装和平台验证展开。DDR5 RDIMM、HBM和SOCAMM2承担的角色不同，要分清系统内存、加速器内存和低功耗主存储模块。 …

若安丶
产经 2小时前
产经

华为nova 16系列944元学生专属权益，购机送云空间华为音乐会员好礼

六月毕业季恰逢暑期大促，正是换新机的好时机。而在近期各销售渠道的智能手机热销榜上，华为nova 16系列持续稳居学生群体换机热门机型榜单。华为nova 16系列现已推出四款机型，…

陈晨
2小时前
教育“十五五”规划释放AI+教育信号，斑马探索儿童素养培养新路径

近日，《教育发展“十五五”规划》（以下简称《规划》）相关部署引发行业关注。围绕“人工智能+教育”、教育数智化、青少年科学素养与批判性思维培养等方向，《规划》进一步释放出教育从知识传…

陈晨
产经 4小时前
产经

深耕鸿蒙生态创新全场景服务人民日报客户端以技术研发拓宽主流媒体信息服务边界

人工智能与万物互联技术的深度普及，改变了大众获取信息的场景与习惯。传统单一手机端、被动式的资讯阅读模式，已无法适配多终端协同、场景化触达、智能化交互的全新用户需求。作为主流媒体核心…

若安丶
20小时前
产经

世界杯观赛100寸电视推荐：海信E5S Pro看清每个细节

　　一场世界杯比赛的走向，往往从球员起脚前就开始了。　　2026世界杯K组第二轮，葡萄牙获得禁区弧顶任意球。C罗深呼吸、站定、盯球、绷紧身体，摆出标志性的主罚姿态。但下一秒，C罗…

若安丶
20小时前
产经

ROG玩家国度×索尼影业 7月29日与蜘蛛侠开启崭新之日

7月1日，ROG玩家国度正式官宣与索尼影业出品的超级英雄大片——《蜘蛛侠：崭新之日》达成合作，成为中国大陆地区电脑品类独家联合推广伙伴。这部由漫威与索尼联合出品的超级英雄大片将于7…

陈晨
21小时前
产经

不只是浏览，更是陪伴！华为浏览器做你的“全天候生活搭子”

在快节奏的都市生活中，浏览器作为看世界的窗口，正经历一场从“搜索工具”到“生活搭子”的蜕变。最近，华为浏览器发布的产品视频，以完整一日为叙事主线，跳出传统浏览器“单一搜索工具”定位…

陈晨
21小时前
欢聚（JOYY.US）旗下BIGO Ads 荣获 The Sammy 2026 年销售与营销卓越奖，AI广告技术能力获国际认可

欢聚集团（JOYY.US）旗下以深度学习为基础的智能广告平台 BIGO Ads 近日荣获 Business Intelligence Group 颁发的 The Sammy 202…

若安丶
产经 22小时前
产经

二次元DNA动了！微星神影16 魔龙姬限定款首发预约

微星品牌成立40周年之际，为回馈广大年轻玩家与二次元爱好者，微星笔记本人气IP联名机型 —— 神影16 魔龙姬限定款 2026，它来了！星云白清爽配色，魔龙姬专属元素，满功耗硬核性…

小丸子
23小时前
极速表现可观、提速表现出众，绿源 S86GT 战神依托四大核心优势正式上市

国内电摩消费市场正迎来需求升级，选购思路逐步从 “满足基础代步够用” 转向追求综合使用体验出众。当不少消费者不再满足于不少常规车型动力储备偏保守、内饰用料基础、智能化配置偏少的现状…

陈晨
产经 23小时前
持续投入绿色经营中国三星以低碳行动书写可持续发展新篇章

当技术创新加速改变世界，地球所面临的环境压力也更加引人深思。在发展和保护之间，在便利与责任之间，科技企业理应坚持低碳发展，保护人类家园。作为全球领先的科技企业，三星电子始终将可持续…

陈晨
产经 23小时前
产经

16强悬念拉满！世界杯观赛认准海信100寸电视：看清决胜瞬间

　　世界杯1/16决赛打响，首日欧洲豪门球队德国、荷兰同天相继折戟，次日，姆巴佩破门双响，法国队3:0大胜瑞典；哈兰德绝杀破门，助力挪威时隔28年重返世界杯16强。至此，赛前被称为…

若安丶
1天前
产经

锚定实景落地深耕产业赛道吉翼智能发布全栈具身智能解决方案

在具身智能赛道，“被看见”和“被信赖”之间，吉翼智能选择了后者。产品进入真实产线被验证之前，这家企业几乎没有任何声量——没有跳舞视频，没有马拉松热搜，没有Demo刷屏。直到6月27…

陈晨
1天前
产经

智梦可dreamok AI睡眠超充垫震撼上市以智驾级数据闭环重塑睡眠体验

2026年7月1日，智梦可dreamok AI睡眠超充垫正式在京东平台独家开启预售。作为睡眠科技行业的创新品类，AI睡眠超充垫凭借前期超千人的预约热度，以及京东首届“新兴Aidol…

陈晨
1天前
产经

新的外形比例？三星折叠屏新品亮相在即

2026年7月1日，三星在社交平台发布了六段趣味短视频，引发热议。结合三星将于7月举办新品发布会并推出新一代折叠屏机型的惯例，这些视频中的内容显然暗示了与即将登场的新品有关的一些信…

陈晨
2天前
软件定义高速总线赋能开放式航天信息系统 ——杨水华在第八届全国空间数据系统学术交流会作专题报告

近日，第八届全国空间数据系统学术交流会在湖南长沙举行。北京中航通用科技有限公司总经理杨水华受邀作题为《SDB软件定义高速总线技术及单芯片实现》的专题报告，围绕新一代高速总线技术发展…

李森
产经 2天前
产经

覆盖经营、员工、客户三大场景，京东政企业务以阳光采购平台助力长安汽车“业采融合”

在国家深入推进新型工业化、加快“人工智能+”行动落地的背景下，制造业正加速从“制造”向“智造+服务”转型升级。面对大型制造企业跨区域运营管理、员工福利普惠覆盖、客户服务提质增效等…

陈晨
2天前
买二手3C，综合平台和垂直平台怎么选？客观对比4大平台

想买二手手机或平板，打开App能看到好几类平台。有的什么都卖——手机、电脑、家具、服装、母婴用品全都有；有的只做3C——手机、平板、笔记本、耳机，围绕电子产品深耕。这两类平台没有高…

科技观察者
产经 2天前
产经

真正的差距，不在技术，而在赛场｜ITEC2026具身智能行业赛招募

　　01 所有商业的终极竞争，本质是「赛场维度」的竞争　　很多创业者误以为：科创竞争，拼的是谁的技术更极致。　　其实不是。技术决定你的下限，赛道决定你的上限。　　当下具身智能…

陈晨
2天前

发表回复

登录后才能评论

别被模型宣传骗了，真实 Agent 任务一跑就知道

相关推荐

发表回复