别被模型宣传骗了,真实 Agent 任务一跑就知道

现在市面上能调用的模型确实越来越多了,各家都有自己的亮点和侧重点,光看宣传文档和跑分数据其实很难判断哪个真正适合自己——尤其是当任务从单轮对话延伸到多步操作的时候,情况就更加复杂了。

所以我就想着,不如把几个主流模型都拉出来实际跑一遍,看看它们真实表现到底如何,也好给自己找个手感。

测评说明: 本次并非严格意义上的 benchmark 评测,更像是一次围绕单个长链路 Agent 任务的体验观察记录,结果仅供参考,不构成对模型的全面定论。

本次测试使用到的模型有 MiniMax-M3、DeepSeek-V4-flash、Step-3.7-flash、GLM5.2、Gemini3.5 flash。

这次测试任务是做一个「AI 网站聚合平台」的 HTML 单页。核心观察点有三个:

1.是否能连续调用工具完成任务

2.是否能稳定生成可运行页面

3.页面完成后是否会主动检查和修复问题

全局采用 WorkBuddy Agent 工具,费用为 WorkBuddy 平台本次任务消耗估算,不代表官方 API 价格。

通用提示词如下:

74267142-8ec1-4db4-899a-9e0177c83246.png
2b1e655e-1be0-46b8-b937-28190c4ff4c9.png

MiniMax-M3

MiniMax-M3 在这类长链路任务里表现比较稳定。

基本上会主动进行多轮工具调用,包括搜索资料、整理数据、生成页面代码、检查文件、修复问题等。整个过程比较像一个正常工作的 Agent,不会只停留在“给一段代码”的层面。

别被模型宣传骗了,真实 Agent 任务一跑就知道

测试过程中,工具调用失败几率很小,但也不是完全没有。我这里有一次工具调用失败,不过没有影响最后的结果生成。模型会继续往下执行,并把页面做出来。

别被模型宣传骗了,真实 Agent 任务一跑就知道

这个是制作完成后的页面效果。

别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道

从最终页面来看,MiniMax-M3 的数据完整度、页面结构和交互功能都比较完整。它没有特别追求视觉上的炫酷,但胜在流程稳定,任务理解也比较清楚。

Workbuddy里面消耗积分:27点积分左右。

换算一下差不多在1.33元左右。

别被模型宣传骗了,真实 Agent 任务一跑就知道

如果按 API 单价估算,MiniMax-M3 属于中低成本模型,适合反复跑 Agent 流程类任务。

经过多次测试,MiniMax-M3 的任务制作完成率为 100% ,工具成功调用率约为  98% 。有少部分工具调用失败,但没有影响最后结果生成。

简单来说,MiniMax-M3 的优势是稳定、便宜、能跑完。适合做批量页面生成、资料整理、代码初稿、轻量级 Agent 任务。

说到便宜下面测试一下最便宜的大模型-deepseek-v4-flash看看效果怎么样。

DeepSeek-V4-flash

同样的提示词,我又测试了 DeepSeek-V4-flash。

别被模型宣传骗了,真实 Agent 任务一跑就知道

DeepSeek-V4-flash 的整体速度比较快,响应也很干脆。它在理解需求、拆分页面模块、生成 HTML 结构这几个环节表现不错。

不过在长链路工具调用里,它的风格会更偏“快速完成任务”。也就是说,它会很快把代码生成出来,但在资料搜索、数据校验、细节修复方面,没有 MiniMax-M3 和 Step-3.7-flash 那么细。

别被模型宣传骗了,真实 Agent 任务一跑就知道

从结果来看,页面是可以正常完成的,基础模块也都有。比如分类、卡片、搜索、详情、表格这些功能都能覆盖到。

别被模型宣传骗了,真实 Agent 任务一跑就知道

DeepSeek-V4-flash 比较适合对速度敏感的任务。如果你只是想快速得到一个能跑的 HTML Demo,它的效率很高。

但如果任务要求包含大量资料核对、页面细节打磨、多次运行修复,它有时需要人工提醒一下。比如让它再检查一次链接、再优化一下样式、再补充数据字段。

Workbuddy里面消耗积分:4点积分左右。 换算一下差不多为0.2元左右。

别被模型宣传骗了,真实 Agent 任务一跑就知道

从价格体感来看,DeepSeek-V4-flash 的成本优势明显,适合高频调用。

经过多次测试,DeepSeek-V4-flash 的任务制作完成率约为100%。工具调用成功率为99%。

我的感受是,DeepSeek-V4-flash 很适合“快速生成 + 人工稍微检查”的工作流。速度和成本很好,但长链路 Agent 的细节稳定性还需要看具体平台的工具环境。

Step-3.7-flash

Step-3.7-flash 是这次测试里比较符合“生产级 Agent”定位的模型。

它在多工具调用上的积极性比较高,会连续完成搜索、读取、整理、生成、修改和检查。整个过程更像是在完整执行一个任务,而不是简单回答问题。

别被模型宣传骗了,真实 Agent 任务一跑就知道

页面效果是典型的深色科技风。

AI 很喜欢这种配色,如果没有特别说明,很多模型都会默认生成深色系的网站页面。这个不能说不好,只是如果你想要清爽、明亮、偏公众号长图风格的页面,提示词里最好提前写清楚。

别被模型宣传骗了,真实 Agent 任务一跑就知道

Step-3.7-flash 在数据整理方面表现比较突出。AI 工具数据比较全,分类也比较清楚。它会尽量覆盖写作、编程、图片、视频、搜索、办公等不同类别,而不是只列几个常见工具。

别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道

从页面完成度来看,Step-3.7-flash 的内容密度最高。它会尽量把任务要求里的模块都补上,包括顶部标题区、分类筛选、工具卡片、推荐工具、对比表格和总结说明。

本轮测试费用约为:0.7元左右

别被模型宣传骗了,真实 Agent 任务一跑就知道

从单价来看,Step-3.7-flash 价格属于中等偏下选手,它的优势不在低价,而在“能连续跑、少中断、完成率高”。

经过多次测试,Step-3.7-flash 的任务制作完成率约为 100%,工具成功调用率约为99%。

如果你的任务是高频、多轮、低延迟,并且包含搜索、文件、代码、修复等工具链路,Step-3.7-flash 是比较值得放进候选列表的模型。

GLM5.2

然后我们来看看 GLM5.2 生成的效果。

别被模型宣传骗了,真实 Agent 任务一跑就知道

GLM5.2 在代码生成和页面结构上表现不错。它能理解这个任务需要一个完整的 AI 工具导航站,也能把页面模块拆得比较清楚。

从结果来看,页面整体完成度是可以的。分类、卡片、搜索、说明区这些内容都有覆盖。

别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道

GLM5.2 的特点是能力比较均衡。在Agent任务中可以正常发挥模型实力,最大的缺点就是太贵。

本轮测试费用约为:74点积分左右。 换算一下,差不多在3.66元左右。

别被模型宣传骗了,真实 Agent 任务一跑就知道

最后再测试一个国外的模型Gemini3.5 flash,看看效果怎么样。

Gemini3.5 flash

如果是做前端页面的话,Gemini 的审美一直比较在线。所以这里我使用了 Gemini3.5 flash 模型。

下面是制作的AI工具导航网页效果。

别被模型宣传骗了,真实 Agent 任务一跑就知道

Gemini3.5 flash 最大的优势是页面观感舒适。

它生成的前端页面会更精致,布局更舒服,留白和层次感也更好。相比前面几个模型,Gemini3.5 flash会更懂一点前端设计。

别被模型宣传骗了,真实 Agent 任务一跑就知道
别被模型宣传骗了,真实 Agent 任务一跑就知道

不过 Gemini3.5 flash 也有明显问题。

它在视觉表现上确实更好,但数据收集没有前面的模型多。尤其是和 Step-3.7-flash 对比,Step 收集的数据更全,分类覆盖更完整,工具调用也更积极。

本轮测试费用约为:9元左右。

别被模型宣传骗了,真实 Agent 任务一跑就知道

Gemini3.5 flash 的价格明显更贵,尤其是输出 token 较多、带工具调用、带代码生成的任务,费用会比国产 Flash 档模型高不少。

如果你对页面要求比较高,可以试试 Gemini3.5 flash。它适合做展示页、官网 Demo、产品介绍页、课程资料页。但如果你更关心成本和高频调用,还是要谨慎一些。

测试结果对比

36a54157-290b-426d-9d12-b12700a1c096.png

总结

这次测试下来,我更关注的不是单轮回答能力,而是模型能不能把一个真实任务从头跑到尾。

如果只看页面美观,Gemini3.5 flash 的确更强。它生成的网页更像一个成品 Demo,视觉上会舒服一些。

如果看工具调用和数据完整度,Step-3.7-flash 的表现更突出。它会更主动地搜索、整理、生成和检查,适合长链路 Agent 任务。

如果看成本和稳定性,MiniMax-M3 是一个很稳的选择。它没有特别花哨,但多次测试都能完成任务,工具调用失败也不会明显影响结果。

DeepSeek-V4-flash 的优势是快和便宜,适合快速生成初稿。GLM5.2 则比较均衡,适合做综合型任务。

所以模型选择还是要看场景。

做展示型页面,可以优先看 Gemini。 做生产级 Agent 流程,可以重点看 Step-3.7-flash。 做高频低成本任务,可以看 MiniMax-M3 和 DeepSeek-V4-flash。

本文来自投稿,不代表科技讯立场,如若转载,请注明出处:https://www.kejixun.co/article/756710.html

若安丶的头像若安丶管理团队

相关推荐

发表回复

登录后才能评论