阿里巴巴中国电商事业群郑波:多模态智能是淘宝最重要的AI技术域

10月24日,阿里巴巴中国电商事业群首席科学家、技术总裁郑波在CNCC2025大会上,首次透露淘宝全模态大模型最新进展,并系统介绍了多模态智能在淘宝AIGX技术体系的研究和应用,包括多模态生成、生成式推荐(AIGR)、AI Agent等多项最新技术突破。

郑波指出,从过去两年多的发展来看,AI处理问题的复杂度每年以5-10倍速度增加,而AI的错误率每年降低50%,模型inference(推理)的成本每年也降低一个数量级,按照这一发展趋势,狭义AGI(在多数开放环境任务完成度超过95%的人类)将在未来5至10年之间实现。淘宝自2003年上线以来,始终坚持技术发展和商业变革双向驱动,在新的AI时代,多模态智能将是“万能的淘宝”最重要的技术域。

阿里巴巴中国电商事业群郑波:多模态智能是淘宝最重要的AI技术域

据介绍,淘宝的全模态大模型“TStars-Omni”,支持输入文本、图像、视频、音频,输出文本和音频,极大程度的对齐了人类感官。该模型在模型基座、视觉编码器、音频理解、语音合成等方面进行了深度优化,实现体量小、吞吐快的显著优势显著,性能处于领域第一梯队,并通过全面的商品理解,满足用户深层次推理需求。比如,用户输入冰箱和厨房平面图两张图片后提问:“我可以把这个冰箱放进我的厨房吗?”TStars-Omni模型对图片进行分析推理后回答:“无法直接嵌入”,并给出建议和提醒。

在多模态生成方面,淘宝推出视频生成模型的升级版——淘宝星辰·视频生成模型3.0。该模型采用了更紧凑的16x16x4时空压缩VAE,在大幅增加DIT参数的情况下,保持推理的高效。高品质、类别平衡的训练数据,搭配大幅提升的语义理解模块,使得模型动作更加灵动,语义更精确,画面更原生。

郑波现场演示了多模态生成技术在电商场景中的应用。商家只需提供一件连衣裙的平铺照片,系统将匹配生成一个虚拟模特,之后生成多张模特穿着此连衣裙的、在不同场景的摆拍照片;进一步的,视频生成模型可将照片生成为视频片段,并根据首尾帧生成视频转场,再生成虚拟模特讲解视频之后,多模态剧本生成和自动剪辑技术将全自动的制作出一条完整的带货视频,大幅降低了商家的内容制作成本。

据悉,多模态智能已经在淘宝AIGX技术体系发挥着越来越重要的作用。淘宝自研的推荐大模型“RecGPT”已全面接入手机淘宝首屏“猜你喜欢”信息流。这款百亿参数的多模态大模型,能对10万量级的上下文进行总结,理解长达十年的用户信息,全模态认知数亿商品,并结合世界知识进行推理。数据显示,搭载RecGPT的推荐信息流实现用户点击量增长超16%,用户加购次数和停留时长均提升超5%。

此外,郑波还介绍了近期发布的AI Agent——iFlow CLI。iFlow CLI支持命令行、IDE插件和Agent SDK等多种使用方式,提供完全免费的国产模型市场,涵盖编程、广告创意、学术写作、攻略制定、流程图绘制等多个应用场景,面向个人用户永久免费开放。

特别值得一提的是,为向业界共享AIGX技术体系创新能力,淘宝近期陆续开源了强化学习训练框架ROLL和生成式预估训练框架RecIS,通过强化学习和深度学习的大模型训练完整框架,打通从小模型到超大模型的训练落地路径,为推荐系统结合多模态大模型训练提供技术支撑。

本文来自投稿,不代表科技讯立场,如若转载,请注明出处:https://www.kejixun.co/article/736888.html

陈晨陈晨管理团队

相关推荐

发表回复

登录后才能评论