
腾讯混元近日正式发布了混元图像3.0图生图模型,并已在AI助手“元宝”及腾讯混元官网全端上线。该模型的推出被视为腾讯在多模态图像生成与编辑领域的一次重要突破。
此次发布的模型采用了混合专家架构,总参数量达到800亿。其核心特点被定义为“会思考”:它并非进行简单的滤镜式处理,而是在接收到用户提供的图片与指令后,先深度理解图像内容与用户意图,再自主推理出需要编辑的区域与具体步骤,同时精准保留原图中不应改变的细节,从而实现更符合逻辑的创作效果。
在功能上,该模型展现出广泛的应用潜力。它不仅能完成基础的元素增删、风格转换与老照片修复,更具备强大的多图融合能力,可提取不同照片中的元素进行创造性合成。这意味着普通用户能够便捷地制作个性化表情包、实现虚拟合影,甚至完成电商海报设计、游戏角色定制等专业需求。
为提升模型能力,研发团队构建了覆盖超80个细分任务的千万级数据集,并通过思维链训练与自研的MixGRPO算法进行优化,显著提升了指令响应速度与生成图像的一致性。该模型在输出图像的情感表现力与真实感方面均有进步,为AIGC创作提供了更专业且易用的工具选择。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/744293.html