
今日,通义千问正式发布Qwen-Image-Edit,这是其20B规模的Qwen-Image模型的升级版本,首次将强大的文本渲染能力延伸至图像编辑领域。用户只需通过Qwen Chat的“图像编辑”功能,即可体验这一创新工具。
Qwen-Image-Edit的核心优势在于其双重编辑能力:通过结合Qwen2.5-VL的视觉语义控制和VAE Encoder的外观控制,用户不仅能精准修改图片中的文字(中英文皆可),还能实现从低层级元素增删到高层级风格迁移的多样化操作。例如,它可以为吉祥物卡皮巴拉生成不同风格的MBTI表情包,或通过90度旋转展示物体背面,甚至将人物头像转换为吉卜力动画风格。
在实际应用中,该模型的表现尤为突出。无论是添加指示牌并自动生成倒影,还是删除头发丝等微小瑕疵,Qwen-Image-Edit都能保持图像其他区域不变。此外,它还支持链式编辑,例如逐步修正书法作品中的错字,最终生成准确的《兰亭集序》版本。官方测试显示,该模型在多项基准任务中已达到行业领先水平,为设计、广告和内容创作提供了高效工具。
原创文章,作者:李小白,如若转载,请注明出处:https://www.kejixun.co/article/731472.html