‌阿里通义千问开源20B图像生成模型 中文文本渲染能力突破

‌阿里通义千问开源20B图像生成模型 中文文本渲染能力突破

阿里通义千问团队宣布开源其首个图像生成基础模型Qwen-Image,这款20B参数的MMDiT模型在复杂文本渲染和精准图像编辑领域取得重大突破。该模型不仅能生成宫崎骏动漫风格等多样化图像,更在中文文本嵌入方面展现出超越同类产品的性能,解决了AI图像生成中长期存在的”文字失真”难题。

Qwen-Image的核心优势体现在三大维度:其文本渲染系统支持中英双语段落级生成,对联、招牌等复杂排版效果逼真;图像编辑功能通过多任务训练保持操作一致性,可实现风格迁移、细节增强等专业操作;在GenEval、DPG等12个基准测试中均达到SOTA水平,中文文本渲染得分较现有最优模型提升显著。实际测试显示,模型能准确生成包含”云计算””云存储”等专业术语的商业场景,以及”智启通义”等书法对联的完整版面。

目前该模型已在魔搭社区和Hugging Face开源,支持从照片写实到赛博朋克等数十种艺术风格转换。业界认为,这项技术将大幅降低视觉创作门槛,其开源性更有助于构建生成式AI的可持续发展生态。

原创文章,作者:小丸子,如若转载,请注明出处:https://www.kejixun.co/article/730547.html

小丸子的头像小丸子认证作者

相关推荐

发表回复

登录后才能评论