‌苹果推出全能AI模型UniGen 1.5 实现图像理解、生成与编辑三合一

‌苹果推出全能AI模型UniGen 1.5 实现图像理解、生成与编辑三合一

近日,科技媒体9to5Mac报道称,苹果研究团队近日发布了多模态AI模型UniGen 1.5,该模型首次在单一系统中集成了图像理解、生成与编辑三大核心功能,标志着视觉AI技术的重大突破。与依赖多个独立模型的传统方案不同,UniGen 1.5通过统一框架实现了任务整合,其图像理解能力可反哺生成效果,显著提升视觉输出的精准度。

在图像编辑领域,苹果团队创新性地引入了“编辑指令对齐”技术。该技术要求模型先根据用户指令预测目标图像的文本描述,再生成最终图像,这一“先想后画”的中间步骤大幅提升了编辑的准确性。此外,UniGen 1.5还通过统一的奖励系统优化了强化学习过程,使模型在生成和编辑任务中遵循一致的质量标准,增强了系统的抗干扰性。

测试数据显示,UniGen 1.5在GenEval和DPG-Bench基准测试中分别获得0.89和86.83的高分,性能超越BAGEL、BLIP3o等热门模型。在图像编辑专项测试ImgEdit中,其4.31的综合得分与专有闭源模型GPT-Image-1持平。尽管表现优异,该模型仍存在生成文字错误和主体特征漂移等局限性,苹果团队表示将针对这些问题进行后续优化。

原创文章,作者:Apple,如若转载,请注明出处:https://www.kejixun.co/article/741488.html

Apple的头像Apple认证作者

相关推荐

发表回复

登录后才能评论