苹果公布Manzano多模态模型，兼具理解与生成能力

柠萌 • 2026年1月15日 13:19:00 • AI

据外媒报道，苹果公司发布了一篇重要研究论文，详细介绍了其全新的多模态AI模型“Manzano”。该模型的最大亮点在于，能近乎无损地同时实现精准的“视觉理解”与高质量的“文本生成图像”，有望解决行业内长期存在的任务冲突难题。

传统多模态模型在同时处理图像理解与图像生成时，往往因视觉数据处理方式的内在矛盾而被迫做出性能妥协。Manzano通过创新的三段式架构攻克了这一挑战：首先，其“混合视觉分词器”能同步生成连续与离散的视觉表示；接着，大语言模型负责预测图像语义；最后，“扩散解码器”进行精细的像素级渲染。

这种设计使得Manzano不仅能准确理解图像内容，还能根据复杂的文本指令生成高质量图片。在测试中，面对“一只鸟在大象下方飞翔”等反直觉指令，其逻辑准确性与GPT-4o等顶尖模型表现相当。此外，它还能处理深度估计、风格迁移等进阶任务。

研究团队验证了从3亿到300亿参数的不同版本，证实该架构具备良好的扩展性。尽管Manzano目前仍处于研究阶段，尚未集成至具体产品中，但业界普遍认为，这项技术未来很可能被应用于“图乐园”等功能，为用户带来更智能的图像编辑与生成体验，从而增强苹果在端侧AI领域的综合竞争力。

原创文章，作者：柠萌，如若转载，请注明出处：https://www.kejixun.co/article/743720.html

AI Manzano 苹果

柠萌管理团队

0 0

AI

消息称苹果正开发“iRing”智能戒指，或将入局可穿戴健康赛道

据知名爆料人@Kosutami_Ito昨日在X平台发布的消息，苹果公司正在开发一款名为“Ring”的智能戒指，上市后预计将与Oura Ring及三星Galaxy Ring等产品展开…

野游栗
7小时前
AI

谷歌将计算机使用工具直接集成至Gemini，AI从对话者进化为数字同事

谷歌昨日对其人工智能生态系统进行重大升级，正式将原生的“计算机使用”工具直接集成至Gemini 3.5 Flash模型中，全面取代此前的Gemini 2.5测试框架。这一举措标志着…

Google
8小时前
新闻

苹果返校季促销下周启动，但Mac和iPad已先行涨价

彭博社记者马克·古尔曼在社交媒体上透露，一年一度的苹果返校季促销活动将于下周正式开启。这一时间点与此前他在6月18日的预告相吻合，当时他曾表示促销活动”非常近&#822…

Apple
12小时前
产品

苹果罕见全球提价，直言“无法再保护消费者”

6月26日，苹果公司周四宣布对Mac、iPad及多款硬件产品实施全球提价，涨幅最高达300美元，成为该公司近年来最大规模的一次全球性调价行动。此次涨价直接由存储芯片短缺引发，苹果坦…

苹果派
13小时前
新闻

iPhone 被盗怎么办？苹果更新官方支持文档，新增防诈骗提醒

6月25日，苹果更新了其官方支持页面，针对 iPhone 被盗的情况给出了更加详细的应对建议。苹果新增加了一项警告，提醒用户当确认设备是被盗而非遗失时，不要在设备锁屏上显示自己的联…

苹果派
1天前
新闻

美政府施压Meta提交AI模型接受安全审查

据《纽约时报》援引知情人士消息，美国政府正加紧向Meta公司施压，要求其主动提交人工智能模型供政府审查，以便评估这些前沿技术的功能表现与潜在安全漏洞。这一举措是美国政府强化AI监管…

好奇宝宝
2天前
AI

京东开源实时视频交互模型，让AI从“一问一答”走向“边看边说”

京东近日正式开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，这是全球首个全栈开源的交互式视觉模型与可部署系统，并获得vLLM-Omni的day-0原生支持。…

小科同学
3天前
AI

Meta暂停监控员工键盘鼠标的AI项目，因数据泄露致内部敏感信息外泄

据Business Insider报道，Meta公司已紧急叫停一项名为“模型能力计划（MCI）”的AI训练项目，该项目原本用于记录公司内部员工的键盘敲击和鼠标操作轨迹，以收集训练数…

李小白
3天前
AI

亚马逊在ChatGPT打广告引流，却严防AI爬虫抓取自家数据

美国电商巨头亚马逊近日被曝已开始在ChatGPT平台投放广告，成为入驻OpenAI新兴广告业务中最具分量的零售企业。用户在使用ChatGPT搜索商品时，对话列表下方会直接出现亚马逊…

李森
3天前
新闻

消息称Anthropic或借助苹果数字身份证重启被禁AI模型

去年，苹果在iPhone上推出了数字身份证（Digital ID）功能，用户可将美国护照存入苹果钱包作为身份凭证使用。该功能适用于运行iOS 26.1或更高版本的iPhone 11…

柠萌
4天前
AI

Getty Images牵手OpenAI：图库内容将融入ChatGPT搜索体验

全球视觉内容巨头Getty Images日前宣布与OpenAI达成一项展示合作协议，标志着AI对话工具与正版视觉素材的融合再进一步。根据协议，Getty Images获得授权的海量…

AI
4天前
AI

纽约大学教授警告：AI泡沫破裂后果或超互联网泡沫

据外媒昨日报道，纽约大学金融学教授阿斯沃斯·达摩达兰发出严厉警告，称若当前AI行业泡沫破裂，其冲击可能比2000年前后的互联网泡沫更为严重。达摩达兰指出，AI热潮与当年互联网泡沫存…

泡沫大盗
5天前
AI

微信原生AI助手“小微”扩大灰度测试，一句话即可生成小程序

近日，微信原生AI助手“小微”开始扩大灰度测试范围，多个平台上陆续有用户反馈获得了体验资格。腾讯客服确认，“小微”目前仍处于测试阶段，支持通过文字或语音对话操作微信原生功能，例如调…

AI
5天前
新闻

亚马逊工程师因公开批评AI数据中心扩张遭内部调查

美国CNBC当地时间18日报道，多名亚马逊工程师因在公开场合批评公司AI数据中心迅速扩张并呼吁政府加强监管，随后遭到亚马逊内部调查，甚至面临解雇风险。本月早些时候，5名亚马逊员工在…

若安丶
6天前
AI

黄仁勋呼吁社会全面拥抱AI，类比汽车适应时代

当地时间6月17日，英伟达CEO黄仁勋在接受美联社采访时再度为人工智能热情发声，他呼吁社会必须主动改变，更积极、更广泛地拥抱AI，以改善人们的生活并加速经济增长与科学突破。面对AI…

若安丶
2026年6月19日
手机

消息称苹果iPhone Air 2明年春季发售升级双摄与2nm芯片

据彭博社报道，苹果旗下iPhone Air 2手机将于2027年春季正式发售，目前该机已进入高级测试阶段。这款新机在外观方面主要升级为双摄配置，新增超广角相机模组，同时将引入采用2…

Apple
2026年6月18日
AI

OpenRouter推出Fusion API复合模型服务多模型协同兼顾性能与成本

近日，知名AI模型聚合平台OpenRouter推出一项名为Fusion API的复合型模型服务，通过多模型协同的方式为用户提供兼具性能表现与成本效益的解决方案。该服务并非依赖单一模…

小丸子
2026年6月17日
商业

DeepSeek完成逾70亿美元融资创始人梁文锋以特殊架构保持绝对控制权

据国外媒体报道，AI大模型独角兽DeepSeek（深度求索）日前以非常规交易架构顺利完成首轮逾70亿美元（约合500亿元人民币）融资，投后估值突破500亿美元大关。本轮融资的最大创…

商业头条
2026年6月17日
新闻

苹果 iOS 27 预览应用彩蛋：可交互放大镜带来趣味视觉反馈

6月16日，苹果去年推出液态玻璃全新设计风格时，还为 iPadOS 系统里的预览（Preview）应用加入了一个趣味互动彩蛋。如今，这项有趣的交互效果也登陆了 iOS 27 系统。…

苹果派
2026年6月16日
AI

豆包上线“任务模式”，从聊天助手向AI智能体进化

字节跳动旗下AI对话助手豆包近日正式推出“任务模式”入口，标志着这款产品正从单一的文本交互工具向具备复杂工作流处理能力的AI智能体演进。作为豆包功能拓展的重要一步，“任务模式”主打…

AI
2026年6月16日

发表回复

登录后才能评论

苹果公布Manzano多模态模型，兼具理解与生成能力

相关推荐

发表回复