‌谷歌Veo-3手术视频生成AI被曝医学逻辑缺陷:视觉逼真但操作错误率超93%

‌谷歌Veo-3手术视频生成AI被曝医学逻辑缺陷:视觉逼真但操作错误率超93%

最新研究显示,谷歌最新视频生成人工智能模型Veo-3在手术视频生成任务中表现两极分化:虽然能产出”清晰得令人震惊”的视觉画面,但对医学操作的理解存在严重缺陷。研究团队通过构建包含50段真实腹腔和脑部手术视频的SurgVeo评测标准,要求模型根据单张手术图像预测后续8秒进展,并由四位外科医生从视觉真实性、器械合理性、组织反应及手术逻辑性四个维度评分。

结果显示,在腹腔手术测试中,Veo-3的视觉合理性获得3.72分(满分5分),但器械操作仅1.78分,组织反应1.64分,手术逻辑性更是低至1.61分。神经外科场景中,其8秒后手术逻辑性得分仅为1.13分。深入分析发现,93%的错误源于医学逻辑层面,包括虚构手术器械、违反生理规律的组织反应等。即便提供手术类型和操作阶段等上下文信息,模型表现仍未见显著改善。

研究团队指出,当前视频生成AI与真正理解医学操作仍有巨大差距。虽然未来可能应用于医生培训和术前规划,但现有模型存在误导风险,可能传播错误手术技巧。为推进研究,团队计划开源SurgVeo数据集,同时警告医学界需谨慎使用此类生成内容。该研究揭示了AI在专业领域应用的局限性——视觉表现力不等于专业认知能力。

原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.co/article/738160.html

Google的头像Google认证作者

相关推荐

发表回复

登录后才能评论