
百度近日正式推出基于文心大模型衍生出的多模态模型PaddleOCR-VL-1.6。在权威评测集OmniDocBench v1.6中,该模型以96.33%的准确率超越Gemini-3-Pro、GPT-5.2及GLM-OCR等国内外主流大模型,刷新业界SOTA,综合性能荣登全球第一,标志着多模态大模型在复杂文档理解与真实场景解析能力上取得重要突破。
作为文心大模型多模态能力的核心组成部分,PaddleOCR目前支持超100种语言识别,用户覆盖全球170多个国家和地区。本次升级的PaddleOCR-VL-1.6在保持0.9B轻量化架构的前提下,通过模型驱动的数据构建机制与渐进式训练优化,显著提升了表格、古籍、生僻字、印章及图表识别等复杂场景的核心识别能力。在面向真实复杂场景的Real5-OmniDocBench评测中,该模型以93.19%的总指标同样保持领先,攻克了扫描件、弯折、屏幕拍照、光照变化及倾斜文档等业界公认的解析痛点。
由于延续了前代架构,企业和开发者可实现无需额外适配的平滑迁移。目前PaddleOCR在GitHub上的Star数已突破79.2K,超越谷歌Tesseract OCR,成为全球最受欢迎的开源OCR项目。新模型现已上线官网并开源代码与权重。在当前大模型向多模态深度演进的趋势下,PaddleOCR-VL-1.6不仅为文档数字化提供了更高效的产业级解决方案,也将进一步加速AI在复杂多模态场景下的落地进程。
原创文章,作者:百度,如若转载,请注明出处:https://www.kejixun.co/article/754080.html