测试结果显示,PaddleOCR-VL-1.6在文本、公式、表格等核心识别能力上整体领先当前主流开源及闭源方案,在表格、古籍、生僻字识别等复杂场景能力突出增强,在印章、Spotting、图表识别等多项关键能力同步增强,可更好满足文档数字化的需求。据了解,PaddleOCR基于文心大模型训练而来,是文心大模型多模态能力的重要部分,支持超100种语言识别,用户覆盖170多个国家和地区。近年来,PaddleOCR不断推进文档理解能力升级,先后推出 PaddleOCR-VL、PaddleOCR-VL-1.5等多款模型。之前,PaddleOCR GitHub Star数已突破79.2K,超过谷歌开源OCR项目 Tesseract OCR,成为全球最受开发者欢迎的开源OCR项目之一。由于两代模型结构一致,开发者和企业用户无需展开额外适配,即可平滑迁移。此次发表的 PaddleOCR-VL-1.6在 PaddleOCR-VL-1.5基础上进一步升级,该行业构建机制和渐进式训练优化,在保持0.9B轻量化架构的情况下,模型准确率和复杂场景适应能力进一步提升。其中,PaddleOCR-VL-1.5创新声援异形框定位,在真实文档场景中展现出较强解析能力。目前,PaddleOCR-VL-1.6已上线 PaddleOCR官网,支持网页端和API调用。同时,模型代码及权重已同步开源至 GitHub和 Hugging Face,面向全球开发者开放运用。
<