Qianfan-OCR的端到端文档智能模型架构,革命性创新有哪些?
摘要:百度千帆正式发布全新端到端文档智能模型Qianfan-OCR,并同步在 HuggingFace 开源模型权重。这是一个40 亿参数的端到端文档智能模型,在OmniDocBench v1.5上以93.12 分的成绩位居端到端模型榜首,在关键信
百度千帆正式发布全新端到端文档智能模型Qianfan-OCR,并同步在 HuggingFace 开源模型权重。这是一个40 亿参数的端到端文档智能模型,在OmniDocBench v1.5上以93.12 分的成绩位居端到端模型榜首,在关键信息提取(KIE)等多个公开榜单上超越了 Google Gemini 3-Pro等商用模型。
从“流水线”到“端到端”:OCR 的架构革命
想象一下,你正在处理一份包含复杂表格、数学公式和多栏排版的学术论文。传统的 OCR 系统会这样工作:先用布局检测模型找出文字区域,再用文字识别模型逐个识别,最后用大语言模型理解语义。
这种“检测-识别-理解”的三段式流水线看似合理,却存在一个致命问题——误差累积。
前面任何一个环节出错,都会像多米诺骨牌一样影响后续处理:
表格线识别偏了一点,整个表格结构就乱了
公式中的某个符号识别错了,语义理解就完全跑偏
特别是在处理复杂图表和混合排版时,这种串联架构的局限性暴露无遗。
Qianfan-OCR 的出现,正是为了打破这个困局。
它采用统一的视觉语言架构,将文档解析、版面分析、文字识别与语义理解深度融合在单一模型中。
不再是“先看清楚,再理解”,而是“边看边理解”。
模型可以直接从图像生成结构化的 Markdown 输出,完整保留视觉信息与空间关系,实现从像素到语义的直接映射。
这种端到端的设计带来了显著的效率提升:模型吞吐量相比传统流水线提升了 3 倍,同时大幅降低了复杂场景下的理解偏差。
技术架构:视觉与语言的深度融合
Qianfan-OCR 的技术架构延续了此前 Qianfan-VL 的多模态桥接设计,核心包含三大组件:
视觉编码器 Qianfan-ViT:24 层 Transformer 架构,支持最高4K 分辨率输入。不同于传统 ViT 只关注局部特征,Qianfan-ViT 能够同时捕捉细粒度的文字笔画和宏观的版式结构,这种多尺度特征提取能力是处理复杂文档的关键。
语言模型 Qwen3-4B:作为解码器,负责将视觉特征转化为结构化文本。通过两层 MLP 适配器与视觉编码器连接,实现了视觉信息到语言空间的平滑映射。
提示词驱动的任务框架:模型不仅能做基础的文字识别,还能通过提示词驱动完成结构化文档解析、表格提取、图表理解、文档问答及关键信息抽取等多种任务。这种灵活性让 Qianfan-OCR 不只是一个 OCR 工具,更像是一个通用的文档理解引擎。
更值得关注的是训练过程。Qianfan-OCR 在1,024 块百度自研昆仑芯 P800 芯片上完成训练,处理了 2.85 万亿个 token。这不仅展示了国产算力的成熟度,也证明了大规模预训练对文档理解任务的重要性。
性能突破:在多个维度全面领先
在权威的综合性文档理解基准OmniDocBench v1.5上,Qianfan-OCR 交出了一份亮眼的成绩单。
该基准涵盖文本识别、公式解析、表格结构还原、阅读顺序等多个维度,重点考察模型在复杂文档场景下的综合能力。
核心成绩:
OmniDocBench v1.5:93.12 分,位居端到端模型榜首
OCRBench:远高于同参数规模的其他模型
关键信息提取(KIE):多个公开榜单总分超越 Google Gemini 3-Pro
图表理解:ChartQA、ChartBench 等 6 项评测中拿下 5 项最佳
更令人惊讶的是,这个仅有 40 亿参数的模型,在关键信息提取任务上超越了千亿级商用模型。
在图表理解这类复杂任务中,端到端架构的优势更加明显。这种结构理解与多模态推理能力,让它能够精准解析包含复杂表格、混合图表的文档,而不仅仅是“看清楚文字”。
全场景覆盖:从多语言到复杂版式
Qianfan-OCR 的另一大亮点是其广泛的场景适应性。
192 种语言支持:从常见的中英文到小语种,从拉丁字母到阿拉伯文、西里尔文,Qianfan-OCR 都能准确识别。这种多语言能力对于跨国企业和国际化应用场景至关重要。
复杂版式理解:无论是学术论文的双栏排版、财务报表的嵌套表格,还是技术文档中的代码块和公式混排,Qianfan-OCR 都能准确还原文档的逻辑结构。模型不是简单地从左到右、从上到下扫描,而是真正理解文档的版式语义。
图像到 Markdown 的直接转换:这是 Qianfan-OCR 最实用的能力之一。输入一张文档图片,模型可以直接输出格式规范的 Markdown 文本,标题、段落、表格、公式、列表等元素都能完整保留。对于需要数字化大量文档的场景,这种能力大大降低了后期人工校对的工作量。
应用场景:赋能千行百业
Qianfan-OCR 的技术突破为众多实际应用场景带来了新的可能性。
