百度 | BAGUA AI

核心摘要百度推出 Unlimited OCR，这是一种创新的单次长程（Long-Horizon）文档解析方法，通过引入流式处理机制，实现了在单次前向传播中处理任意长度的文档，彻底解决了传统 OCR 在处理超长 PDF 时面临的显存限制与跨页上下文断裂问题。 ▶ 流式架构突破显存壁垒：不同于传统的按页或固定窗口切分，Unlimited OCR 采用流式机制，使模型能够以恒定的内存开销处理无限长度的文档序列。 ▶ 全局上下文连贯性：通过单次前向传播保持了文档语义的完整性，有效避免了分块处理导致的表格断裂、段落截断等 RAG 系统常见的“数据噪音”。 ▶ 端到端效率飞跃：实验证明该方法在保持高精度的同时，显著提升了长文档的解析吞吐量，为构建高质量大规模语料库提供了工业级工具。八卦洞察在生成式 AI 领域，业界往往过度关注大模型的上下文窗口（Context Window），却忽略了“输入端”的质量瓶颈。传统的 OCR 技术本质上是将文档视为图像序列，这种“碎片化”的处理方式是导致 RAG（检索增强生成）系统产生幻觉的元凶之一。百度此次开源的 Unlimited OCR 将文档解析从“视觉识别任务”转向了“序列建模任务”。其核心价值不在于识别文字，而在于重塑了长文档的结构化逻辑。对于金融审计、法律合规等极度依赖长程逻辑的行业，这种“一气呵成”的解析能力是实现真正自动化办公的基石。行动建议对于正在构建企业级 RAG 应用的技术团队，建议立即评估 Unlimited OCR 在处理复杂长文档（如财报、技术手册）时的表现，以替代现有的分块 OCR 方案。开发者应重点关注其流式推理接口，探索如何将其集成到现有的向量数据库预处理流水线中，从而提升索引阶段的数据质量。

百度

百度发布 One-shot Long-horizon Parsing：长文本解析的“一次性”革命

无限长文档解析：百度 Unlimited OCR 突破长程文档理解瓶颈

BAGUA AI