You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

19 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

comments hide
true
navigation
toc

更新

🔥🔥2025.06.05: PaddleOCR v3.0.1 版本发布,包含:

  • 优化部分模型和模型配置:
    • 更新 PP-OCRv5默认模型配置检测和识别均由mobile改为server模型。为了改善大多数的场景默认效果配置中的参数limit_side_len由736改为64
    • 新增文本行方向分类PP-LCNet_x1_0_textline_ori模型精度99.42%OCR、PP-StructureV3、PP-ChatOCRv4产线的默认文本行方向分类器改为该模型
    • 优化文本行方向分类PP-LCNet_x0_25_textline_ori模型精度提升3.3个百分点当前精度98.85%
  • 优化3.0.0版本部分存在的问题
    • 优化CLI使用体验 当使用PaddleOCR CLI不传入任何参数时给出用法提示。
    • 新增参数: PP-ChatOCRv3、PP-StructureV3支持use_textline_orientation参数。
    • CPU推理速度优化 所有产线CPU推理默认开启MKL-DNN。
    • C++推理支持: PP-OCRv5的检测和识别串联部分支持C++推理
  • 修复3.0.0版本部分存在的问题
    • 修复由于公式识别、表格识别模型无法使用MKL-DNN导致PP-StructureV3在部分cpu推理报错的问题
    • 修复在部分GPU环境中推理报FatalError: Process abort signal is detected by the operating system错误的问题
    • 修复部分Python3.8环境的type hint的问题
    • 修复PPStructureV3.concatenate_markdown_pages方法不存在的问题。
    • 修复实例化paddleocr.PaddleOCR时同时指定langmodel_namemodel_name不生效的问题。

🔥🔥2025.05.20: PaddleOCR 3.0 正式发布,包含:

  • 发布全场景文字识别模型PP-OCRv5 单模型支持五种文字类型和复杂手写体识别整体识别精度相比上一代提升13个百分点。

  • 发布通用文档解析方案PP-StructureV3 支持多场景、多版式 PDF 高精度解析,在公开评测集中领先众多开源和闭源方案。

  • 发布智能文档理解方案PP-ChatOCRv4 原生支持文心大模型4.5 Turbo精度相比上一代提升15个百分点。

  • 重构部署能力,统一推理接口: PaddleOCR 3.0 融合了飞桨 PaddleX3.0 工具的底层能力,全面升级推理、部署模块,优化 2.x 版本的设计,统一并优化了 Python API 和命令行接口CLI。部署能力现覆盖高性能推理、服务化部署及端侧部署三大场景。

  • 适配飞桨框架 3.0,优化训练流程: 新版本已兼容飞桨 3.0 的 CINN 编译器等最新特性,静态图模型存储文件名由 xxx.pdmodel 改为 xxx.json

  • 统一模型名称: 对PaddleOCR3.0支持的模型命名体系进行了更新,采用更规范、统一的命名规则,为后续迭代与维护奠定基础。

  • 2.x升级3.x其他说明

🔥🔥2025.3.7 PaddleOCR 2.10 版本,主要包含如下内容

  • 重磅新增 OCR 领域 12 个自研单模型:

    • 版面区域检测 系列 3 个模型PP-DocLayout-L、PP-DocLayout-M、PP-DocLayout-S支持预测 23 个常见版面类别,中英论文、研报、试卷、书籍、杂志、合同、报纸等丰富类型的文档实现高质量版面检测,mAP@0.5 最高达 90.4%,轻量模型端到端每秒处理超百页文档图像。
    • 公式识别 系列 2 个模型PP-FormulaNet-L、PP-FormulaNet-S支持 5 万种 LaTeX 常见词汇,支持识别高难度印刷公式和手写公式,其中 PP-FormulaNet-L 较开源同等量级模型精度高 6 个百分点PP-FormulaNet-S 较同等精度模型速度快 16 倍。
    • 表格结构识别 系列 2 个模型SLANeXt_wired、SLANeXt_wireless。飞桨自研新一代表格结构识别模型分别支持有线表格和无线表格的结构预测。相比于SLANet_plusSLANeXt在表格结构方面有较大提升在内部高难度表格识别评测集上精度高 6 个百分点。
    • 表格分类 系列 1 个模型PP-LCNet_x1_0_table_cls超轻量级有线表格和无线表格的分类模型。
    • 表格单元格检测 系列 2 个模型RT-DETR-L_wired_table_cell_det、RT-DETR-L_wireless_table_cell_det分别支持有线表格和无线表格的单元格检测可配合SLANeXt_wired、SLANeXt_wireless、文本检测、文本识别模块完成对表格的端到端预测。参见本次新增的表格识别v2产线
    • 文本识别 系列 1 个模型: PP-OCRv4_server_rec_doc支持1.5万+字典,文字识别范围更广,与此同时提升了部分文字的识别精准度,在内部数据集上,精度较 PP-OCRv4_server_rec 高 3 个百分点以上。
    • 文本行方向分类 系列 1 个模型PP-LCNet_x0_25_textline_ori存储只有 0.3M 的超轻量级文本行方向分类模型。
  • 重磅推出 4 条高价值多模型组合方案:

    • 文档图像预处理产线:通过超轻量级模型组合使用,实现对文档图像的扭曲和方向的矫正。
    • 版面解析v2产线:组合多个自研的不同类型的 OCR 类模型,优化复杂版面阅读顺序,实现多种复杂 PDF 文件端到端转换 Markdown 文件和 JSON 文件。在多个文档场景下,转换效果较其他开源方案更好。可以为大模型训练和应用提供高质量的数据生产能力。
    • 表格识别v2产线提供更好的表格端到端识别能力。 通过将表格分类模块、表格单元格检测模块、表格结构识别模块、文本检测模块、文本识别模块等组合使用,实现对多种样式的表格预测,用户可自定义微调其中任意模块以提升垂类表格的效果。
    • PP-ChatOCRv4-doc产线:在 PP-ChatOCRv3-doc 的基础上,融合了多模态大模型,优化了 Prompt 和多模型组合后处理逻辑,更好地解决了版面分析、生僻字、多页 pdf、表格、印章识别等常见的复杂文档信息抽取难点问题准确率较 PP-ChatOCRv3-doc 高 15 个百分点。其中,大模型升级了本地部署的能力,提供了标准的 OpenAI 调用接口,支持对本地大模型如 DeepSeek-R1 部署的调用。

🔥2024.10.1 添加OCR领域低代码全流程开发能力

  • 飞桨低代码开发工具PaddleX依托于PaddleOCR的先进技术支持了OCR领域的低代码全流程开发能力

    • 🎨 模型丰富一键调用将文本图像智能分析、通用OCR、通用版面解析、通用表格识别、公式识别、印章文本识别涉及的17个模型整合为6条模型产线通过极简的Python API一键调用快速体验模型效果。此外同一套API也支持图像分类、目标检测、图像分割、时序预测等共计200+模型形成20+单功能模块,方便开发者进行模型组合使用。
    • 🚀提高效率降低门槛:提供基于统一命令图形界面两种方式,实现模型简洁高效的使用、组合与定制。支持高性能推理、服务化部署和端侧部署等多种部署方式。此外,对于各种主流硬件如英伟达GPU、昆仑芯、昇腾、寒武纪和海光等,进行模型开发时,都可以无缝切换
  • 支持文档场景信息抽取v3PP-ChatOCRv3-doc、基于RT-DETR的高精度版面区域检测模型和PicoDet的高效率版面区域检测模型、高精度表格结构识别模型SLANet_Plus、文本图像矫正模型UVDoc、公式识别模型LatexOCR、基于PP-LCNet的文档图像方向分类模型

🔥 2024.7 添加 PaddleOCR 算法模型挑战赛冠军方案

🔥2024.5.10 上线星河零代码产线(OCR 相关)

全面覆盖了以下四大 OCR 核心任务,提供极便捷的 Badcase 分析和实用的在线体验

🔥2023.8.7 发布 PaddleOCR release/2.7

  • 发布PP-OCRv4,提供 mobile 和 server 两种模型
    • PP-OCRv4-mobile速度可比情况下中文场景效果相比于 PP-OCRv3 再提升 4.5%,英文场景提升 10%80 语种多语言模型平均识别准确率提升 8%以上
    • PP-OCRv4-server发布了目前精度最高的 OCR 模型,中英文场景上检测模型精度提升 4.9% 识别模型精度提升 2% 可参考快速开始 一行命令快速使用,同时也可在飞桨 AI 套件(PaddleX)中的通用 OCR 产业方案中低代码完成模型训练、推理、高性能部署全流程

🔨2022.11 新增实现4 种前沿算法:文本检测 DRRG, 文本识别 RFL, 文本超分Text Telescope,公式识别CAN

2022.10 优化JS 版 PP-OCRv3 模型:模型大小仅 4.3M,预测速度提升 8 倍,配套 web demo 开箱即用

  • 💥 直播回放PaddleOCR 研发团队详解 PP-StructureV2 优化策略。微信扫描下方二维码,关注公众号并填写问卷后进入官方交流群,获取直播回放链接与 20G 重磅 OCR 学习大礼包(内含 PDF 转 Word 应用程序、10 种垂类模型、《动手学 OCR》电子书等

🔥2022.8.24 发布 PaddleOCR release/2.6

  • 发布PP-StructureV2,系统功能性能全面升级,适配中文场景,新增支持版面复原,支持一行命令完成 PDF 转 Word
  • 版面分析模型优化:模型存储减少 95%,速度提升 11 倍,平均 CPU 耗时仅需 41ms
  • 表格识别模型优化:设计 3 大优化策略,预测耗时不变情况下,模型精度提升 6%
  • 关键信息抽取模型优化:设计视觉无关模型结构,语义实体识别精度提升 2.8%,关系抽取精度提升 9.1%。

2022.8 发布 OCR 场景应用集合:包含数码管、液晶屏、车牌、高精度 SVTR 模型、手写体识别等9 个垂类模型,覆盖通用,制造、金融、交通行业的主要 OCR 垂类应用

2022.5.9 发布PaddleOCR v2.5。发布内容包括

  • PP-OCRv3速度可比情况下中文场景效果相比于PP-OCRv2再提升5%英文场景提升11%80语种多语言模型平均识别准确率提升5%以上;
  • 半自动标注工具PPOCRLabelv2:新增表格文字图像、图像关键信息抽取任务和不规则文字图像的标注功能;
  • OCR产业落地工具集打通22种训练部署软硬件环境与方式覆盖企业90%的训练部署环境需求
  • 交互式OCR开源电子书《动手学OCR》覆盖OCR全栈技术的前沿理论与代码实践并配套教学视频。

2022.5.7 添加对Weights & Biases训练日志记录工具的支持

2021.12.21 《OCR十讲》课程开讲12月21日起每晚八点半线上授课 【免费】报名地址:https://aistudio.baidu.com/aistudio/course/introduce/25207

2021.12.21 发布PaddleOCR v2.4。OCR算法新增1种文本检测算法PSENet3种文本识别算法NRTR、SEED、SAR文档结构化算法新增1种关键信息提取算法SDMGR3种DocVQA算法LayoutLM、LayoutLMv2LayoutXLM

2021.9.7 发布PaddleOCR v2.3,发布PP-OCRv2CPU推理速度相比于PP-OCR server提升220%效果相比于PP-OCR mobile 提升7%

2021.8.3 发布PaddleOCR v2.2,新增文档结构分析PP-Structure工具包支持版面分析与表格识别含Excel导出

2021.6.29 FAQ新增5个高频问题总数248个每周一都会更新欢迎大家持续关注

2021.4.8 release 2.1版本新增AAAI 2021论文端到端识别算法PGNet开源,多语言模型支持种类增加到80+

2020.12.15 更新数据合成工具Style-Text,可以批量合成大量与目标场景类似的图像,在多个场景验证,效果明显提升

2020.12.07 FAQ新增5个高频问题总数124个并且计划以后每周一都会更新欢迎大家持续关注

2020.11.25 更新半自动标注工具PPOCRLabel辅助开发者高效完成标注任务输出格式与PP-OCR训练任务完美衔接

2020.9.22 更新PP-OCR技术文章https://arxiv.org/abs/2009.09941

2020.9.19 更新超轻量压缩ppocr_mobile_slim系列模型整体模型3.5M(详见PP-OCR Pipeline),适合在移动端部署使用

2020.9.17 更新超轻量ppocr_mobile系列和通用ppocr_server系列中英文ocr模型媲美商业效果

2020.9.17 更新英文识别模型多语种识别模型,已支持德语、法语、日语、韩语,更多语种识别模型将持续更新

2020.8.26 更新OCR相关的84个常见问题及解答具体参考FAQ

2020.8.24 支持通过whl包安装使用PaddleOCR具体参考Paddleocr Package使用说明

2020.8.21 更新8月18日B站直播课回放和PPT课节2易学易用的OCR工具大礼包获取地址

2020.8.16 开源文本检测算法SAST和文本识别算法SRN

2020.7.23 发布7月21日B站直播课回放和PPT课节1PaddleOCR开源大礼包全面解读获取地址

2020.7.15 添加基于EasyEdge和Paddle-Lite的移动端DEMO支持iOS和Android系统

2020.7.15 完善预测部署添加基于C++预测引擎推理、服务化部署和端侧部署方案以及超轻量级中文OCR模型预测耗时Benchmark

2020.7.15 整理OCR相关数据集、常用数据标注以及合成工具

2020.7.9 添加支持空格的识别模型,识别效果,预测及训练方式请参考快速开始和文本识别训练相关文档

2020.7.9 添加数据增强、学习率衰减策略,具体参考配置文件

2020.6.8 添加数据集,并保持持续更新

2020.6.5 支持 attetnion 模型导出 inference_model

2020.6.5 支持单独预测识别时,输出结果得分

2020.5.30 提供超轻量级中文OCR在线体验

2020.5.30 模型预测、训练支持Windows系统

2020.5.30 开源通用中文OCR模型

2020.5.14 发布PaddleOCR公开课

2020.5.14 发布PaddleOCR实战练习

2020.5.14 开源8.6M超轻量级中文OCR模型