14 KiB

Raw Permalink Blame History Unescape Escape

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

一、PP-StructureV3 简介

PP-StructureV3 产线在通用版面解析v1产线的基础上，强化了版面区域检测、表格识别、公式识别的能力，增加了图表理解和多栏阅读顺序的恢复能力、结果转换 Markdown 文件的能力，在多种文档数据中，表现优异，可以处理较复杂的文档数据。本产线同时提供了灵活的服务化部署方式，支持在多种硬件上使用多种编程语言调用。不仅如此，本产线也提供了二次开发的能力，您可以基于本产线在您自己的数据集上训练调优，训练后的模型也可以无缝集成。

二、关键指标

Method Type	Methods	Overall^Edit↓		Text^Edit↓		Formula^Edit↓		Table^Edit↓		Read Order^Edit↓
Method Type	Methods	EN	ZH	EN	ZH	EN	ZH	EN	ZH	EN	ZH
Pipeline Tools	PP-structureV3	0.147	0.212	0.059	0.09	0.295	0.535	0.159	0.109	0.075	0.114
	MinerU-0.9.3	0.15	0.357	0.061	0.215	0.278	0.577	0.18	0.344	0.079	0.292
	MinerU-1.3.11	0.166	0.310	0.0826	0.2000	0.3368	0.6236	0.1613	0.1833	0.0834	0.2316
	Marker-1.2.3	0.336	0.556	0.08	0.315	0.53	0.883	0.619	0.685	0.114	0.34
	Mathpix	0.191	0.365	0.105	0.384	0.306	0.454	0.243	0.32	0.108	0.304
	Docling-2.14.0	0.589	0.909	0.416	0.987	0.999	1	0.627	0.81	0.313	0.837
	Pix2Text-1.1.2.3	0.32	0.528	0.138	0.356	0.276	0.611	0.584	0.645	0.281	0.499
	Unstructured-0.17.2	0.586	0.716	0.198	0.481	0.999	1	1	0.998	0.145	0.387
	OpenParse-0.7.0	0.646	0.814	0.681	0.974	0.996	1	0.284	0.639	0.595	0.641
Expert VLMs	GOT-OCR	0.287	0.411	0.189	0.315	0.36	0.528	0.459	0.52	0.141	0.28
	Nougat	0.452	0.973	0.365	0.998	0.488	0.941	0.572	1	0.382	0.954
	Mistral OCR	0.268	0.439	0.072	0.325	0.318	0.495	0.6	0.65	0.083	0.284
	OLMOCR-sglang	0.326	0.469	0.097	0.293	0.455	0.655	0.608	0.652	0.145	0.277
	SmolDocling-256M_transformer	0.493	0.816	0.262	0.838	0.753	0.997	0.729	0.907	0.227	0.522
General VLMs	Gemini2.0-flash	0.191	0.264	0.091	0.139	0.389	0.584	0.193	0.206	0.092	0.128
	Gemini2.5-Pro	0.148	0.212	0.055	0.168	0.356	0.439	0.13	0.119	0.049	0.121
	GPT4o	0.233	0.399	0.144	0.409	0.425	0.606	0.234	0.329	0.128	0.251
	Qwen2-VL-72B	0.252	0.327	0.096	0.218	0.404	0.487	0.387	0.408	0.119	0.193
	Qwen2.5-VL-72B	0.214	0.261	0.092	0.18	0.315	0.434	0.341	0.262	0.106	0.168
	InternVL2-76B	0.44	0.443	0.353	0.29	0.543	0.701	0.547	0.555	0.317	0.228

以上部分数据出自：

三、端到端推理benchmark

3.1 测试条件

Paddle 3.0正式版
PaddleOCR 3.0.0正式版
MinerU 1.3.10
CUDA 11.8
cuDNN 8.9

3.2 测试数据

本地推理

测试硬件：NVIDIA Tesla V100 + Intel Xeon Gold 6271C

	产线配置	平均每页耗时（s）	平均CPU利用率（%）	峰值RAM用量（MB）	平均RAM用量（MB）	平均GPU利用率（%）	峰值VRAM用量（MB）	平均VRAM用量（MB）
PP-StructureV3	基础配置	1.77	111.4	6822.4	5278.2	38.9	17403	16909.3
	使用图表识别	4.09	105.3	5628	4085.1	24.7	17403	17030.9
	使用 PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec 轻量模型	1.56	113.7	6712.9	5052	29.1	10929	10840.7
	使用 PP-FormulaNet-M 轻量公式识别模型	1.42	112.9	6944.1	5193.6	38	16390	15840
	使用 PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec + PP-FormulaNet-M	1.15	114.8	6666.5	5105.4	26.1	8606	8517.2
	使用 PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec + PP-FormulaNet-M,文本检测模型输入最大尺寸设置为 1200	0.99	113	7172.9	5686.4	29.2	8776	8680.8
MinerU	-	1.57	142.9	13655.8	12083	43.3	32406	9915.4

测试硬件：NVIDIA A100 + Intel Xeon Platinum 8350C

	Pipeline Configurations	Average time per page (s)	Average CPU (%)	Peak RAM Usage (MB)	Average RAM Usage (MB)	Average GPU (%)	Peak VRAM Usage (MB)	Average VRAM Usage (MB)
PP-StructureV3	Basic	1.12	109.8	9418.3	7977.9	29.8	22294	21638.4
	Use chart recognition pipeline	2.76	103.7	9253.6	7840.6	24	22298	21555.3
	Use PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec	1.04	110.7	9520.8	8034.3	22	12490	12383.1
	Use PP-FormulaNet_plus-M	0.95	111.4	9272.9	7939.9	28.1	22350	21498.4
	Use PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec + PP-FormulaNet_plus-M	0.89	112.1	9457.2	8031.5	18.5	11642	11433.6
	Use PP-OCRv5_mobile_det + PP-OCRv5_mobile_rec + PP-FormulaNet_plus-M, and max length of text detection set to 1200	0.64	113.5	10401.1	8688.8	23.7	11716	11453.9
MinerU	-	1.06	168.3	18690.4	17213.8	27.5	78760	15119

服务化部署

输入数据：1500张图像，包含表格、公式、印章、图表等元素。使用基础配置。

实例数	并发请求数	吞吐	平均时延（s）	成功请求数/总请求数
4卡*1	4	1.69	2.36	1
4卡*4	16	4.05	3.87	1

四、PP-StructureV3 Demo示例

更多示例

五、使用方法和常见问题

默认模型是什么配置，如果需要更高精度、更快速度、或者更小显存，应该调哪些参数或者更换哪些模型，对结果影响大概有多大？

在“使用轻量OCR模型+轻量公式模型，文本检测max 1200”的基础上，将产线配置文件中的use_chart_recognition设置为False，不加载图表识别模型，可以进一步减少显存用量。在V100测试环境中，峰值和平均显存用量分别从8776.0 MB和8680.8 MB降低到6118.0 MB和6016.7 MB；在A100测试环境中，峰值和平均显存用量分别从11716.0 MB和11453.9 MB降低到9850.0 MB和9593.5 MB。在Python API或CLI设置device为<设备类型>:<设备编号1>,<设备编号2>...（例如gpu:0,1,2,3）可实现多卡并行推理。如果内置的多卡并行推理功能提速效果仍不满足预期，可参考多进程并行推理示例代码，结合具体场景进行进一步优化：多进程并行推理。

服务化部署的常见问题

（1）服务可以并发处理请求吗？

对于基础服务化部署方案，服务同一时间只处理一个请求，该方案主要用于快速验证、打通开发链路，或者用在不需要并发请求的场景；

对于高稳定性服务化部署方案，服务默认在同一时间只处理一个请求，但用户可以参考服务化部署指南，通过调整配置实现水平扩展，以使服务同时处理多个请求。

（2）如何降低时延、提升吞吐？

无论使用哪一种服务化部署方案，都可以通过启用高性能推理插件提升模型推理速度，从而降低处理时延。

此外，对于高稳定性服务化部署方案，通过调整服务配置，设置多个实例，也可以充分利用部署机器的资源，有效提升吞吐。

14 KiB Raw Permalink Blame History Unescape Escape