You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

1.8 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

comments typora-copy-images-to
true images

表格识别数据集

这里整理了常用表格识别数据集,持续更新中,欢迎各位小伙伴贡献数据集~

数据集汇总

数据集名称 图片下载地址 PPOCR标注下载地址
PubTabNet https://github.com/ibm-aur-nlp/PubTabNet jsonl格式可直接用pubtab_dataset.py加载
好未来表格识别竞赛数据集 https://ai.100tal.com/dataset jsonl格式可直接用pubtab_dataset.py加载
WTW中文场景表格数据集 https://github.com/wangwen-whu/WTW-Dataset 需要进行转换后才能用pubtab_dataset.py加载

1. PubTabNet数据集

  • 数据简介PubTabNet数据集的训练集合中包含50万张图像验证集合中包含0.9万张图像。部分图像可视化如下所示。

2. 好未来表格识别竞赛数据集

  • 数据简介好未来表格识别竞赛数据集的训练集合中包含1.6万张图像。验证集未给出可训练的标注。

3. WTW中文场景表格数据集

  • 数据简介WTW中文场景表格数据集包含表格检测和表格数据两部分数据数据集中同时包含扫描和拍照两张场景的图像。

    img