You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

2.6 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

comments
true

版面分析数据集

这里整理了常用版面分析数据集,持续更新中,欢迎各位小伙伴贡献数据集~

版面分析数据集多为目标检测数据集,除了开源数据,用户还可使用合成工具自行合成,如labelme等。

1、publaynet数据集

  • 数据来源https://github.com/ibm-aur-nlp/PubLayNet
  • 数据简介publaynet数据集的训练集合中包含35万张图像验证集合中包含1.1万张图像。总共包含5个类别分别是 text, title, list, table, figure。部分图像以及标注框可视化如下所示。

2、CDLA数据集

  • 数据来源https://github.com/buptlihang/CDLA
  • 数据简介CDLA据集的训练集合中包含5000张图像验证集合中包含1000张图像。总共包含10个类别分别是 Text, Title, Figure, Figure caption, Table, Table caption, Header, Footer, Reference, Equation。部分图像以及标注框可视化如下所示。

3、TableBank数据集

  • 数据来源https://doc-analysis.github.io/tablebank-page/index.html
  • 数据简介TableBank数据集包含Latex训练集187199张验证集7265张测试集5719张与Word训练集73383张验证集2735张测试集2281张两种类别的文档。仅包含Table 1个类别。部分图像以及标注框可视化如下所示。