今天是2024年6月16日,星期日,北京,天气晴。
昨天,各位老刘说NLP社区顺利完成第二十一讲,围绕六月份半月度技术及文档处理方向的产研思路。
我们今天继续来看看文档智能领域的表格结构识别问题,通过一个工作整理进行论述。
另一个是多模态表格理解MMTab的设计以及数据构造方式【数据增强】,还推出了一个表格理解模型,其思路也很有趣,可以看看。
供大家一起参考并思考。
在完成版式分析之后,如果识别文档元素是表格,那么则需要对表格进行处理。而表格结构识别又是其中的一个重点。
一般而言,表格处理分成三个部分:
TD任务,Table Detection,表格识别
TSR任务,Table Structure Recognition,表格结构识别
TCD任务,Table Content Recognition,表格内容识别
因此,我们有必要熟悉下表格结构识别的工作,可以参考:https://github.com/MathamPollard/awesome-table-structure-recognition。
其中,可以重点看看其中的两个综述:
《A Study on Reproducibility and Replicability of Table Structure Recognition Methods》,https://arxiv.org/pdf/2304.10439
《Deep Learning for Table Detection and Structure Recognition: A Survey》,https://dl.acm.org/doi/abs/10.1145/3657281
其中几个点可以看看。
一个是目前提供表格结构识别数据集的工作,主要有:
1、ICDAR2013,https://paperswithcode.com/dataset/icdar-2013,数据量156
2、SciTSR,https://github.com/Academic-Hammer/SciTSR,数据量15K;
3、TableBank,https://doc-analysis.github.io/tablebank-page/,数据量145K
4、PubTabNet,https://github.com/ibm-aur-nlp/PubTabNet,数据量1M+;
5、PubTables-1M,https://github.com/microsoft/table-transformer?tab=readme-ov-file,数据量1M+;
6、FinbTabNet,https://developer.ibm.com/exchanges/data/all/fintabnet/,数据量91596
7、WTW,https://github.com/wangwen-whu/WTW-Dataset,数据量14581;
8、SynthTabNet,https://github.com/IBM/SynthTabNet,数据量600K;
9、TabRecSet,https://github.com/MaxKinny/TabRecSet,数据量38177;
10、iFLYTAB,https://github.com/ZZR8066/SEMv2?tab=readme-ov-file,数据量12104
一个是当前近几年的一些代表性的模型工作,主要有:
1、《Improving Table Structure Recognition with Visual-Alignment Sequential Coordinate Modeling》,https://openaccess.thecvf.com/content/CVPR2023/papers/Huang_Improving_Table_Structure_Recognition_With_Visual-Alignment_Sequential_Coordinate_Modeling_CVPR_2023_paper.pdf
2、《LORE: Logical Location Regression Network for Table Structure Recognition》,https://ojs.aaai.org/index.php/AAAI/article/view/25402/25174
2、《Robust Table Detection and Structure Recognition from Heterogeneous Document Images》:https://www.sciencedirect.com/science/article/abs/pii/S0031320322004861
3、《Scene table structure recognition with segmentation collaboration and alignment》,https://www.sciencedirect.com/science/article/abs/pii/S0167865522003828?via%3Dihub
4、《TableVLM: Multi-modal Pre-training for Table Structure Recognition》,https://aclanthology.org/2023.acl-long.137/
5、《TableFormer: Table Structure Understanding with Transformers》:https://openaccess.thecvf.com/content/CVPR2022/papers/Nassar_TableFormer_Table_Structure_Understanding_With_Transformers_CVPR_2022_paper.pdf
6、《Split, Embed and Merge: An accurate table structure recognizer》:https://www.sciencedirect.com/science/article/abs/pii/S0031320322000462
7、《TSRFormer: Table Structure Recognition with Transformers》:https://dl.acm.org/doi/abs/10.1145/3503161.3548038
8、《UniTable: Towards a Unified Framework for Table Structure Recognition via Self-Supervised Pretraining》:https://arxiv.org/abs/2403.04822)
9、《Multi-Type-TD-TSR -- Extracting Tables from Document Images using a Multi-stage Pipeline for Table Detection and Table Structure Recognition: from OCR to Structured Table Representation》:https://link.springer.com/chapter/10.1007/978-3-030-87626-5_8, https://github.com/Psarpei/Multi-Type-TD-TSR
当然,当前,多模态表格理解也可看看一个工作,多模态表格理解:《Multimodal Table Understanding》,https://arxiv.org/pdf/2406.08100,代码放在:https://github.com/SpursGoZmy/Table-LLaVA,其提出的背景在于,以往的表格理解方法取得了巨大进展,包括基于大型语言模型(LLMs)的最近方法,但这些方法通常需要将给定的表格转换成某种文本序列(如Markdown或HTML)作为模型输入。
然而,在现实世界的一些场景中,获取高质量的文本表格表示可能比较困难,而表格图像则更容易获取。因此,如何直接使用直观的视觉信息来理解表格是一个关键且迫切的挑战。
因此,这个工作提出了多模态表格理解问题,并构建了一个名为MMTab的大规模数据集,涵盖了广泛的表格图像、指令和任任务,如下所示:
我们可以看其中几个点:
1、其数据构造的方式:
其中比较有趣的是做的数据增强方案:
其一,表格级别增强(Table-level augmentations):现实世界的表格具有不同的结构和样式。为了使模型能够处理各种样式的表格,设计了脚本来渲染具有三种不同样式的表格图像:网页风格(Web-page,占比70.8%)、Excel风格(占比19.4%)和Markdown风格(占比9.8%)。还考虑细粒度的调整,如字体类型和单元格颜色。
其二,指令级别增强(Instruction-level augmentations):用户对于同一任务的指令可能会有所不同。为了提高模型对这种变化的鲁棒性,作者使用GPT-4生成新的指令模板和关于JSON输出格式的描述,基于几个手动注释的示例进行少量样本(few-shot)学习。生成的指令模板如果包含语法错误或与原始任务偏离,将被过滤掉。
其三,任务级别增强(Task-level augmentations):尽管收集的14个公共数据集突出了9个学术表格任务,这些任务需要基于表格的推理能力,但现有的多模态大型语言模型(MLLMs)是否真的理解基本的表格结构仍然是一个问题。 为了进一步加强MLLMs对基本表格结构的理解能力,设计了6个表格结构理解任务,例如表格大小检测(TSD)任务。
除了上述策略,作者还将同一表格的单轮样本结合起来,构成了37K多轮对话样本。
2、其数据的具体统计,包括用于微调的数据集以及测试
MMTab数据集包括150K样本用于预训练,232K样本用于指令微调,以及45K和4K样本分别用于内部和外部评估。
数据集中包含了105K张表格图像,这些图像覆盖了广泛结构(例如,具有平坦结构的简单表格以及具有合并单元格和分层标题的复杂表格)。数据集中的表格图像不仅结构多样,还具有不同的风格(网页、Excel、Markdown表格)和来自不同领域的数据(如维基百科和财务报告)
3、其benchmark的计算方式
4、其进行对应的微调路线
其开发了一个通用的表格MLLM Table-LLaVA,使用MMTab-instruct数据集,该数据集包含了多种与表格相关的任务,例如问题回答(TQA)、事实验证(TFV)、文本生成(T2T)等,模型基于之前提出的LLaVA-1.5模型
当然对于具体的性能指标,可以看原论文,这里就不展开介绍了。今天我们主要看了两个问题,一个是文档智能领域中的表格结构识别问题;另一个是多模态表格理解MMTab的设计以及数据构造方式。
表格理解是文档智能的重头戏,大家可以多关注。
1、https://github.com/MathamPollard/awesome-table-structure-recognition
2、https://arxiv.org/pdf/2406.08100
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。