RAG中文档表格解析的2个问题:如何自动化地生成表格标注数据及如何进行表示更合适?

今天是20224年5月11日,星期六,北京,天气晴。

本文继续来看RAG。

来谈谈文档相关的2个问题,一个是如何自动化地生成文档表格解析标注数据?一个是表格形式用什么,对于大模型会更适用?都是实际文档解析常见的问题。

供大家一起参考。

问题1:如何自动化地生成文档表格解析标注数据?

无论是端到端的表格解析,还是传统方案的表格解析,都依赖标注数据,但并不好造,人工标注太慢。

因此,我们总会想到一些开源的方案。

首先,从Publaynet版面分析数据集的自动生成、基于编辑转换方式的TableBank表格检测数据集自动生成,当然,这些数据都已经开源,可以直接使用。

我们这里来看一个基于随机组合方式得到TableGeneration表格识别训练数据自动生成方案。 TableGeneration是当前自动生成多样性表格识别训练数据的一个开源项目,其思想在于通过浏览器渲染生成表格图像,代码修改自论文《Rethinking Table Parsing using Graph Neural Networks》源代码。

对应的方案可以看:https://github.com/hassan-mahmood/TIES_DataGeneration https://github.com/WenmuZhou/TableGeneration

修改后支持更多参数可配置,如单元格类型,表格行列,合并单元格数量,并支持彩色单元格。以满足简单表格场景、彩色表格场景、清单长表格场景以及宽表换行表格场景等不同的需求。

首先,对于规范表格场景下的表格类型细分方面,分成border:全部边框、border_top:上横线框、border_bottom:下横线框、head_border_bottom:下横线框、no_border:无边框、border_right:右竖线框以及border_left:左竖线框共7小类的表格类型。

其次,基于随机组合方式的表格生成流程包括以下几步:

1)随机生成表格行列->2)随机生成表格合并单元格数量和合并的起始结束位置->3)对于每一个单元格随机生成文本并组合成html字符串->4)使用浏览器对html字符串进行渲染生成表格图片->5)浏览器截图获取表格图片->6)裁剪图片,只保留表格区域->7)保存PP-Structure标注格式

问题2:表格形式用什么,对于大模型会更适用?

在文档解析过程中,表格解析是个重要的内容,而将解析后的表格进行表示,可以使用markdown,latex,json等格式,但具体什么形式,大模型会更实用呢?

当然,我们需要拿到量化结论【当然,特定任务做测试是一种思路,结论仅供参考】。

读到一个工作《GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study》(https://arxiv.org/pdf/2305.13062),为了全面衡量GPT用于表格数据理解任务上的效果,该工作提出了一个全新的benchmark,并在此基础上验证了ChatGPT在各个子任务上的效果。

在具体任务设定上,分成2类:一个是区分出表格数据【从文本中定位出哪些内容表示的是表格数据】,解析表格数据【从各种类型,包括XML、CSV、XLSX等,中解析出表格数据的能力】,一个是搜索【根据值进行位置搜索/根据位置定位到单元格值)和检索(根据行列信息找到对应的值】,并在TabFact、HybridQA、SQA、Feverous、ToTTo上做了测试。

而在格式的测试上,比较了带有特定分隔符的自然语言(NL+Sep)和HTML、XML和JSON等标记语言的使用情况。

结果表明,即使“NL+Sep”也常用于制表下游任务,但如表中结果所示,使用标记语言,特别是HTML,比“NL+Sep”提高了6.76%。

而对于一些细分任务,各种格式下的精度如下所示:

总结

本文主要围绕表格数据的两个问题进行了总结,一个是如何自动化地生成文档表格解析标注数据?一个是表格形式用什么,对于大模型会更适用?都是实际文档解析常见的问题,里面提到的方案和论文,感兴趣的都可以看看。

参考文献

1、https://github.com/hassan-mahmood/TIES_DataGeneration https://github.com/WenmuZhou/TableGeneration

2、https://arxiv.org/pdf/2305.13062

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。


相关推荐

  • 这是璩静的简历,4条短视频丢了百度千万年薪的工作
  • 【机器学习】1.6w字超全汇总!56个sklearn核心操作!!!
  • 高校教师,终于要涨薪了!
  • 同事使用 insert into select 迁移数据,上线后被公司开除!
  • 苹果CEO接班人最新曝料!黑马出现,比库克年轻15岁,加入苹果23年
  • 生成式AI,苹果倾巢出动
  • OpenAI大招要来了!AI语音助手狙击谷歌苹果,官宣下周二上新,GPT-5年前见
  • 为什么我们公司还在用 Python 开发项目?
  • 斯坦福李飞飞创业了!学术休假两年
  • AIGC 大杀器:云阙智能彻底火了!
  • 谷歌CEO采访再谈AI未来,遭女记者犀利“拷问”:为何错失GPT风口,被微软反超?AI是否冲击了谷歌商业模式?
  • 实测ChatGPT的Go能力!资深老鸟干货分享:使用ChatGPT学习Go语言容易得多
  • 网格搜索或随机搜索
  • 恭喜了!年薪100万的新方向,全体程序员彻底狂欢吧!
  • Expedia 开源针对 Kubernetes 工作负载的容器启动自动扩缩器(CSA)
  • 拥抱数据驱动:Java 企业测试实践新趋势
  • 75亿元!今年自动驾驶领域最大融资来了:90后剑桥博士带队,微软、英伟达为其站台,这家英国 AI 独角兽被首相视为“全村的希望”
  • 美国拟限制“开源 AI 大模型出口”;百度副总裁“狼性职场言论”惹争议,李彦宏情绪激动点评;谷歌一半员工没干活?| Q资讯
  • 为什么 Spring 和 IDEA 都不推荐使用 @Autowired 注解??
  • Zed,有望打败 VS Code 吗?