四个Llama3中文微调版本的衍生：继续看文档图表理解大模型中的图表-数据对构造方案

今天是2024年4月21日，星期日，北京，天气晴

我们先来看看大模型进展早报，主要涉及到llama3发布之后，中文汉化版本迅速跟进的进展以及Qwen模型的发布。‍‍‍‍‍‍‍‍‍‍‍‍‍

接着，我们继续看看图表理解大模型的数据构成工作，涉及到基于matplotlib及pyecharts生成图表数据，最后看基于matplotlib及pyecharts生成图表数据，会有一些收获。

供大家一起参考并思考。

一、先看昨日大模型进展早报

我们来看看老刘说NLP20240420大模型进展早报，可看看。

1、关于大模型开源进展

Qwen1.5-110B-Chat的preview Demo发布

地址：https://modelscope.cn/studios/qwen/Qwen1.5-110B-Chat-demo/summary

2、关于大模型图表理解数据工程

文档图表理解中的数据工程值得关注，如何构造出这类数据，《也看跨模态大模型文档图表理解的数据工程：UniChar、MATCHA等代表模型的数据构造方案》做了介绍。

地址：https://mp.weixin.qq.com/s/8m5Tcz6-M_YP3AXSDxnyuA

3、关于llama3的中文微调版本进展

自从llama3发布之后，中文汉化版本迅速跟进，目前已出来多个。

UnicomAI/Unichat-llama3-Chinese： https://hf-mirror.com/UnicomLLM/Unichat-llama3-Chinese-8B；

CrazyBoyM/llama3-Chinese-chat：https://opencsg.com/models/shareAI/llama3-Chinese-chat-8b ；

BoyangZ/llama3-chinese： https://hf-mirror.com/BoyangZ/llama3-chinese；

jackdawboy/llama3-8b-Chinese-ft： https://hf-mirror.com/jackdawboy/llama3-8b-Chinese-ft

4、关于Agent规划进展

《The Landscape of Emerging AI Agent Architectures for Reasoning, Planning, and Tool Calling: A Survey》这个综述值得一看

地址：https://arxiv.org/abs/2404.11584

5、关于多模态大模型进展

《Reka Core, Flash, and Edge: A Series of Powerful Multimodal Language Models》这一工作介绍了Reka Core、Flash和Edge这一系列的多模态语言模型。

地址：https://arxiv.org/abs/2404.12387

二、继续看文档图表理解大模型的数据工程

1、OneChart中的数据工程

《OneChart: Purify the Chart Structural Extraction via One Auxiliary Token》这一工作也提到了图表图像的生成工作。

在图表数据生成方面，除了来自ChartQA等在线平台的图表数据外，大多数图表数据都是通过Matplotlib和Pyecharts等工具生成的。

具体地，使用这两种工具来生成图表图像，Matplotlib生成的图表都包含四个字段："图表"、"x轴"、"y轴"和"图表主体"。

由于Matplotlib和Pyecharts的功能有限，特别引入了"图表源"（“chart source”），以更好地适应现实世界的图表数据风格。

除了采用一般的渲染方法外，还增加了一种两阶段渲染方法，即先创建除标题和来源外的主体部分，然后通过图形拼接将标题和来源随机添加到图表中，具体地，通过图形拼接将标题和来源添加到图表中。

为了增强图表的视觉多样性，采用了随机生成的16位颜色代码来改变文本和图形的颜色，超越了常用的颜色方案，还提供了数百种不同的文本字体。

此外，还在视觉元素的大小、方向和数量上引入了可变性。在生成预训练数据时，图表内容是随机生成的。具体来说，对于标题和来源等文本信息，利用自然语言处理（NLP）语料库，通过设置预定长度随机提取条目，数字内容则是在受控分布下生成的，以确保可变性。

这一过程总共产生了约1,000万个图表图像，生成的数据主要分为两大类：柱状图和饼状图。其中，柱状线图分为五种不同类型：单柱图、多柱图、单线图、多线图和组合图（混合图）。每种类型都平均分为具有数字标签和不具有数字标签的可视化图表。

在饼图类别中，带标签的饼图和带图例的饼图所占比例相当。此外，在使用GPT-3.5生成具有逻辑和实际意义的内容的过程中，采用了多种提示，以方便创建主题多样的数据，这些数据横跨多个领域，如金融、教育、技术等。

地址：https://github.com/LingyvKong/OneChart/blob/main/OneChart_paper.pdf

2、ChartAssisstant的图表数据生成方案

《ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning》这一工作也提到了将图表解析为文本形式的底层数据表的数据构造方式，如下：

首先是数据采集。从ChartQA和PlotQA中收集了17141条和224386条图表文本数据，用于图表到表格的转换，但这些基准的图表样式差异不大，涉及的主题也有限。提出两种策略来解决这个问题。

一个是使用ChartQA和PlotQA中的表格的各种可视化工具重新绘制图表。

具体来说，利用Python中的5个API，包括gg-plot、plotly、matplotlib、seaborn和pyecharts，以及颜色、大小、字体类型、背景等参数的20多个变体，风格增强后，分别创建220050条图表文本数据，用于从PlotQA进行图表到表格的转换。

另一个是arXiv论文中的表格，为了收集更多真实的表格数据以增加主题多样性，因此从arXiv平台抓取了1301932篇涉及计算机科学、生物学、金融等各个主题的论文。对于每篇论文，从源LaTeX代码中提取表格，其中表格数据可以在表格环境中本地化。

使用ChatGPT将Latex表转换为Markdown表。 还按照ChatGPT的建议以特定的基本类型（例如饼图）制作图表，有趣的是，实验发现Chat-PT可以很好地生成目标格式的文本，并为图表类型提供适当的建议，总共从arXiv获得132719条数据。

地址：https://arxiv.org/pdf/2401.02384.pdf

三、最后看基于matplotlib及pyecharts生成图表数据

1、matplotlib

Matplotlib用于在Python中创建静态、动画和互动的可视化图片，下面是一个具体的例子

地址：https://github.com/matplotlib/matplotlib

2、pyecharts

pyecharts囊括了30+种常见图表，可以通过python快速生成数据，下面是一个具体的例子

地址：https://github.com/pyecharts/pyecharts

参考文献

1、https://github.com/LingyvKong/OneChart/blob/main/OneChart_paper.pdf

2、https://arxiv.org/pdf/2401.02384.pdf

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。