值得练手的多任务RAG问答竞赛KDD-CRAG：兼看文档图像恢复任务及KG检索策略优劣对比

今天是2024年5月9日，星期四，北京，天气晴。

今天我们来看两个问题，一个是文档理解的前置处理操作文档图像恢复任务，另一个是有哪些RAG竞赛可以练练手。

这些都是实际的一些问题，竞赛也是实际业务场景的任务抽象，终归会有实操意义。

问题1：文档理解的前置处理操作文档图像恢复任务

关注文档智能进展，如下图所示，智能文档处理涉及到文档图像分析与处理、文档解析与识别、版面分析与还原、文档信息抽取与理解、AI安全、知识化&存储检索和管理等多个阶段。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

当前很多场景都是拍照以及扫描场景，这些场景中产出的文档都是歪斜、不清晰等问题，因此对其做预处理还是很需要的，包括去除变形(Dewarping)、去除阴影(Deshadowing)、外观增强(Appearance enhancement)、去模糊(Debluring)和二值化(Binarization)。

而目前有个趋势，即统一任务范式进行处理，昨晚看到一个工作，DocRes: 一个通用模型，用于统一文档图像恢复任务：DocRes: A Generalist Model Toward Unifying Document Image Restoration Tasks(https://arxiv.org/pdf/2405.04408)，针对文档图像恢复任务，使用了一种名为动态任务特定提示（DTSPrompt）的新颖视觉提示方法，以指导DocRes执行各种恢复任务，具体代码：https://github.com/ZZZHANG-jx/DocRes，感兴趣的可以去看看。‍‍‍‍‍‍

想想其实这个做法让CV的操作平民化了，确实处理文档的也许只会prompt和Python，NLP和CV是啥都不知道也可以弄，目前的范式变为构造大量数据集进行拟合。

在完成这部分操作之后，可以再走后续文档常规处理手续，这块在教育领域的产品，例如试卷宝这些，都会用得到。

而此外，我们跳跃到另一个知识图谱检索的问题，有个图，来自https://mp.weixin.qq.com/s/hJOUmkJ5HFavwpg8bBd5xw，对llamaindex中知识图谱的查询策略，具体实现含义、优势、劣势等做了总结，可以看看。