Llama3-8B/70B大模型开源及RAG工作梳理：兼看4月份上半月大模型技术进展总结预告

今天是2024年4月18日，周四，北京，天气晴，今天是谷雨，春天的最后一个节气。

我们先来看看大模型进展早报，昨天最为热点的还属meta开源的llama3系列，包括8B和70B参数两种规模：https://ai.meta.com/blog/meta-llama-3/，https://github.com/meta-llama/llama3。

其中，llama3的特点在于，在训练数据上，基于超过15Ttoken训练，相当于Llama2数据集的7倍多；在上下文长度伤感，支持8K长文本，改进的tokenizer词表大小有128K；在一些评测基准【撇开其有无意义的争论】得分挺高，目前已经有一些测试出来。

而无独有偶，最近两天，Mistral AI开源Mixtral 8x22B，https://mistral.ai/news/mixtral-8x22b/。

但最近关于开源和闭源模型的争论也不少，也看到一些很有趣的讨论，例如：不断推出开源大模型，对缺少算力的我们是好事，也逼着闭源模型加大投入和创新。不过，相信大多数闭源模型会放弃。

又如，在经营上的启发，除了Llama3 的方方面面外，他提到模型开源后如何赚钱的问题，就是向最大的几个巨头收钱，其他就不管了。这对我们的经营也有启发，你必须有金主客户保证营收和利润，但是广大的长尾客户能帮你建立良好的生态。

对于llama3，可以看看扎克伯格对Llama3的访谈(https://b23.tv/tp6ZtBb)，会有一些思路。

回过头来，我们再来看RAG的几个综述，这个对提高RAG的系统认识有直接帮助，另一个关于4月份的半月线上交流，感兴趣的可以看看。

供大家一起参考并思考。

一、先看关于RAG的几个综述，逐步增强对RAG的系统理解

关于RAG进展，目前继续出来一些综述性梳理，例如：

之前讲到过的OpenRAG Base：RAG的开源开放知识库：https://openrag.notion.site/Open-RAG-c41b2a4dcdea4527a7c1cd998e763595；

另一个综述：https://arxiv.org/abs/2402.19473，https://github.com/hymie122/RAG-Survey

最近出现了第三个综述：《A Survey on Retrieval-Augmented Text Generation for Large Language Models》：https://arxiv.org/abs/2404.10981，我们挑几个重点来看看，其特色在于做了很多的小方向的细分。

首先是其关于工作流的梳理如下：

关于RAG技术核心相关工作的分类，涉及到indexing索引、query manipulation操作、data modificaton数据改写、search&ranking查询与排序、reranking重排、Filtering过滤，生成阶段的enhancing增强、customization个性化等，都有对应的方案。

关于现有RAG的相关研究总结(从2020年至2023年)，涉及到检索、多跳等。

又如，对当前检索器与生成器的一些选型，值得好好看看。

最后，在评估方面，也可以看看现有的RAG评估方案，包括RAGAS、ARES、RECALL、RGB等。

二、再看2024年4月份上半月的大模型技术进展总结

转眼间，4月份已然过去半个月，并即将进入下旬，而回顾这四月份，也依然出现了一些有趣的工作。

例如：

在大模型开源方面， MistralAI开源Mixtral 8x22B，meta开源的llama3系列，关于文生视频开源数据集方面，有开源YouTube多语言数据集，包含YouTube上的视频信息和相关元数据，总共包含 400k 条记录，字段包括视频标题、链接、描述等；

在文档智能方面，也有开源MathWriting: 一个手写数学表达识别的数据集：MathWriting，迄今为止最大的在线手写数学表达数据集。包含230k个人工书写样本和额外的40万个合成样本，也出现AI文档理解相关文献，深度学习表格检测与结构识别相关论文，也有，文档chart图表解析方向汇总等，也有借助版式分析得到文本层级结构，提升检索效果的工作。

在RAG方面，也出现了RAG内外知识冲突时的博弈的一些研究，例如，《How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior》，也有RAG来做金融分析任务、基于LangChainAI和 UnstructuredIO实现的基于LocalLLM的RAG前置数据处理方案sparrow开源等。

在知识图谱方面，关于信息抽取大模型进展，也出现了Oneke可自定义抽取schema完成实体，事件，关系抽取的工作，也有大模型与知识图谱结构的结合进展的工作如《Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs》。

因此，我们继续进行老刘说NLP社区半月谈，暂定本周日晚7点，开启第17期的技术汇报，欢迎加入社区【关注公众号，在后台菜单栏中点击会员社区->会员入群加入】并参加线上交流。

我们将围绕《老刘说NLP2024年4月份上半月大模型、知识图谱、RAG、文档智能进展总结》这一主题，回顾过去半个月的大模型、知识图谱、RAG、文档智能方向上的一些技术进展，供大家一起参考。

参考文献

1、https://ai.meta.com/blog/meta-llama-3/

2、https://github.com/meta-llama/llama3

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期发布语言资源、工程实践、技术总结等内容，欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的，可关注公众号，在后台菜单栏中点击会员社区->会员入群加入。

Llama3-8B/70B大模型开源及RAG工作梳理：兼看4月份上半月大模型技术进展总结预告

一、先看关于RAG的几个综述，逐步增强对RAG的系统理解

二、再看2024年4月份上半月的大模型技术进展总结

参考文献

关于我们

相关推荐