Llama3-8B/70B大模型开源及RAG工作梳理:兼看4月份上半月大模型技术进展总结预告

今天是2024年4月18日,周四,北京,天气晴,今天是谷雨,春天的最后一个节气。

我们先来看看大模型进展早报,昨天最为热点的还属meta开源的llama3系列,包括8B和70B参数两种规模:https://ai.meta.com/blog/meta-llama-3/,https://github.com/meta-llama/llama3。

其中,llama3的特点在于,在训练数据上,基于超过15Ttoken训练,相当于Llama2数据集的7倍多;在上下文长度伤感,支持8K长文本,改进的tokenizer词表大小有128K;在一些评测基准【撇开其有无意义的争论】得分挺高,目前已经有一些测试出来。

而无独有偶,最近两天,Mistral AI开源Mixtral 8x22B,https://mistral.ai/news/mixtral-8x22b/。

但最近关于开源和闭源模型的争论也不少,也看到一些很有趣的讨论,例如:不断推出开源大模型,对缺少算力的我们是好事,也逼着闭源模型加大投入和创新。不过,相信大多数闭源模型会放弃。

又如,在经营上的启发,除了Llama3 的方方面面外,他提到模型开源后如何赚钱的问题,就是向最大的几个巨头收钱,其他就不管了。这对我们的经营也有启发,你必须有金主客户保证营收和利润,但是广大的长尾客户能帮你建立良好的生态

对于llama3,可以看看扎克伯格对Llama3的访谈(https://b23.tv/tp6ZtBb),会有一些思路。

回过头来,我们再来看RAG的几个综述,这个对提高RAG的系统认识有直接帮助,另一个关于4月份的半月线上交流,感兴趣的可以看看。

供大家一起参考并思考。

一、先看关于RAG的几个综述,逐步增强对RAG的系统理解

关于RAG进展,目前继续出来一些综述性梳理,例如:

之前讲到过的OpenRAG Base:RAG的开源开放知识库:https://openrag.notion.site/Open-RAG-c41b2a4dcdea4527a7c1cd998e763595;

另一个综述:https://arxiv.org/abs/2402.19473,https://github.com/hymie122/RAG-Survey

最近出现了第三个综述:《A Survey on Retrieval-Augmented Text Generation for Large Language Models》 :https://arxiv.org/abs/2404.10981,我们挑几个重点来看看,其特色在于做了很多的小方向的细分。

首先是其关于工作流的梳理如下:

关于RAG技术核心相关工作的分类,涉及到indexing索引、query manipulation操作、data modificaton数据改写、search&ranking查询与排序、reranking重排、Filtering过滤,生成阶段的enhancing增强、customization个性化等,都有对应的方案。

关于现有RAG的相关研究总结(从2020年至2023年),涉及到检索、多跳等。

又如,对当前检索器与生成器的一些选型,值得好好看看。

最后,在评估方面,也可以看看现有的RAG评估方案,包括RAGAS、ARES、RECALL、RGB等。

二、再看2024年4月份上半月的大模型技术进展总结

转眼间,4月份已然过去半个月,并即将进入下旬,而回顾这四月份,也依然出现了一些有趣的工作。

例如:

在大模型开源方面, MistralAI开源Mixtral 8x22B,meta开源的llama3系列,关于文生视频开源数据集方面,有开源YouTube多语言数据集,包含YouTube上的视频信息和相关元数据,总共包含 400k 条记录,字段包括视频标题、链接、描述等;

在文档智能方面,也有开源MathWriting: 一个手写数学表达识别的数据集:MathWriting,迄今为止最大的在线手写数学表达数据集。包含230k个人工书写样本和额外的40万个合成样本,也出现AI文档理解相关文献,深度学习表格检测与结构识别相关论文,也有,文档chart图表解析方向汇总等,也有借助版式分析得到文本层级结构,提升检索效果的工作。

在RAG方面,也出现了RAG内外知识冲突时的博弈的一些研究,例如,《How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior》,也有RAG来做金融分析任务、基于LangChainAI和 UnstructuredIO实现的基于LocalLLM的RAG前置数据处理方案sparrow开源等。

在知识图谱方面,关于信息抽取大模型进展,也出现了Oneke可自定义抽取schema完成实体,事件,关系抽取的工作,也有大模型与知识图谱结构的结合进展的工作如《Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs》。

因此,我们继续进行老刘说NLP社区半月谈,暂定本周日晚7点,开启第17期的技术汇报,欢迎加入社区【关注公众号,在后台菜单栏中点击会员社区->会员入群加入】并参加线上交流

我们将围绕《老刘说NLP2024年4月份上半月大模型、知识图谱、RAG、文档智能进展总结 》这一主题,回顾过去半个月的大模型、知识图谱、RAG、文档智能方向上的一些技术进展,供大家一起参考。

参考文献

1、https://ai.meta.com/blog/meta-llama-3/

2、https://github.com/meta-llama/llama3

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。


相关推荐

  • 4场公开课!大模型压缩技术的创新与突破
  • 大模型输出概率 logprobs
  • Python 离群点检测算法 -- KNN
  • Llama 3来了!
  • 太卷了!今年的 AAAI 顶会有点猛。。。
  • 面试官:为什么不建议在 MySQL 中使用 UTF-8 ?
  • 这程序员哥们牛啊!领导让他交裁员名单,他想报自己,拿20万赔偿,赚套房子首付
  • 专治大模型说胡话,精确率100%!华科等提出首个「故障token」检测/分类方法
  • AI时代新风口!吴恩达亲授智能体四大设计模式
  • 全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用
  • 程序员因Bug被要求归还4万多年终奖,网友:不还!
  • 三种自定义 hook 的事件封装方式,你会选择哪种?
  • 🤒 JupyterLab | 这几款插件推荐给天天使用JupyterLab的你!~
  • 7 个提高效率的 Jupyter 神级插件
  • 数据整合与 IT 自动化:工业企业的转型之路
  • EMO?FOMO?生成式 AI 风口之下, 如何加速成长?
  • 中国信通院联合工行牵头发布智能开发标准
  • 开源不会越来越落后! Meta 官宣 Llama 3:最大 4000 亿参数,性能碾压一众闭源大模型
  • 从文字模型到世界模型!Meta新研究让AI Agent理解物理世界
  • 李飞飞团队发布《2024年人工智能指数报告》,预测人工智能未来发展趋势