25场老刘说NLP社区线上报告汇总：涵盖知识图谱、大模型、RAG与文档智能4大主题

老刘说NLP线上报告集锦，目前全集包括25+，当前分为知识图谱与NLP专题、大模型训练、微调及评估专题、RAG、文档智能与知识图谱融合主题三大专题。

为了方便社区成员更好索引，我们做了整理，欢迎大家使用，加入社区，可共享25讲精彩回放，共享社区沉淀成果，方式见文末。‍‍‍‍‍‍

一、知识图谱与NLP主题系列，包括学习路径、领域知识图谱与事件图谱应用探索、开源项目实操等多次报告。

【社区第六讲】面向小白的知识图谱与NLP入门建议与进阶学习路径

01 KG与NLP的what与why？

02 知识图谱与NLP的可研方向

03 知识图谱与NLP的必备基础

04 知识图谱与NLP的开放数据与模型

05 知识图谱与NLP的实践项目与开源工具

06 总结与思考

【社区第一讲】领域知识与事件图谱的建设挑战与落地应用探索

01 知识/事件图谱概述

02 知识/事件图谱构建关键技术

03 知识/事件图谱的应⽤落地

04 知识/事件图谱开源数据与工具

05 从项目到平台：标准化知识图谱平台

06 总结

【社区第二讲】领域事理图谱的构建与应用初探

01 从知识图谱到事件类图谱

02 事理图谱构建的一般流程与关键技术

03 面向脚本事件预测的事件推理范式

04 面向金融风险监控的事理图谱应用

05 事理图谱的总结与思考

社区第三讲】面向KG构建的文本标注任务、工具、策略与动手实践

01 知识/事件图谱概述

02 知识抽取中的NER\RE\AE\EE

03 知识抽取中的标注策略与常用规范

04 知识抽取中的开源标注工具与数据集

05 基于开源标注工具的动手实践

【社区第四讲】KBQA知识图谱问答关键技术与开源项目实操（仅有ppt）

01 问答场景下的不同QA形态

02 KBQA的主要流程与关键技术

03 KBQA相关评测与实现范式

04 KBQA开源项目分析与解读

05 总结

【社区第五讲】事件驱动下的情报演化分析技术与代表案例-以学迹、eventregistry等为例

01 从情报分析到事件驱动的情报分析形态

02 情报分析中的事件分析流程与关键技术

03 代表性情报分析事件库构建思想与分析

04 代表性情报分析案例与应用点解读

05 开源情报分析组件、项目概览与总结

二、大模型训练、微调及评估专题，主要涉及大模型基本认知、领域微调模型实现范式、大模型、知识图谱与文档智能的落地技术结合范式等多个主题。

【社区第七讲】一些有趣的行业微调大模型实现范式及几点思

01 领域微调模型的一般实现流程

基础模型：LLaMA、GLM、Bloom
微调数据：self-instruct/knowledge based instruction
微调加速：prompt tuning/LoRA/adapter

02 金融领域现有微调模型项目解读

FinGPT、Cornucopia-LLaMA-Fin-Chinese、......

03 法律领域现有微调模型项目解读

LawGPT_zh、Lawyer LLaMA、......

04 医疗领域现有微调模型项目解读

ChatDoctor、Huatuo、......

05 教育领域现有微调模型项目解读

Taoli、......

06 知识图谱领域微调模型项目解读

KnowLM、TechGPT

07 一些开放思考

多步骤微调是否有必要？
是否需要扩充LLAma词表？
如何解决遗忘？训练不进去？幻觉？

【社区第八讲】大模型、知识图谱与文档智能的落地技术结合范式、开源案例及几点思考

01 从langchain看行业问答系统实现范式

langchain的基本实现原理
核心部件：一个好的向量化、文档解析、文档切分与prompt
langchain行业问答系统存在的问题跟挑战

02 知识图谱在当前背景下如何与大模型结合

面向知识图谱构建的微调大模型开源项目实现案例
知识图谱融入大模型训练的几种范式
知识图谱提升大模型生成效果的代表案例

03 文档智能在当前背景下如何与大模型结合

文档智能的技术界定与经典任务
文档智能的可用开源项目与可用工具
文档智能与大模型结合的常见范式

04 向量化在当前背景下如何与大模型结合

文本向量化的常见实现技术
文本向量化常用开源项目与领域embedding；
文本向量化的常用开源向量数据库工具

05 一些开放思考

langchain是否真的能解决行业问答问题？
如何解决大规模、复杂化的行业文档问答需求？ ......

【社区第九讲】大模型研发的基本理论到若干实践（只有ppt）

01 大模型基本概念与入门基础
02 大模型训练数据
03 大模型分布式训练
04 大模型有监督微调
05 大模型强化学习
06 大模型推理、Agent、多模态与评估

【社区第十讲】老刘说NLP的2023年终总结-关于大模型和知识图谱的那些有趣的事儿

01 百花齐放的大模型盛世说起
02 大模型产品应用的一些事儿
03 大模型预训练的那些事儿
04 大模型微调的那些事儿
05 大模型评估的那些事儿
06 大模型agent的那些事儿
07 大模型幻觉及RAG问答的一些事儿
08 知识图谱+大模型RAG的一些事儿
09 值得关注的文档智能开源工具进展
10 值得关注的几个大模型awesome项目
11 未来值得关注的方向

三、RAG、文档智能与知识图谱融合主题，主要涉及大模型RAG、KG-RAG、Agent部署、文档智能、模型部署等多个线上分享。

【社区第十一讲】老刘说NLP的2024第一讲：Moe、RAG搜索增强及大模型进展那些事儿

01 RAG问答的一些技术架构演进
02 RAG搜索增强一些有趣的优化思路：rerank、embedding、prompt、rethink等
03 值得关注的文档智能开源工具进展
04 值得关注的embedding开源项目进展
05 Moe的那些有趣的事儿及开源进展
06 近期大模型产品和应用方面的进展

【社区第十二讲】AI搜索、RAG、moe、Agent、长文本等2024年1月大模型总结-碎片化时代如何高效学习？

01 2024年1月大模型&知识图谱&RAG重要技术与产品动态
02 大模型RAG技术进展与若干分野
03 大模型MOE实现思路与当前进展
04 大模型AI搜索实现思路与案例进展
05 大模型长文本的实现思路与现有长文本模型/评测
06 Agent的实现思路及常见的框架、数据集、案例
07 碎片化时代如何进行高效阅读、学习

【社区第十三讲】大模型2月半总结OpenAI Sora、Prompt工程、RAG、表格处理、长文本、embedding变体及新晋开源的那些事儿

01 2月份上半月大模型产研关键事件进展盘点:小模型、跨模态为主流
02 面向RAG的embedding变体进展:压缩及灵活伸缩
03 大模型性能提升中的prompt工程策略
04 大模型落地文档智能中的表格处理方案:表示与建模
05 文生视频的关键事件:openai sora关键技术分析总结
06 值得关注的大模型开源项目、论文综述及平台产品

【社区第十四讲】大模型2024年2月技术总结 OpenAI Sora、RAG、kG-RAG、长文本及前沿工作、开源项目进展

01 2月份上半月回顾:RAG、sora、prompt工程、长文本等
02 2月份下半月大模型产研关键事件进展盘点:sora逆向工程
03 值得关注的大模型开源项目及前沿工作:爆发性的大模型全方面总结工作
04 多模态视觉语言模型进展：一些开源的图文生成项目
05 RAG最新进展:多模态、鲁棒性、长文本替代？
06 KG+RAG的实现范式及开源实践
07 总结

【社区第十五讲】Claude_3、Devin、大模型AI搜索、长文本、RAG、LLM+KG知识推理、碎片化时代如何高效搜索—2024年3月份半月总结

01 3月份上半月大模型进展总结

Claude_3、Devin等关键事件
大模型AI搜索、文档AI软件进展
RAG、KG+LLM相关进展
大模型训练、长文本进展

02 碎片化时代如何高效搜索

什么是高效搜索？为什么要高效搜索？
如何高效搜索？搜什么？从哪儿搜？怎么搜？搜索之后做什么？

03 一些值得收藏的开源信息

报告信息来源、数据、工具

04 最后的总结

学会搜索、大模型在降温、保持深入及专注

05 one more thing

《面向天文领域的星语StarWhisper大模型研发实践》

【社区第十六讲】老刘说NLP2024年3月份大模型、知识图谱、RAG、文档智能进展总结

01 3月份大模型进展总结

Claude_3、Devin、grok、Suno等模型发布
DBRX、Qwen1.5-MoE等MOE模型开源
长文本大战及一些值得一看的大模型前沿

02 3月份知识图谱进展总结

知识图谱数据标注增强
知识图谱与大模型结合进行评估/实体链接预测

03 3月份RAG进展总结

RAFT进行RAG微调

04 文档智能的那些事儿

文档智能的两条落地路线
当下如火如荼的众多端到端sota们

【社区第十七讲】老刘说NLP2024年4月份上半月大模型、知识图谱、RAG进展总结-文档图表理解技术总结

01 4月份半月大模型进展总结

4月份上半月大模型产研关键事件一览
llama3发布，汉化版跟进，MOE多模态大模型进展
4月份值得关注的大模型相关学习材料

02 4月份半月知识图谱与RAG进展总结

数星星方法进行长文本评估
PDF文档的Pipeline式处理逻辑
Graph Chain-of-Thought引入图结构的推理方案
LLM+KG+AGENT的融合:ResearchAgent

03 文档图表理解的那些事儿

文档图表理解的任务
文档图表理解的一些代表工作

04 总结

端到端文档理解受到多模态文档大模型幻觉严重
少judge, 多reading and coding

【社区第十八讲】老刘说NLP2024年4月份及五一LLM+KG+RAG产研总结:有趣的开源项目、技术观点及产品进展

01 4月份大模型进展总结

4月份大模型产研关键事件一览
llama3发布，汉化版跟进，MOE多模态大模型进展
4月份值得关注的大模型相关学习材料
4月份AI产品流量进展

02 4月份知识图谱与RAG进展总结

RAG的若干有趣话题
文档解析的若干有趣话题
Agent的一些观点
可以参加的一些大模型落地相关竞赛

03 总结

【社区第十九讲】2024年5月份半月度大模型、知识图谱、RAG、文档智能等技术产研进展总结

01 5月份半月度大模型进展总结

GPT4-O、Google Project Astra、Veo视频模型等重磅进展发布
Deespseeekv2及豆包发布带来的大模型API价格战
值得关注的几个研究报告及代表前沿

02 5月份半月度知识图谱与KG进展总结

值得关注的RAG及知识图谱竞赛
多模态RAG等进展
大模型与图算法相关结合

03 Langchain中关于RAG的一些实践优化策略

整体RAG策略
索引优化、问题分解、查询路由
生成增强、CRAG等
长文本与RAG之间的一些关联

【社区第二十讲】2024年5月份大模型、知识图谱、RAG、文档智能等技术产研进展总结:兼谈求职过程中的简历与面试注意的坑点

01 5月份大模型进展总结

5月份大模型关键事件
关于大模型落地选型策略及价格对比
5月份大模型等开源进展
关于生产环境下部署微调的10条戒律

02 5月份KG、RAG、文档智能、Agent进展总结

当前主流Agent、RAG框架
使用Agent模式解决长文本RAG的思路
UniOQA大模型知识图谱问答框架
细粒度多页文档理解大模型FOX

03 关于简历及面试的一些事儿

简历的一些要点
面试的一些要点

【社区第二十一讲】2024年6月份上半月大模型、知识图谱、RAG、文档智能等技术产研进展总结

01 6月份上半月大模型进展总结

6月份上半月大模型关键事件
国产大模型6月份开源进展
一些可以的综述及代表工作

02 6月份上半月KG、RAG、文档智能、Agent进展总结

开源中文轻量化版式分析模型
KG进展:大模型进行知识图谱问答的交互式系统LinkQ
中文长文本Embedding模型

03 总结

【社区第二十二讲】文档多模态大模型及Mobile Agent研发

01 多模态大模型技术发展历程(面向GPT-4V, Gemini)
02 mPLUG模块化多模态预训练大模型技术系列(mPLUG-Owl、 mPLUG-DocOwl、Mobile-Agent)

【社区第二十三讲】老刘说NLP社区第23讲-PC机上的大模型部署评估与实践

01 尴尬的⼤模型：从两个故事开始- 使⽤⼤模型的问题
02 PC 机的⼤模型有哪些可以跑？
03 PC 机可以运⾏多⼤的⼤模型，如何运⾏⼤模型

RTX 4090, Mac M1 Ultra, A100 上能跑的最⼤模型
PC 机上的⼤模型如何选择？开源模型的性能评估
如何进⾏开源模型的编码性能评估
哪些开源模型的编码性能最好？

04 ⽇常⼯作中⼤模型的应⽤场景
05 PC机上的MoE模型

【社区第二十四讲】RAG落地中的知识库建设、现实坑点及最佳实践探索

01 RAG的几个核心问题
02 RAG的知识粒度控制
03 RAG中的文档处理策略
04 引入KG增强的KG-RAG策略
05 RAG的最佳实践实验
06 总结

【社区第二十五讲】知识图谱遇见RAG-基本认知、实现思路及代表工作剖析

01 KG-RAG的几个基本问题

why KG-RAG
一些常见实现思路
一些常见的demo思路

02 一些代表性的RAG方案

KG-enhanced prompt代表方案
HiQA方案-引入文档层级结构细分召回
Linkedin kG-RAG方案-双层嵌入索引
UniQA-Text2cypher的KG-RAG
HippoRAG框架-考虑实体特异性
GRAG方案-考虑拓扑结构
微软GraphRAG方案-集KG大成

03 总结

加入社区进行共享

1、扫描购买知识会员二维码【左边第一个码为付费码】，完成付款，并截图保存，社区资格一年有效，一年一续。

2、扫描添加微信，备注“加入会员群”，并将截图发微信，可拉取进入社区。

3、知识会员包括：每日大模型早报推送、享有老刘说NLP所有历时线上交流回放视频以及后续不定期线上分享资格

关于我们

老刘，刘焕勇，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

老刘说NLP，将定期围绕大模型&知识图谱&RAG&文档理解四大主题，进行前沿技术、实践项目等总结等内容，欢迎关注。

对大模型&知识图谱&RAG&文档理解主题感兴趣，并对每日早报、老刘说NLP历史线上分享(25+)等形式感兴趣的，欢迎加入社区，社区持续纳新。

加入会员方式：关注公众号，在后台菜单栏中点击会员社区->会员入群加入

25场老刘说NLP社区线上报告汇总：涵盖知识图谱、大模型、RAG与文档智能4大主题

【社区第六讲】面向小白的知识图谱与NLP入门建议与进阶学习路径

【社区第一讲】领域知识与事件图谱的建设挑战与落地应用探索

【社区第二讲】领域事理图谱的构建与应用初探

社区第三讲】面向KG构建的文本标注任务、工具、策略与动手实践

【社区第四讲】KBQA知识图谱问答关键技术与开源项目实操（仅有ppt）

【社区第五讲】事件驱动下的情报演化分析技术与代表案例-以学迹、eventregistry等为例

【社区第七讲】一些有趣的行业微调大模型实现范式及几点思

【社区第八讲】大模型、知识图谱与文档智能的落地技术结合范式、开源案例及几点思考

【社区第九讲】大模型研发的基本理论到若干实践（只有ppt）

【社区第十讲】老刘说NLP的2023年终总结-关于大模型和知识图谱的那些有趣的事儿

【社区第十一讲】老刘说NLP的2024第一讲：Moe、RAG搜索增强及大模型进展那些事儿

【社区第十二讲】AI搜索、RAG、moe、Agent、长文本等2024年1月大模型总结-碎片化时代如何高效学习？

【社区第十三讲】大模型2月半总结OpenAI Sora、Prompt工程、RAG、表格处理、长文本、embedding变体及新晋开源的那些事儿

【社区第十四讲】大模型2024年2月技术总结 OpenAI Sora、RAG、kG-RAG、长文本及前沿工作、开源项目进展

【社区第十五讲】Claude_3、Devin、大模型AI搜索、长文本、RAG、LLM+KG知识推理、碎片化时代如何高效搜索—2024年3月份半月总结

【社区第十六讲】老刘说NLP2024年3月份大模型、知识图谱、RAG、文档智能进展总结

【社区第十七讲】老刘说NLP2024年4月份上半月大模型、知识图谱、RAG进展总结-文档图表理解技术总结

【社区第十八讲】老刘说NLP2024年4月份及五一LLM+KG+RAG产研总结:有趣的开源项目、技术观点及产品进展

【社区第十九讲】2024年5月份半月度大模型、知识图谱、RAG、文档智能等技术产研进展总结

【社区第二十讲】2024年5月份大模型、知识图谱、RAG、文档智能等技术产研进展总结:兼谈求职过程中的简历与面试注意的坑点

【社区第二十一讲】2024年6月份上半月大模型、知识图谱、RAG、文档智能等技术产研进展总结

【社区第二十二讲】文档多模态大模型及Mobile Agent研发

【社区第二十三讲】老刘说NLP社区第23讲-PC机上的大模型部署评估与实践

【社区第二十四讲】RAG落地中的知识库建设、现实坑点及最佳实践探索

【社区第二十五讲】知识图谱遇见RAG-基本认知、实现思路及代表工作剖析

加入社区进行共享

关于我们

相关推荐