25场老刘说NLP社区线上报告汇总:涵盖知识图谱、大模型、RAG与文档智能4大主题

老刘说NLP线上报告集锦,目前全集包括25+,当前分为知识图谱与NLP专题、大模型训练、微调及评估专题、RAG、文档智能与知识图谱融合主题三大专题。

为了方便社区成员更好索引,我们做了整理,欢迎大家使用,加入社区,可共享25讲精彩回放,共享社区沉淀成果,方式见文末。

一、知识图谱与NLP主题系列,包括学习路径、领域知识图谱与事件图谱应用探索、开源项目实操等多次报告。

【社区第六讲】面向小白的知识图谱与NLP入门建议与进阶学习路径

01 KG与NLP的what与why

02 知识图谱与NLP的可研方向

03 知识图谱与NLP的必备基础

04 知识图谱与NLP的开放数据与模型

05 知识图谱与NLP的实践项目与开源工具

06 总结与思考

【社区第一讲】领域知识与事件图谱的建设挑战与落地应用探索

01 知识/事件图谱概述

02 知识/事件图谱构建关键技术

03 知识/事件图谱的应⽤落地

04 知识/事件图谱开源数据与工具

05 从项目到平台:标准化知识图谱平台

06 总结

【社区第二讲】领域事理图谱的构建与应用初探

01 从知识图谱到事件类图谱

02 事理图谱构建的一般流程与关键技术

03 面向脚本事件预测的事件推理范式

04 面向金融风险监控的事理图谱应用

05 事理图谱的总结与思考

社区第三讲】面向KG构建的文本标注任务、工具、策略与动手实践

01 知识/事件图谱概述

02 知识抽取中的NER\RE\AE\EE

03 知识抽取中的标注策略与常用规范

04 知识抽取中的开源标注工具与数据集

05 基于开源标注工具的动手实践

【社区第四讲】KBQA知识图谱问答关键技术与开源项目实操(仅有ppt)

01 问答场景下的不同QA形态

02 KBQA的主要流程与关键技术

03 KBQA相关评测与实现范式

04 KBQA开源项目分析与解读

05 总结

【社区第五讲】事件驱动下的情报演化分析技术与代表案例-以学迹、eventregistry等为例

01 从情报分析到事件驱动的情报分析形态

02 情报分析中的事件分析流程与关键技术

03 代表性情报分析事件库构建思想与分析

04 代表性情报分析案例与应用点解读

05 开源情报分析组件、项目概览与总结

二、大模型训练、微调及评估专题,主要涉及大模型基本认知、领域微调模型实现范式、大模型、知识图谱与文档智能的落地技术结合范式等多个主题。

【社区第七讲】一些有趣的行业微调大模型实现范式及几点思

01 领域微调模型的一般实现流程

  • 基础模型:LLaMA、GLM、Bloom
  • 微调数据:self-instruct/knowledge based instruction
  • 微调加速:prompt tuning/LoRA/adapter

02 金融领域现有微调模型项目解读

  • FinGPT、Cornucopia-LLaMA-Fin-Chinese、......

03 法律领域现有微调模型项目解读

  • LawGPT_zh、Lawyer LLaMA、......

04 医疗领域现有微调模型项目解读

  • ChatDoctor、Huatuo、......

05 教育领域现有微调模型项目解读

  • Taoli、......

06 知识图谱领域微调模型项目解读

  • KnowLM、TechGPT

07 一些开放思考

  • 多步骤微调是否有必要?
  • 是否需要扩充LLAma词表?
  • 如何解决遗忘?训练不进去?幻觉?

【社区第八讲】大模型、知识图谱与文档智能的落地技术结合范式、开源案例及几点思考

01 从langchain看行业问答系统实现范式

  • langchain的基本实现原理
  • 核心部件:一个好的向量化、文档解析、文档切分与prompt
  • langchain行业问答系统存在的问题跟挑战

02 知识图谱在当前背景下如何与大模型结合

  • 面向知识图谱构建的微调大模型开源项目实现案例
  • 知识图谱融入大模型训练的几种范式
  • 知识图谱提升大模型生成效果的代表案例

03 文档智能在当前背景下如何与大模型结合

  • 文档智能的技术界定与经典任务
  • 文档智能的可用开源项目与可用工具
  • 文档智能与大模型结合的常见范式

04 向量化在当前背景下如何与大模型结合

  • 文本向量化的常见实现技术
  • 文本向量化常用开源项目与领域embedding;
  • 文本向量化的常用开源向量数据库工具

05 一些开放思考

  • langchain是否真的能解决行业问答问题?
  • 如何解决大规模、复杂化的行业文档问答需求? ......

【社区第九讲】大模型研发的基本理论到若干实践(只有ppt)

01 大模型基本概念与入门基础
02 大模型训练数据
03 大模型分布式训练
04 大模型有监督微调
05 大模型强化学习
06 大模型推理、Agent、多模态与评估

【社区第十讲】老刘说NLP的2023年终总结-关于大模型和知识图谱的那些有趣的事儿

01 百花齐放的大模型盛世说起
02 大模型产品应用的一些事儿
03 大模型预训练的那些事儿
04 大模型微调的那些事儿
05 大模型评估的那些事儿
06 大模型agent的那些事儿
07 大模型幻觉及RAG问答的一些事儿
08 知识图谱+大模型RAG的一些事儿
09 值得关注的文档智能开源工具进展
10 值得关注的几个大模型awesome项目
11 未来值得关注的方向

三、RAG、文档智能与知识图谱融合主题,主要涉及大模型RAG、KG-RAG、Agent部署、文档智能、模型部署等多个线上分享。

【社区第十一讲】老刘说NLP的2024第一讲:Moe、RAG搜索增强及大模型进展那些事儿

01 RAG问答的一些技术架构演进
02 RAG搜索增强一些有趣的优化思路:rerank、embedding、prompt、rethink等
03 值得关注的文档智能开源工具进展
04 值得关注的embedding开源项目进展
05 Moe的那些有趣的事儿及开源进展
06 近期大模型产品和应用方面的进展

【社区第十二讲】AI搜索、RAG、moe、Agent、长文本等2024年1月大模型总结-碎片化时代如何高效学习?

01 2024年1月大模型&知识图谱&RAG重要技术与产品动态
02 大模型RAG技术进展与若干分野
03 大模型MOE实现思路与当前进展
04 大模型AI搜索实现思路与案例进展
05 大模型长文本的实现思路与现有长文本模型/评测
06 Agent的实现思路及常见的框架、数据集、案例
07 碎片化时代如何进行高效阅读、学习

【社区第十三讲】大模型2月半总结OpenAI Sora、Prompt工程、RAG、表格处理、长文本、embedding变体及新晋开源的那些事儿

01 2月份上半月大模型产研关键事件进展盘点:小模型、跨模态为主流
02 面向RAG的embedding变体进展:压缩及灵活伸缩
03 大模型性能提升中的prompt工程策略
04 大模型落地文档智能中的表格处理方案:表示与建模
05 文生视频的关键事件:openai sora关键技术分析总结
06 值得关注的大模型开源项目、论文综述及平台产品

【社区第十四讲】大模型2024年2月技术总结 OpenAI Sora、RAG、kG-RAG、长文本及前沿工作、开源项目进展

01 2月份上半月回顾:RAG、sora、prompt工程、长文本等
02 2月份下半月大模型产研关键事件进展盘点:sora逆向工程
03 值得关注的大模型开源项目及前沿工作:爆发性的大模型全方面总结工作
04 多模态视觉语言模型进展:一些开源的图文生成项目
05 RAG最新进展:多模态、鲁棒性、长文本替代?
06 KG+RAG的实现范式及开源实践
07 总结

【社区第十五讲】Claude_3、Devin、大模型AI搜索、长文本、RAG、LLM+KG知识推理、碎片化时代如何高效搜索—2024年3月份半月总结

01 3月份上半月大模型进展总结

  • Claude_3、Devin等关键事件
  • 大模型AI搜索、文档AI软件进展
  • RAG、KG+LLM相关进展
  • 大模型训练、长文本进展

02 碎片化时代如何高效搜索

  • 什么是高效搜索?为什么要高效搜索?
  • 如何高效搜索?搜什么?从哪儿搜?怎么搜?搜索之后做什么?

03 一些值得收藏的开源信息

  • 报告信息来源、数据、工具

04 最后的总结

  • 学会搜索、大模型在降温、保持深入及专注

05 one more thing

  • 《面向天文领域的星语StarWhisper大模型研发实践》

【社区第十六讲】老刘说NLP2024年3月份大模型、知识图谱、RAG、文档智能进展总结

01 3月份大模型进展总结

  • Claude_3、Devin、grok、Suno等模型发布
  • DBRX、Qwen1.5-MoE等MOE模型开源
  • 长文本大战及一些值得一看的大模型前沿

02 3月份知识图谱进展总结

  • 知识图谱数据标注增强
  • 知识图谱与大模型结合进行评估/实体链接预测

03 3月份RAG进展总结

  • RAFT进行RAG微调

04 文档智能的那些事儿

  • 文档智能的两条落地路线
  • 当下如火如荼的众多端到端sota们

【社区第十七讲】老刘说NLP2024年4月份上半月大模型、知识图谱、RAG进展总结-文档图表理解技术总结

01 4月份半月大模型进展总结

  • 4月份上半月大模型产研关键事件一览
  • llama3发布,汉化版跟进,MOE多模态大模型进展
  • 4月份值得关注的大模型相关学习材料

02 4月份半月知识图谱与RAG进展总结

  • 数星星方法进行长文本评估
  • PDF文档的Pipeline式处理逻辑
  • Graph Chain-of-Thought引入图结构的推理方案
  • LLM+KG+AGENT的融合:ResearchAgent

03 文档图表理解的那些事儿

  • 文档图表理解的任务
  • 文档图表理解的一些代表工作

04 总结

  • 端到端文档理解受到多模态文档大模型幻觉严重
  • 少judge, 多reading and coding

【社区第十八讲】老刘说NLP2024年4月份及五一LLM+KG+RAG产研总结:有趣的开源项目、技术观点及产品进展

01 4月份大模型进展总结

  • 4月份大模型产研关键事件一览
  • llama3发布,汉化版跟进,MOE多模态大模型进展
  • 4月份值得关注的大模型相关学习材料
  • 4月份AI产品流量进展

02 4月份知识图谱与RAG进展总结

  • RAG的若干有趣话题
  • 文档解析的若干有趣话题
  • Agent的一些观点
  • 可以参加的一些大模型落地相关竞赛

03 总结

【社区第十九讲】2024年5月份半月度大模型、知识图谱、RAG、文档智能等技术产研进展总结

01 5月份半月度大模型进展总结

  • GPT4-O、Google Project Astra、Veo视频模型等重磅进展发布
  • Deespseeekv2及豆包发布带来的大模型API价格战
  • 值得关注的几个研究报告及代表前沿

02 5月份半月度知识图谱与KG进展总结

  • 值得关注的RAG及知识图谱竞赛
  • 多模态RAG等进展
  • 大模型与图算法相关结合

03 Langchain中关于RAG的一些实践优化策略

  • 整体RAG策略
  • 索引优化、问题分解、查询路由
  • 生成增强、CRAG等
  • 长文本与RAG之间的一些关联

【社区第二十讲】2024年5月份大模型、知识图谱、RAG、文档智能等技术产研进展总结:兼谈求职过程中的简历与面试注意的坑点

01 5月份大模型进展总结

  • 5月份大模型关键事件
  • 关于大模型落地选型策略及价格对比
  • 5月份大模型等开源进展
  • 关于生产环境下部署微调的10条戒律

02 5月份KG、RAG、文档智能、Agent进展总结

  • 当前主流Agent、RAG框架
  • 使用Agent模式解决长文本RAG的思路
  • UniOQA大模型知识图谱问答框架
  • 细粒度多页文档理解大模型FOX

03 关于简历及面试的一些事儿

  • 简历的一些要点
  • 面试的一些要点

【社区第二十一讲】2024年6月份上半月大模型、知识图谱、RAG、文档智能等技术产研进展总结

01 6月份上半月大模型进展总结

  • 6月份上半月大模型关键事件
  • 国产大模型6月份开源进展
  • 一些可以的综述及代表工作

02 6月份上半月KG、RAG、文档智能、Agent进展总结

  • 开源中文轻量化版式分析模型
  • KG进展:大模型进行知识图谱问答的交互式系统LinkQ
  • 中文长文本Embedding模型

03 总结

【社区第二十二讲】文档多模态大模型及Mobile Agent研发

01 多模态大模型技术发展历程(面向GPT-4V, Gemini)
02 mPLUG模块化多模态预训练大模型技术系列(mPLUG-Owl、 mPLUG-DocOwl、Mobile-Agent)

【社区第二十三讲】老刘说NLP社区第23讲-PC机上的大模型部署评估与实践

01 尴尬的⼤模型:从两个故事开始- 使⽤⼤模型的问题
02 PC 机的⼤模型有哪些可以跑?
03 PC 机可以运⾏多⼤的⼤模型,如何运⾏⼤模型

  • RTX 4090, Mac M1 Ultra, A100 上能跑的最⼤模型
  • PC 机上的⼤模型如何选择? 开源模型的性能评估
  • 如何进⾏开源模型的编码性能评估
  • 哪些开源模型的编码性能最好?

04 ⽇常⼯作中⼤模型的应⽤场景
05 PC机上的MoE模型

【社区第二十四讲】RAG落地中的知识库建设、现实坑点及最佳实践探索

01 RAG的几个核心问题
02 RAG的知识粒度控制
03 RAG中的文档处理策略
04 引入KG增强的KG-RAG策略
05 RAG的最佳实践实验
06 总结

【社区第二十五讲】知识图谱遇见RAG-基本认知、实现思路及代表工作剖析

01 KG-RAG的几个基本问题

  • why KG-RAG
  • 一些常见实现思路
  • 一些常见的demo思路

02 一些代表性的RAG方案

  • KG-enhanced prompt代表方案
  • HiQA方案-引入文档层级结构细分召回
  • Linkedin kG-RAG方案-双层嵌入索引
  • UniQA-Text2cypher的KG-RAG
  • HippoRAG框架-考虑实体特异性
  • GRAG方案-考虑拓扑结构
  • 微软GraphRAG方案-集KG大成

03 总结

加入社区进行共享

1、扫描购买知识会员二维码【左边第一个码为付费码】,完成付款,并截图保存,社区资格一年有效,一年一续。

2、扫描添加微信,备注“加入会员群”,并将截图发微信,可拉取进入社区。

3、知识会员包括:每日大模型早报推送、享有老刘说NLP所有历时线上交流回放视频以及后续不定期线上分享资格

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期围绕大模型&知识图谱&RAG&文档理解四大主题,进行前沿技术、实践项目等总结等内容,欢迎关注。

对大模型&知识图谱&RAG&文档理解主题感兴趣,并对每日早报、老刘说NLP历史线上分享(25+)等形式感兴趣的,欢迎加入社区,社区持续纳新。

加入会员方式:关注公众号,在后台菜单栏中点击会员社区->会员入群加入


相关推荐

  • 线程池遇到父子任务,有大坑!
  • 将传统应用带入浏览器的开源先锋「GitHub 热点速览」
  • 为什么不建议使用Date类
  • Liveblocks 让你轻松实现复杂的协作功能(Github项目分享)
  • 如何用原生JavaScript检测DOM是否已加载完成?
  • 首篇《人类视频生成》全面综述:挑战、方法和见解
  • 大模型权威测试被曝翻车!更偏袒GPT-4等闭源模型,连提示词都区别对待
  • 多模态大语言模型最新研究进展!
  • [开源]基于SpringCloud搭建后台管理框架,表单设计、工作流审批
  • 什么!!!Modbus不能应用在智能家居系统中???
  • 171K Star感受命令行之美!!!17万用户的选择
  • 我常用的几个Python金融分析库,太强了~
  • Spring Boot集成qwen:0.5b实现对话功能
  • 手把手AI实战(七)制作搞笑动画视频
  • 小红书上的小而美生意,大半年卖了近500万
  • OpenAI华人女科学家万字详解大模型「外在幻觉」
  • 英国剑桥大学开发AI工具,老年痴呆症预测准确率比标准高三倍!
  • 和顶尖人类作家的文学对决,GPT-4 Turbo惨败!
  • OpenAI CEO首谈新AI创企:受ChatGPT看病启发
  • 230亿美元,谷歌史上最大收购要来了!