十月实践总结:粗看LLM+KG知识图谱研发和落地中的虚与实

今天是2023年10月30日,星期一,北京,雾霾。

我们今天来看看知识图谱与大模型研发过程中的虚与实。

知识图谱讲多一点,10条,大模型少一点,5条。

供大家参考。

一、知识图谱研发落地中的虚与实

1、知识图谱构建流程:工业流程,长且误差传播,本体构建主观性大

2、现实:数据多源异构,不单单是算法问题

3、现实:半结构化数据复杂多样

4、现实:待处理文档复杂多变,多条技术策略轮番集成

5、现实:实体识别问题复杂,DIY强,标注需求量大

6、现实:远程监督构造数据算法在工业界很难落地

7、现实:实体关系抽取中的存在的诸多问题

8、现实:实体嵌入表示学习,准确率低,在高精度场景不适用

9、现实:实体对齐标准化依靠大量规则策略

二、大模型研发与落地的虚与实

1、现实:训练领域大模型的常规范式已知、选型量化不可知

2、现实:大模型研发中的数据处理流程已知、定量未知

3、现实:预训练数据规模已知,但具体数据配比未知

4、现实:SFT微调数据自动生成的蒸馏方式已知、后期处理繁杂

5、现实:大模型能力评测有偏、与真实业务隔阂大

参考文献

1、刘焕勇.《LLM+KG知识图谱研发和落地中的虚与实》,2023-10-26,北邮研究生课堂。

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。


相关推荐

  • ChatGPT测试上传文件功能;百川推出192K长文本大模型;通义千问App安卓版上线丨AIGC大事日报
  • 昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源
  • 大模型又改变一个行业!解构AIoT巨头大华股份研发体系,技术大进化
  • 杭州/北京内推 | 阿里云人工智能平台深度学习团队招聘算法研究实习生
  • ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题
  • 百川智能再发新模型,超越Claude2将上下文窗口做到了全球第一
  • 【ICCV2023】开放世界 TTT 的鲁棒性:自训练与动态原型扩展
  • 清华大学《高级机器学习》资料和院士特邀报告(附pdf下载)
  • 老板说我能力不行,怎么办?
  • 32.5K Star开源一款免费,没广告的音乐软件
  • 使用Python类型提示,保持代码整洁,提高可读性
  • 权威赛事、高额奖金,文心一言插件开发邀你来挑战!
  • Jenkins + Docker 一键自动化部署 SpringBoot 应用最精简流程
  • 7个理由:从Java8升级到Java17
  • 基于Transformer和注意力的可解释核苷酸语言模型,用于pegRNA优化设计
  • 像搭乐高一样做数学定理证明题,GPT-3.5证明成功率达新SOTA
  • ChatGPT上新文件分析、自动搜索等功能,初创公司的产品被取代?
  • 苹果文生图大模型亮相:俄罗斯套娃式扩散,支持1024x1024分辨率
  • 图灵奖得主吵起来了,LeCun:Bengio、Hinton等的AI灭绝论是荒谬的
  • 比亚迪今年的薪资。。