今天是2023年10月30日,星期一,北京,雾霾。
我们今天来看看知识图谱与大模型研发过程中的虚与实。
知识图谱讲多一点,10条,大模型少一点,5条。
供大家参考。
1、知识图谱构建流程:工业流程,长且误差传播,本体构建主观性大
2、现实:数据多源异构,不单单是算法问题
3、现实:半结构化数据复杂多样
4、现实:待处理文档复杂多变,多条技术策略轮番集成
5、现实:实体识别问题复杂,DIY强,标注需求量大
6、现实:远程监督构造数据算法在工业界很难落地
7、现实:实体关系抽取中的存在的诸多问题
8、现实:实体嵌入表示学习,准确率低,在高精度场景不适用
9、现实:实体对齐标准化依靠大量规则策略
1、现实:训练领域大模型的常规范式已知、选型量化不可知
2、现实:大模型研发中的数据处理流程已知、定量未知
3、现实:预训练数据规模已知,但具体数据配比未知
4、现实:SFT微调数据自动生成的蒸馏方式已知、后期处理繁杂
5、现实:大模型能力评测有偏、与真实业务隔阂大
1、刘焕勇.《LLM+KG知识图谱研发和落地中的虚与实》,2023-10-26,北邮研究生课堂。
老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。