通用信息抽取技术UIE产业案例解析,Prompt 范式落地经验分享!

想了解用户的评价究竟是“真心夸赞”还是“阴阳怪气”?想快速从多角色多事件的繁杂信息中剥茧抽丝提取核心内容?想通过聚合相似事件准确地归纳出特征标签?……想了解UIE技术在产业中的实战落地经验?通用信息抽取技术 UIE 产业案例分享来了!近期Prompt 范式备受关注,实际上,Prompt 思想在产业界已经有了一些成功的应用案例。由中科院软件所和百度共同提出了大一统诸多任务的通用信息抽取技术UIE(Universal Information Extraction),基于 Prompt 思想,将希望抽取的 Schema 信息转换成“线索词”(Schema-based Prompt)作为模型输入的前缀,使得模型理论上能够适应不同领域和任务的 Schema 信息,并按需抽取出线索词指向的结果,从而实现开放域环境下的通用信息抽取。在实体、关系、事件和情感等4个信息抽取任务、13个数据集的全监督、低资源和少样本设置下,UIE均取得了SOTA性能[1]。截止目前,UIE 系列模型已发布UIE、UIE-X、UIE-senta三大模型,凭借其强大的零样本与小样本能力多任务统一建模能力,成为业界在信息抽取、情感分析等任务上的首选方案。
  • 2022年5月,飞桨PaddleNLP结合文心大模型中的知识增强 NLP 大模型 ERNIE 3.0 ,发挥 UIE 在中文任务上的强大潜力,推出首个面向通用信息抽取的产业级技术方案[2] 。

  • 2022年11月,UIE 新增文档信息抽取能力——UIE-X[3],OCR、版面分析、跨模态文档信息抽取能力一应俱全。UIE-X 基于文心 ERNIE-Layout[4] 跨模态布局增强预训练模型,集成了 PaddleOCR[5] 的 PP-OCR、PP-Structure 版面分析等领先能力。

  • 2022年12月,PaddleNLP 以 UIE 为训练底座,在大量情感分析数据集上进一步训练,增强了模型对于情感知识的处理能力,推出基于 UIE 的情感分析方案(下表简写UIE-senta)[6],覆盖句子级情感极性分类、属性抽取、观点抽取、属性级情感极性分类等多项情感任务,且解决了属性聚合和隐性观点抽取难题,并提供情感分析结果可视化能力。


(图:UIE 系列模型介绍)来自云南能投财务服务有限公司黑蚁资本的两位讲师将带来精彩课程,解析UIE技术在多领域的应用场景,分享落地实战经验。2月28日、3月1日,飞桨直播间、B站直播间,两场连播,不见不散!课程介绍2月28日 【金融】复杂单据信息抽取——财务系统智能化钟榆星 | 云南能投财务服务有限公司财务管理是企业管理的重要组成部分,财务人员常常需要将业务单据表格中的数据通过人工填制到财务系统里,这往往费时费力,且容易产生错误云南能投财务服务有限公司(以下简称云南能投),成立于2020年4月,是云南省能源投资集团有限公司全资子公司。为有效支撑集团财务管控落地执行,起到支持集团国际化发展、战略决策的作用,云南能投技术支持部利用PaddleNLP提供的文档信息抽取全流程解决方案,开发了基于UIE-X的表格信息抽取方案,实现复杂结构表格的关系型抽取,帮助业务、财务将常用表格快速导入业务系统,取代人工手录,高效推动了财务共享智能提单业务的快速落地。(图:云南能投基于 UIE-X 开发了表格信息抽取方案)3月1日 【零售】客户意见洞察促进消费品牌经营转型Jeru | 黑蚁资本黑蚁资本,是一家深耕消费领域投资的企业,成立之初就决心让“投后服务”成为机构的核心能力之一,而“数字化”正是黑蚁服务被投企业的重要内容。随着餐饮行业进入线上线下、堂食外卖并重的“双主场”时代,面对铺天盖地的用户评论数据,如何用数字化手段优化经营成为餐饮企业降本增效的关键。为了帮助被投企业提升评价数据的处理效率,黑蚁投后数字化团队基于 UIE 开发了用户评论洞察系统,帮助品牌高效深入了解用户反馈,自动抽取出高价值信息,实现量化统计分析,从而降低经营成本,优化产品和服务,提升市场竞争力。(图:黑蚁资本基于 UIE 开发了用户评论洞察系统)技术拓展——文心大模型随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达36个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。从技术研发到落地应用,大模型的发展已经进入产业落地的关键期,欢迎前往文心大模型官网了解详情:https://wenxin.baidu.com/相关项目PaddleNLP GitHub地址:https://github.com/PaddlePaddle/PaddleNLPPaddleNLP Gitee地址:https://gitee.com/paddlepaddle/PaddleNLP
参考
  1. Unified Structure Generation for Universal Information Extraction
  2. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

  3. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/information_extraction



  4. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout



  5. https://github.com/PaddlePaddle/PaddleOCR


  6. https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis

相关推荐

  • 你在公司混的差,可能和组织架构有关!
  • 谷歌:使用 Rust 后,安卓系统的内存安全漏洞数量大幅下降
  • 年薪最高达 170,000 美元,芯片大神 Jim Keller 和自造芯片的硅神童创业搞晶圆厂,广发英雄帖!
  • 奇舞周刊第 483 期:2023 年你应该关注的 JavaScript 趋势
  • 四天工作制,是时候慢慢到来了。
  • 乔布斯出生 | 历史上的今天
  • 细数开源安全9大现状:恶意软件服务成为商品,人为错误成最大风险,全球形势喜忧参半
  • “因使用 GitHub ,我们被取消了参赛资格”
  • 她这样“博眼球”的网红,越多越好
  • 这种“茶里茶气”的墨镜今年太火,能折叠,多色可选(买1送1)
  • 董宇辉回应离职,首次透露工资收入:原来,我们都被骗了!
  • 携程Java三面面经,已OC!!
  • Puppet 2023 DevOps 现状报告:平台工程有助于提升开发效率
  • 中美云市场分析:未来4年1万亿,美国云收入比中国高8倍
  • 全球架构师峰会即将召开,看字节、阿里、施耐德、奔驰企业讲什么话题 | ArchSummit
  • ChatGPT版必应花式翻车:爱上用户诱其离婚,威胁人类“如果两个只能活一个,我选我自己”
  • 技术裁员正在助长新的创业潮:本来犹豫要不要创业,没想到公司替我做了决定
  • Spring Boot 部署打包成 jar 和 war 有什么不同?
  • 找个体面又高薪的工作,再找个漂亮老婆,然后...
  • 硅谷大佬:我为什么要逃离谷歌?