LLM、RAG虽好,但XGBoost更香!

编译 | 言征  
数据&AI企业家、投资人Oliver Molander 近日在LinkedIn上的帖子中打趣道:“如果你在2022年[ChatGPT推出]之前问人工智能专家什么是LLM,很多人可能会回答说这是一个法律学位。”他补充说,有多少人发现很难接受人工智能远远不止是LLMs和文本到视频模型。  在表格数据处理和信息解读方面,真正的赢家是XGBoost(也被称为Extreme Gradient Boosting)。在众多深度学习技术的炒作中,甚至包括大型语言模型(LLMs)或最近兴起的检索增强生成(RAG)技术中,XGBoost在各个方面都表现出色。去年10月发布的XGBoost 2.0在多个新的分类任务上表现更加出色。 尽管XGBoost、深度学习或RAG等技术无法直接比较,但它们的功能是相同的——都是为了检索、理解信息并生成输出。

听说过新的XGBoost LLM吗?

 尽管生成性人工智能和大型语言模型(LLMs)的发展取得了巨大进步,并且在依赖表格数据的领域中,XGBoost的实际效用仍然是无与伦比的。XGBoost的可解释性、效率和鲁棒性使其成为从金融到医疗保健等应用领域中不可或缺的工具。 然而,围绕LLMs和RAG(检索式生成)技术的热潮让人们开始忽视其他ML技术的重要性,例如XGBoost。风险资本家们急切地想要搭上GenAI和LLMs的快车,以至于每一个新术语往往被错误地标记为新型LLM。 但实际上,投资回报的很大一部分集中在预测性ML技术和如XGBoost和随机森林等技术上。目前,大多数商业用途的AI/ML案例都是使用专有的表格业务数据完成的。 在处理表格数据集时,效率至关重要。XGBoost的多功能性不仅限于分类任务,还包括回归和排序任务。无论你是需要预测一个连续的目标变量,根据相关性对项目进行排序,还是将数据分类到多个类别中,XGBoost都能轻松应对。 XGBoost的可解释性、效率和多功能性使其成为许多预测建模尝试的首选,特别是那些依赖于表格数据的尝试。相反地,LLMs不断演变的能力以及RAG的增强潜力为知识密集型应用提供了诱人的前景。

RAG太好了,但问题在于——

 在2022年7月进行的一项研究中,分析了45个中等规模的数据集,结果显示,像XGBoost和随机森林这样的基于树的模型在应用于表格数据集时,继续展现出比深度神经网络更优越的性能。 这项研究就像是一场技术竞赛,而基于树的模型再次证明了它们在表格数据领域的霸主地位。 而RAG技术的亮相,则是在2020年,当时Meta AI的天才团队决定为大型语言模型(LLMs)的世界增添一抹亮色。 RAG就像是一颗新星,它的出现改变了游戏规则。RAG的设计初衷是赋予LLMs迫切需要的信息检索技术,来解决那些带来困扰的幻觉问题。简而言之,RAG不仅为LLMs带来了新的生命力,也为整个人工智能领域带来了新的希望和可能性。 RAG技术为大型语言模型(LLMs)带来了一种创新的数据处理方式,允许用户引入新的数据集,为模型提供最新的信息以生成答案。这种技术有时被称为“更高级的提示工程”。它正是企业所需要的,可以从它们自己的数据中生成洞见。然而,即便如此,这项技术并没有完全解决LLMs中的幻觉问题。相反,由于人们开始更加信任这些模型,这个问题可能变得更加严重。 尽管RAG技术提供了巨大的潜力,但其部署并非没有挑战,尤其是与数据隐私和安全相关的挑战。例如,提示注入漏洞的存在强调了在利用RAG支持的模型时需要强有力的安全保障。这些挑战要求开发者和企业在实施RAG技术时,必须采取更加细致和周密的措施,以确保用户数据的隐私和安全得到保护,同时遵守相关的法律法规。 

大模型和XGBoost各自的地盘

 在机器学习(ML)生态系统中,传统上存在两个截然不同的群体:一是专注于表格数据的科学家,他们使用XGBoost、lightGBM等类似工具;另一个则是大型语言模型(LLM)的研究者。这两组人分别使用了不同的技术和模型。Damein Benveniste在LinkedIn上的The AiEdge表示:“我一直是XGBoost的超级粉丝!曾经有一段时间,我更像是一个XGBoost模型师,而不仅仅是一个机器学习模型师。” 大型语言模型(LLMs)产生文本输出,但这里的重点在于利用LLMs生成的内部嵌入(潜在结构嵌入),这些嵌入可以传递给像XGBoost这样的传统表格模型。虽然Transformers无疑已经彻底改变了生成式人工智能,但它们的优势在于处理非结构化数据、序列数据以及涉及复杂模式的任务。 MachineHack的首席技术官Krishna Rastogi表示:“Transformers就像机器学习领域的氢弹,而XGBoost则是可靠的狙击步枪。当涉及到表格数据时,XGBoost被证明是首选的精确射手。”
——好文推荐——

怀疑Demo只是演示?实测全球首款AI工程师Devin:缺点还不少,砸不了程序员饭碗!周鸿祎暂时胜利!

万维网之父罕见发声:某家巨头公司将被分拆、人无需上网,下一代互联网将由AI代劳,数据不再归平台所控制


相关推荐

  • 宋东桓:Sora可能会颠覆好莱坞,但优秀更取决于想象力 |T前线
  • 股票涨停、泼天流量,Kimi受宠若惊到宕机:预计25日恢复,200万无损窗口实测:好用!不失优秀、免费的国产大模型产品!
  • 分库分表设计及常见问题
  • 全网独家“Java面试+进阶学习”资源合集,手慢则无!
  • 今日代码 PK | 使用 try-with-resources 关闭资源
  • 面试被拷打,真面不动了。。。
  • 我们公司的春招来啦!
  • 从 AI 和数据要素角度聊聊“新质生产力”对企业数字化转型的影响
  • openEuler 学习赛等你来战:解锁开源之力,赢取丰厚奖品!| Q推荐
  • 打造一个成本优先的技术架构,可以分几步?| ArchSummit
  • 我用十几年时间自创了两门编程语言,它们都还挺知名
  • 新一代“汽车人”不智能,汽车怎么智能?| 极客时间
  • 扫码点单小程序怎么制作,费用多少,微信点餐还可以外卖配送
  • 8个2024年最值得关注的开源LLM
  • 博后招募 | 香港理工大学姚岱教授课题组招聘人工智能方向博士后
  • 曾经火出圈的提示工程要死了吗?危!大模型能自己优化Prompt了
  • WWW 2024 | 港理工等联合提出线性时间图神经网络,适用于大规模推荐系统
  • 不会吧!还有人不知道小红书25届实习生招聘开始了吗!
  • 百度5款大模型上新,更小更便宜!还可1分钟零代码打造Agent应用
  • 游戏NPC“活”了,英伟达AI立大功