新智元报道
编辑:Aeneas 好困虽然13.8看起来更大,因为它小数点后的数字更少,但13.11实际上更大。这是因为13.8相当于13.80,而13.80小于13.11。对此,林禹臣po文表示,AI模型在处理复杂问题方面变得越来越强大(比如越来越会做数学奥赛题),但一些常识性问题对于它们来说仍然非常困难。正如Yejin Choi此前所提出的,AI聪明得令人难以置信,但同时也会蠢得令人震惊。AI之所以在这个算术题上犯蠢,是因为上下文不清楚的原因吗?答案是否定的。根据网友karthik的测试,即使要求GPT-4o给两个数做减法,它依然得出了9.11 - 9.9=0.21这样逆天的减法公式。如果指示GPT-4o用python,它会先给出一个正确答案,然后又改回了之前错误的那个😮。
Python中用9.11减去9.9的结果是-0.79。这一偏差是由于Python中处理浮点运算的方式造成的,这种方式可能导致小的精度误差。实际的预期结果应该是0.21。有趣的是,根据最新的实测,OpenAI似乎已经连夜教会了GPT-4比大小。
LLM全军覆没
9.11=9+1/10+1/100=9.11
9.9=9+9/10=9.90
然而下一步,Sonnet就突然滑坡了😂——
我们可以看到,9.11比9.90大0.01(百分之一)。如果换成「9.11减去9.9等于几」,则会得出另一个神奇的答案——0.02。莫非在Claude的眼里,9.90=9.09?🤔
prompt的影响,真的很大
为什么会这样?剖开LLM大脑
几十年来,AI领域一直认为常识是一个几乎不可能的挑战。直到现在,给AI真正的人类常识仍然是一个登月计划。而你不能通过每次让世界上最高的建筑高一英寸,来达到月球。从学习算法这个层面来看,无论大语言模型多么惊人,它们从设计上可能并不适合作为可靠的知识模型。虽然这些模型确实获取了大量知识,但这是作为副产品,而不是直接的学习目标。因此,诸如幻觉现象和缺乏常识等问题也随之而来。相比之下,人类的学习并不是为了预测下一个词,而是为了理解世界和学习世界的运作方式。也许AI也应该这样学习。如今,AI几乎像是一个新的智力物种,与人类相比具有独特的优势和劣势。为了使这种强大的AI可持续且人性化,教会AI常识、规范和价值观迫在眉睫。参考资料:https://x.com/goodside/status/1813279135449612693https://x.com/billyuchenlin/status/1812948314360541302