新智元报道
编辑:桃子 好困数学性能提升近10%
在官方公开GitHub上,OpenAI放出了gpt-4-turbo-2024-04-09最新的评估结果。主要在以下七大基准上,对模型完成了评估:MMLU(测量大规模多任务语言理解)
MATH(使用MATH数据集测量数学问题解决能力)
GPQA(研究生级别的谷歌防护问答基准)
DROP(需要对段落进行离散推理的阅读理解基准)
MGSM(多语言小学数学基准):语言模型作为多语言思维链推理者
HumanEval(评估在代码上训练的大型语言模型)
大海捞针比初代GPT-4提升4.3倍
GPT-4 Turbo重回王座