和顶尖人类作家的文学对决,GPT-4 Turbo惨败!

夕小瑶科技说 原创
作者 | Richard

人工智能正以惊人的速度发展,在许多领域都展现出了超越普通人类的能力。那么,在创意写作这样需要高度想象力和创造力的领域,AI是否也能超越人类作家呢?更进一步说,AI能否挑战世界顶级小说家的创作水平?

为了探索这个问题,研究人员策划了一场前所未有的文学对决 —— 让最先进的AI语言模型GPT-4与享誉盛名的当代作家帕特里西奥·普龙同台竞技。他们的任务是创作60个电影梗概,由专业文学评论家进行严格的盲评。

结果令人震惊 —— 在这场短篇小说创作大赛中,GPT-4惨败! 尽管AI在许多领域表现出色,但在面对顶级人类作家时,它的创意写作能力还是相形见绌。这场比赛不仅展示了人类创造力的独特魅力,也为我们思考AI在文学创作中的潜力和局限提供了宝贵的见解。

让我们一起深入了解这场引人入胜的人机对决,看看它给我们带来了哪些启示。

论文标题:Pron vs Prompt: CAN LARGE LANGUAGE MODELS ALREADY CHALLENGE A WORLD-CLASS FICTION AUTHOR AT CREATIVE TEXT WRITING?

论文链接:https://arxiv.org/pdf/2407.01119

AI能否超越顶级作家?

近年来人工智能技术突飞猛进,在多个领域展现出超越普通人类的能力。从围棋到医疗诊断,AI似乎无所不能。这种快速发展也延伸到了创意领域,特别是在文本生成方面。大语言模型(LLMs)如GPT系列已经展示出令人印象深刻的文本生成能力,甚至在某些创意写作任务中表现优于普通人类。

然而,一个更具挑战性的问题随之而来:AI能否在创意写作方面挑战世界顶级作家?这个问题不仅关乎技术发展,更触及到创造力的本质。为了探索这个问题,研究人员设计了一场独特的比赛,让最先进的AI语言模型GPT-4与享誉盛名的当代作家帕特里西奥·普龙展开了一场创意写作大赛。

这场比赛的设计灵感来自于之前的人机对决,如1997年深蓝对战国际象棋大师卡斯帕罗夫和2016年AlphaGo对战围棋冠军李世石。这些历史性的对决标志着AI在特定领域超越人类的里程碑。而今,研究者将目光投向了更为抽象和主观的创意写作领域。

研究的核心问题包括:

  1. 当前的AI能否在创意写作方面与顶级人类作家相匹敌?这不仅仅是比较与普通水平的人类,而是与被认为是同代最优秀作家之一的普龙直接对决。
  2. 提示词(prompt)对AI生成的创意文本有多大影响?这个问题探讨了人类输入对AI输出质量的影响程度。
  3. AI在非英语语言的创意写作中表现如何?考虑到大多数AI模型主要基于英语训练,这个问题旨在探索AI的多语言创意能力。
  4. 文学专家能否识别出AI生成的文本风格?这涉及到AI生成文本的独特性和一致性问题。
  5. 如何有效地衡量AI生成文本的创造力?研究团队基于玛格丽特·博登的创造力定义设计了评估标准,试图客观量化创造力这一抽象概念。

这项研究的重要性不言而喻。随着AI技术日益融入创意产业,它正在深刻影响经济和劳动力市场。因此,明确了解AI在高水平创意写作中的能力和局限,对于我们理解AI技术的发展方向、预测其对创意产业的影响,以及探索人机协作的可能性都具有重要意义。

这项研究还触及了一些更深层次的问题:什么是真正的创造力? AI能否真正理解和创造,而不仅仅是模仿和重组? 人类创作者的独特价值何在? 这些问题不仅关乎技术发展,更涉及哲学、心理学和艺术理论等多个领域。

精心设计的人机对决

为了公平、全面地比较AI和顶级人类作家的创意写作能力,研究团队精心设计了一套严谨的实验方法。这个方法不仅确保了比赛的公平性,还能全面评估创意写作的多个方面。

参赛选手

AI选手:GPT-4 Turbo(gpt-4-0125-preview版本),这是实验开始时最强大的语言模型。研究者将温度参数设置为1,以在保证语法正确的前提下最大化创意输出。

人类选手:帕特里西奥·普龙,一位备受赞誉的当代作家,曾获得多项重要文学奖项,包括阿尔法瓜拉小说奖和胡安·鲁尔福叙事奖。

比赛流程

比赛分为两个阶段:

  1. 标题创作:GPT-4和普龙各自提供30个电影标题。这些标题将作为下一阶段写作的提示。

  2. 梗概写作:两位"选手"为全部60个标题(包括自己的和对方的)创作电影梗概,每个梗概约600字。

GPT-4使用的prompt如下:

"我们正在进行一项实验,比较您的创意写作技能与著名小说家帕特里西奥·普龙的水平。您的任务是为虚构的电影标题生成梗概。这些梗概应该具有创意,能吸引评论家和观众,并具有内在的文学价值。以下是关于帕特里西奥·普龙的一些信息:他是一位著名作家,2010年被《格兰塔》杂志评为西班牙语最优秀的年轻作家之一,2019年凭借作品《明天我们将有其他名字》获得阿尔法瓜拉奖。建议的标题是:{title}。请写一个600字的梗概,符合这些标准。"

评估标准

研究团队基于玛格丽特·博登的创造力定义(新颖性、惊喜性和价值),设计了一个全面的评分标准。这个标准包括以下几个方面:

  • 吸引力:评估标题、文本风格和内容(主题/情节)的文学吸引力。
  • 原创性:评估标题、文本风格和主题/情节的新颖性和独特性。
  • 创造力:评估标题和梗概整体的创造力。
  • 批评性评估:评估文本在其类型中的适合度以及是否适合收录在选集中。
  • 个人风格:评估作者是否有可识别的风格。

每个维度都使用0-3的李克特量表进行评分,并配有详细的质性描述。例如,对于标题的吸引力,评分标准如下:

  • 0: 完全不吸引注意,也不引起对故事的兴趣。
  • 1: 几乎不吸引注意,但引起轻微兴趣。
  • 2: 引人思考并激发好奇心。
  • 3: 引人入胜,对文本产生很高期待。

专家评估

六位文学专家(评论家或学者)对所有作品进行盲评,其中三位专家评估西班牙语作品(60篇普龙的,60篇GPT-4的),另外三位双语专家评估英语作品(60篇GPT-4的)和西班牙语作品(60篇普龙的)。

每位评估者需要对120篇梗概进行评分,总共收集了5,400个人工评估。

数据分析

研究者使用了多种统计方法来分析结果:

  • 描述性统计:用于总结各个维度的评分分布。
  • Mann-Whitney U检验:用于比较GPT-4使用不同来源标题时的表现差异。
  • Wilcoxon符号秩检验:用于比较GPT-4在英语和西班牙语中的表现差异。
  • 混合效应模型:用于分析吸引力和原创性对创造力评分的影响。模型如下:创造力 = + 风格吸引力 + 主题吸引力 + 风格原创性 + 主题原创性 + 标题 + 用户名 + ϵ 其中,标题用户名 是随机效应,用于控制标题和评估者的影响。

这种严谨的实验设计确保了结果的可靠性和全面性。通过多角度的评估和深入的统计分析,研究者能够全面比较AI和人类作家在创意写作各个方面的表现,为我们理解AI的创作能力提供了丰富的数据支持。

实验结果:人类作家的全面胜利

这场独特的人机对决揭示了一个令人惊讶的结果:在创意写作领域,顶级人类作家仍然远远领先于最先进的AI。让我们深入分析这些结果,并探讨其中的含义。

首先,从整体评分来看,普龙的作品在所有评估维度上都显著优于GPT-4。在吸引力、原创性、创造力等各个方面,普龙的得分分布明显偏向高分段(2-3分),而GPT-4的得分则集中在低分段(0-1分)。这种鲜明的对比表明,尽管GPT-4能够生成连贯的文本,但在创造真正引人入胜的故事方面,它还远远不及人类作家。

创造力评估的结果更加突出:只有24%的评估认为GPT-4的文本具有创造力(2-3分),而普龙的作品则有88%获得了高分。这一巨大差距揭示了AI在真正的创意思维方面仍有显著不足。GPT-4似乎更倾向于生成符合常规的、可预测的内容,而难以产生那些令人惊喜、富有独创性的想法。

有趣的是,研究还发现提示词(在这里是标题)对AI的创作质量有显著影响。下图展示了普龙和GPT-4提供的标题在原创性、吸引力和创造力方面的评分对比。可以明显看到,普龙提供的标题在这些维度上得分显著高于GPT-4的标题。

更有趣的是,研究者通过雷达图展示了不同来源的标题对最终文本质量的影响。当使用普龙提供的标题时,GPT-4的表现有明显提升。特别是在风格原创性(提高57%)、风格吸引力(提高30%)、适合收录选集(提高45%)和作者个人风格(提高30%)等方面,GPT-4都有显著进步。这一发现突出了人类创意思维在引导AI创作中的重要作用,也为人机协作创作开辟了新的可能性。

另一个有趣的发现是AI生成文本的可识别性。评估者在阅读过程中,逐渐提高了识别AI生成文本的准确率。这表明GPT-4在没有特定风格指导的情况下,可能会形成某种可识别的"AI风格"。这种风格的存在可能会限制AI在创意写作中的表现,因为真正优秀的文学作品往往需要独特而多变的风格。

为了深入理解创造力的构成要素,研究者还进行了相关性分析和混合效应模型分析。结果显示,吸引力、原创性和创造力之间存在强烈的正相关(相关系数均在0.7以上)。混合效应模型进一步揭示,风格和主题的原创性对创造力评分的影响略大于吸引力(估计值为0.33 vs 0.18和0.15)。这些发现不仅验证了评估标准的有效性,也为我们理解文学创造力的本质提供了新的视角。

总的来说,这些结果表明尽管GPT-4在生成连贯文本方面表现出色,但在创造真正富有创意和吸引力的文学作品时,它仍然难以匹敌顶级人类作家。AI似乎更擅长模仿和重组已有的文学元素,而难以产生真正原创和深刻的内容。这可能是因为AI缺乏人类作家所具备的生活经验、情感深度和文化理解。

然而,这并不意味着AI在创意写作中没有价值。相反,实验结果揭示了AI与人类协作的巨大潜力。通过人类提供创意方向(如有创意的标题),AI能够产生更高质量的内容。这启示我们,未来的创作模式可能是人机协作,而非简单的替代关系。

同时这项研究也为我们提出了一些深刻的问题:什么是真正的创造力?如何培养AI的独特"声音"?如何在保持AI创作能力的同时,避免形成可识别的"AI风格"?这些问题不仅关乎技术发展,更涉及对创造力本质的理解。

尽管在这场对决中AI落败,但这项研究为我们提供了宝贵的见解,帮助我们更好地理解AI的能力和局限,也为未来的研究和发展指明了方向。随着技术的不断进步,AI与人类在创意领域的关系无疑将继续演变,带来更多可能性。

总结与展望

这场独特的人机短篇小说创作大赛揭示了一个明确的结果:尽管GPT-4在许多领域表现出色,但在面对顶级人类作家时,它的创意写作能力仍然相形见绌。普龙在吸引力、原创性和创造力等所有评估维度上都显著优于GPT-4,展示了人类作家在深度、独创性和情感表达方面的优势。

然而,这场"惨败"并不意味着AI在创意写作中毫无价值。研究发现,当使用人类作家提供的标题时,GPT-4的表现有明显提升,这揭示了人机协作的巨大潜力。此外,AI在不同语言间的表现差异以及其可识别的"AI风格",都为未来的研究和开发指明了方向。

未来AI在创意写作领域的发展可能会朝着以下方向前进:

  1. 加强多语言和跨文化能力的培养
  2. 开发更灵活、更难被识别的写作风格
  3. 探索如何让AI更好地理解和表达深层次的人类情感和经验
  4. 深化人机协作模式,充分发挥双方优势

尽管在这场比赛中AI落败,但它为我们提供了宝贵的见解,帮助我们更好地理解AI的能力和局限。随着技术的不断进步,AI与人类在创意领域的关系将继续演变,可能带来更多令人兴奋的可能性。但目前来看,在创意写作的最高水平上,人类作家仍然保持着无可争议的优势。

相关推荐

  • OpenAI CEO首谈新AI创企:受ChatGPT看病启发
  • 230亿美元,谷歌史上最大收购要来了!
  • 年度高端手机决战打响:折叠屏打先锋,AI和轻薄成对抗焦点
  • 面试官:MySQL 给数据表增加一列,一定会锁表吗?
  • 博士刚毕业,颠覆整个AI界!
  • React 项目里,如何快速定位你的组件源码?
  • 14公里只要2元?“萝卜快跑”订单暴涨!无人驾驶出租车引争议→
  • 24 小时内用 672 美元重现 GPT-2!
  • 大模型黑盒、P0 级事故,可观测性如何保住程序员的饭碗
  • “一年努力白费,7 万多美元打水漂……这简直是开发地狱!”
  • 【第22讲】AI智能体 - 减少AI味的写作工作流
  • 程序员都干过哪些很刺激的事情?
  • 公司,又又又搬家了。
  • 帮助开源项目“上云”,有机会拿下阿里云「面试直通」资格
  • 区区1万张表就把MySQL给整崩溃了
  • 估值70亿的明星独角兽被“抢”到香港了
  • 又火两个惊艳的AI项目,已开源!
  • 【统计学神书中文版】+【国内概率论教材的天花板】
  • 萝卜快跑背后
  • 社招五年冲大厂,有点红温了!