GPT、GPT-2和GPT-3概览

稀土掘金 稀土掘金

GPT、GPT-2和GPT-3概览

2022年12月15日 09:04 ·  阅读 870
关注

本文正在参加「金石计划 . 瓜分6万现金大奖」

导语

本文简要总结了GPT、GPT-2和GPT-3的一些发展和对比。

GPT: Improving Language Understanding by Generative Pre-Training 

GPT-2: Language Models are Unsupervised Multitask Learners

GPT-3: Language Models are Few-Shot Learners

GPT简介

GPT是在Transformer发表后一年的工作,它主要是利用了Transformer的Decoder来进行语言模型的训练。他的预训练目标函数为:

image.png

整个模型的结构由一个输入的投影层将token id映射为embedding,中间12层的Transformer Decoder Layer和最终的一个输出投影层组成。

image.png

他的无监督预训练方式是自回归模式的,也就是说GPT是单向的语言模型,在预测下一个token时,只能看到前面的token。预训练的语料库为BooksCorpus数据集。

在进行下游有监督的任务时,GPT取最后一个token经过Transformer后的输出作为对输入的一个编码(类似于[CLS]在BERT中的功能),之后接一个Linear层映射到输出的维度。

image.png

GPT-2

GPT在发表后,很快BERT就出现了,并且以全面碾压的姿态在所有任务上完爆GPT-1,因此,OpenAI团队便也加大了GPT的训练数据和模型参数,但是在做到下游任务的时候,它会用一个叫做zero-shot的设定,zero-shot是说,在做到下游任务的时候,不需要下游任务的任何标注信息,那么也不需要去重新训练已经预训练好的模型。这样子的好处是我只要训练好一个模型,在任何地方都可以用。

image.png

根据沐神所说,如果作者就是在GPT-1的基础上用一个更大的数据集训练一个更大的模型,说得到结果比BERT好一些,可能也就好那么一点点,不是好那么多的情况下,大家会觉得GPT-2这篇文章就没什么意思了,工程味特别重。那么我换一个角度,选择一个更难的问题,我说做zero-shot。虽然结果可能没那么厉害了,没那么有优势,但是创新度一下就有了。

GPT-2的预训练语料则是在reddit上选取评分大于3分的网页,然后进行爬取得到的高质量语料,大约40G左右。

GPT-3

GPT-3的论文更像是一篇技术报告,长达63页,主要介绍了一些实验上的结果。GPT-3将模型的参数量直接提升到了1750亿参数,越GPT-2的100多倍,性能则是提升很大。

同时,GPT-3提出在下游任务上进行few-shot或者1-shot时,无需进行梯度更新的方式,这里可以通过如下的图示来解释:

image.png

左边展示了Zero-shot、1-shot和Few-shot的区别,他们都是在做预测,只是在输入数据时,zero-shot只说明任务,让模型就直接预测输出;1-shot则会在任务后面接一个例子提示一下模型;few-shot则是接若干个例子用来提示。

作者一共设置如下几种不同size的模型。

image.png

由于GPT-3的模型参数量暴增,所以预训练的语料也需要相应增加。首先,作者训练了一个简单的二分类器,分类器的正样例是GPT-2中爬取到的高质量数据,负例则是Common Crawl的低质量数据,接着再用这个分类器将所有的CommonCrawl数据进行分类,取出其中的正样例。然后使用lsh(局部敏感哈希算法)对相似的文档进行过滤,最后加入BERT、GPT2的那些预训练数据也作为语料,得到一个非常大的语料。

image.png

实验方面,GPT-3超过了绝大多数的zero-shot或者few-shot的state-of-the-art方法。

最后,作者也讨论了GPT-3的一些影响,诸如性别偏见、宗族偏见、宗教偏见等问题,而且无法保证长文本生成时的连贯性,存在下文不停重复上文的问题。

总结

GPT系列的模型让我们看到了语言模型届的”大力出奇迹“,到最终的GPT-3模型时参数量已经变成了1750亿的参数,是原始GPT(1.25亿)参数的1000多倍,不过GPT-3也在各种任务上展现了非常惊艳的效果,影响无疑是深远的,而且也证明了起码在现在阶段,通过增加参数而提升模型性能是远远还没有到顶的。

分类:
人工智能
标签:
安装掘金浏览器插件
多内容聚合浏览、多引擎快捷搜索、多工具便捷提效、多模式随心畅享,你想要的,这里都有!
前往安装
收藏成功!
已添加到「」, 点击更改
  • 微信
    微信扫码分享
  • 新浪微博
  • QQ
沉浸阅读
温馨提示
当前操作失败,如有疑问,可点击申诉
前往申诉 我知道了

相关推荐

  • 从零开始学习机器学习
  • 为Kubernetes集群部署一个ChatGPT机器人
  • 当代年轻人养生现状 | 每日一冷
  • 靠大尺度,爆火全网!AI涉黄,竟是暴富密码?
  • 痛失又一个重大产业,日本人哭了
  • 俄乌冲突1周年,还要打多久?
  • 德国政界人士呼吁认真调查“北溪”被炸真相;拜登称打算竞选:被人质疑年龄完全合理;台枪击案两嫌犯自厦门被押解回台 | 每日大新闻
  • 不要运费、不要代购费,149抢美国C*stco网红爆款月亮椅!
  • 让《三体》从科幻片变成纪录片,怎么做?
  • 晚年为何不来华避难?穆沙拉夫:不想给中国添麻烦,我是争议人物
  • 中国开源社区健康案例——OpenHarmony社区
  • 新版本Linux QQ原生支持LoongArch架构
  • ChatGPT 版必应惨遭「切脑」,粉丝大闹 4 天!
  • 七十年编程语言发展漫谈
  • 稳住,ChatGPT不会失守!
  • SpringBoot 统一功能处理
  • 再见Swagger!推荐一款无侵入生成接口文档
  • 服务器性能监控,就靠它了!
  • Java 集合 Stream 流操作的基本使用教程
  • 精确控制 AI 图像生成的破冰方案,ControlNet 和 T2I-Adapter