压缩下一个 token 通向超过人类的智能

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。转载自 | 极市平台作者丨周昕宇@知乎来源丨https://zhuanlan.zhihu.com/p/619511222最近在研究 OpenAI 发现，他们其实做的只是机器学习的第一原理，也是机器学习的终局：优化对于未来观察的无损传输的压缩大小。进一步分析后发现，这个理论非常 powerful，因为仅仅如此，便能通向超过人类的智能（Super-human Intelligence）。本文会介绍无损压缩的基本原理和具体实现以及对于 AI 未来发展的猜想。在和小伙伴一起研究的过程中，引出一些有意思的讨论。虽然由于篇幅限制不会特别深入，但希望能引起大家的兴趣。讲无损压缩的部分为了保持 self-contained 的阅读体验，正文里尽量没有引用资料；参考文献会在最后一起给出。对模型训练的无损压缩解释有了解的同学，也可以直接跳到后面的章节开始阅读。本文不是为了创造新的理论、追求 novelty 等目标而写，只是为了尽自己努力去理解观察到的现象。当然同样的现象也可以用其他的理论来解释，也欢迎大家讨论，找到不同理论之间的联系。

模型训练的无损压缩解释

本章假设读者理解 GPT 的基本原理。出现的对数函数 log 均以 2 为底。假设 Alice 希望把一个 (可能无限长) 的数据集无损地传送给 Bob。不失一般性，我们假设

表示词表大小的一个 token, 即
Alice 和 Bob 都有足够的能源（能用作计算）
假设现在已经传输了 , Alice 会将下一个编码为后传给 Bob
Alice 希望 最小化传输的数据量 S ，以 number of bits 比特数量来衡量

baseline 传输方法

由于的可能性有种, 所以可以表示为一个 8 bit 的整数（即一个 byte)。
e.g., 当时, 表示
这时需要传输的位数。
其实, Alice 还要讲上面的方法写成代码 , 在一开始传输给 Bob。

这样传输一个大小为的数据集的代价为

baseline 方法的概率解释

baseline 方法对于的分布没有先验知识, 故是一个离散均匀分布。此时其自信息(https://en.wikipedia.org/wiki/Information_content) 为

故此时也可以看作是的自信息。

基于神经网络训练的无损压缩方法

我们考虑利用一个 Auto-Regressive 神经网络如何进行压缩。具体的，我们考虑这样一个过程：

首先, Alice 将一份的 Auto-Regressive 神经网络的训练代码发送给 Bob。该模型输入，建模的离散概率分布
实现上可以是一个 Decoder-only Transformer、或者 LSTM/RNN。
离散概率建模可以用 Softmax 来实现。
注意, "模型大小" 这个变量写在了里, 但模型的 weights 其实是由初始化并持续训练的。可以把模型的看作的一个函数
模型的参数 (weights) 由Alice和Bob各自初始化, 初始化的方法和随机种子都写在训练代码里, 所以初始时刻双方的相同, 并且会随着传输进行而同步更新, 因此是一个的函数
假设 Alice 已经将传给了 Bob, 现在考虑如何将编码为传给 Bob。
此时双方按照相同的代码及相同的数据对网络进行训练, 双方都有同样的模型。此时双方对的概率分布都有相同的建模。后面若末注明, 我们简写为

由于是个离散概率分布, 其所有可能取值的和为 1 , 故我们可以将每个可能的取值的概率都表示为一个和概率大小一样的区间。这些区间首尾相接, 刚好形成了区间的一个划分。假设为图中箭头所指的取值 (不失一般性, 这里是预测概率不够高, 网络的建模能力还不够准确的情况）。

我们考虑按照如下方式将编码为 : 在上图上对要所在的区间进行二分查找, 从 0.5 开始判断, 在右边则判断 0.75 , 依次类推, 直到查找的数字落在所在的区间, 并将这个过程的动作下来：

每次查找的动作都会有两种结果：向左或向右。

若令 1 表示向右, 0 表示向左, 那么上面的查找过程便可以表示为一个长度为 3 的动作序列:
刚好可以用一个 3 个 bit 的二进制数字来表示
Alice 将这个动作序列编码为一个 3 个 bit 的二进制数字 , 发送给 Bob。
等价于二分查询的次数。
在这个例子里
Bob 收到后, 得到的过程如下
首先 Bob 也预测得到分布
然后根据代表的动作序列, 复现二分查找的过程, 得到 0.6875 这个有限精度的实数
找到这个实数所在的区间是第 4 个 (zero-based) 区间, 则 Bob 解码

由此我们实现了 Alice 将根据 Alice 和 Bob 共同知道的概率分布编码为传输给 Bob, 并且 Bob 根据同样的概率分布将其解码回的无损压缩传输过程。我们对比 baseline 方法可以发现, 本来要传 8-bit, 现在只用传 3-bit, 传输的数据量有了显著降低。整个过程每步都很严格, 我们将一个参考的实现放在了这里（https://github.com/zxytim/arithmetic-encoding-compression）。这个简单的 proof-of-concept 的实现里, 当 codebook size 时, 最高能达到的压缩率。

实际上, 若 codebook size , 那么极限压缩率大约在

传输代价的计算

既然刚才我们讨论了一个看起来能利用已知概率分布降低传输量的方法，那么我们自然想知道，如何计算所需要的比特数？由于二分查找的可能提前结束，期望意义上的查询次数证明在这里：https://hackmd.io/%40Q83Jd7TeRUm0NanRCOpsFg/SJJnSfBWh，也有比较简单的解释：https://bigeagle.me/2023/03/llm-is-compression/。由于我们希望最小化传输量，那么优化传输量的上界，即 “最多查询次数” 也是殊途同归的。由此我们计算一下这样二分查找的上界, 这里提供一个直观的思路。我们接着用刚才的例子: 将的区间均匀铺满整个的区间, 假设 , 那么会分成个区间, 那么大约要查询次。忽略各种取整误差, 可以知道最大二分查询的次数。

实际上，查询次数的上界为

由此可知传输数据集的代价

进一步观察，我们发现其实就是训练时这个 token 的 loss。所以我们可以进而发现, 这一项其实就是训练曲线下方的面积：（实际实现中差个常数 , 因为 torch.nn. functional.cross_entropy 算的其实是 , 这里为了理解就省去了)

从而压缩率

假设训练稳定, loss 平滑下降收敛 , 那么当数据集无限长时, 压缩率

讨论（从这里开始不 self-contained，有猜测，并且没有 truthfulness 保证）

压缩率的极限是

当时（预测的完全准确），压缩率的曲线如下图

时压缩率为 0 是为什么?

这里我们的方案是考虑一个较大的词表（字符集）。当时二分查至少会用 1 bit, 而本身也只占 1 bit, 所以此时二分查找的方法无法提供任何压缩。
此时可以考虑使用别的压缩方法, 如

当到的个 bit 都等于 softmax 的 argmax 时, 我们可以只传输这个数字, 此时只会传输个 bit。
易知当时, 压缩率
这里的目的是讲解压缩和智能的关系，并不是 “如何追求最高的压缩率”

Auto Regressive 模型的 训练过程 是在 显式的对数据集进行无损压缩

如果按照上述方式计算并存储 , 那么 "训练代码 + 所有的 " 便是对数据集的无损压缩。只是我们平时训练中计算得到下一个 token 的分布, 并且计算 loss 进行反传后, 便扔掉了这个分布, 自然也没有计算并存储。但是 “无损压缩" 和 “模型训练" 的过程是等价的。
"Alice 对 Autoregressive Model 的训练过程+二分编码" 等价运 zip 软件包的过程, 对应 .zip 文件。解压 .zip 的过程则对应 “Bob 的 Autoregresive Model 训练过程+二分解码"
所以 “ " 和 “sizeof(zip 软件包 + .zip 文件) 这两者在概念上是等价的。

weights 并不是对数据集的压缩表示

大部份人会先验地认为 “训练是把数据压缩到了神经网络的 weights 中”。ChatGPT Is a Blurry JPEG of the Web(https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web) 里虽然提到了无损压缩的 Hutter Prize(https://prize.hutter1.net/)，但因为没有被存下来，而被看做了 lossy compression。
进一步，我认为 weights 并没有存下对数据集的压缩。
我们从一些例子入手，比如 OpenAI 提到的 Grokking(https://arxiv.org/abs/2201.02177) 现象

考虑用一个 Transformer 学习同余除法 (Modular Division) "a / b mod 97 = c" 这个问题，其中 a 和 b 的取值为 0～96 的整数。等价于找到一个 c 使得 b * c mod 97 = a mod 97
数据上，这个问题一共只有 97^2 ~= 10,000 个数据点，把其中 5,000 当作训练，剩下 5,000 当作测试。
训练中的准确率如下图（from Grokking paper)

这里有趣的发现是，训练集上很快准确率到达 1，验证集上 "overfitting" 而一直学不会，直到 3 个量级以上的训练步数后，也慢慢会了，准确率趋近于 1。这里说 “overfitting” 是因为，按照传统统计机器学习的观点，随便一个 Transformer 的 VC dimension 都会非常大，在一个只有 5000 个样本的这么简单的训练集上训练几乎就是奔着 overfitting 去的。如果 weights 在训练中随着 training loss 下降仅仅在更完美地记忆原始数据集，那么不应该能在 validation set 上能达到 1，因为真的是一点 validation set 都没见过。如果这个例子会有 “数据量太少” 的 concern，那么可以考虑类似的 “8 位数加法” 的问题，一共有个样本，基本上不可能学习完。后面的实验表明是能学出来的。如果随便挑两个 8 位数作为 validation，那么也是几乎一定没有在训练集里出现过的。那么 weights 既然不是对数据的压缩，那么到底存了什么呢？weights 是对 “智能” 的表示

这句话有点民科的感觉，但其实想说的是，weights + transformer 计算了数据分布中可解释的部分（后面会展开）。
另外一个角度，“智能” 其实是消耗能源用 Transformer + SGD 做压缩后的副产品(by-product)
我们继续考虑 8 位数加法的例子，数据是均匀随机生成的，每字符就是一个 token （没有 bpe），并且沿用 auto regressive 的方式来训练。这其实就是一个常见的 GPT 训练的子集。比如我们考虑下面这个例子用来做训练好的模型的验证

17282456+79546852=96829308

当训练完全收敛时，对于这个序列的 loss 应该会长下面这样

因为前面两个数字的每一位都是从 0~9 均匀随机的，所以其实模型对此无法准确预测，进而只能等概率预测是 0~9 是个数字中的某一个，故 loss“+”，“=”，以及最后的答案都是确定性可以预测的，所以 loss = 0聪明的你应该发现了，这其实就对应这个分布的 aleatoric uncertainty 和 epistemic uncertainty。这个例子里：

选择某一个被加数里的数字是不可学习的 aleatoric uncertainty
"+"、"="、8位数字的答案、以及从无先验的每个字符的概率变到 0～9 每个字符的概率的信息差，是可学习的 epistemic uncertainty。而这一部分，就是我们要学习的 “智能”。

自然，前文提到的其实就是，即只剩下了不可解释的随机部分。这里(https://github.com/yulundu/compression) 是一个使用 mingpt 的参考实现，训练的结果(wandb) 如下：

Loss 曲线

Accuracy 曲线

实际实现中

字符集为 0-9,s,e,+,= 共 14 个字符
序列长度为 1（s开始符）+ 8（数字a） + 1（+号） + 8（数字b）+ 1（等号）+ 9（答案）+ 1（e结束符） = 29

但因为是 predict 下一个字符，所以训练长度为 28

training 比 validation 还差且 accuracy 没有到底是因为没注意到 mingpt 里训练默认带 0.1 的 dropout

loss 的收敛点大约是 1.31 左右，我们计算 "理论最低" 也是可以 match 上观察的。其中

16 是两个 8 位数字，因为其随机性而没有办法压缩。
是每个数字都均匀有 10 种可能。之前提到过，pytorch 实现用了自然对数。
是序列 loss 算了平均值。

对数据进行最高效的压缩，即希望能最准确的预测下一个 token。找到了规律，则能把 epistemic uncertainty 降到 0，而剩余的不可压缩部分，便对应剩下的 aleatoric uncertainty。

不过一个令人沮丧的事实是, 除非我们能精确描述数据的分布 (如 8位数加法），我们没有办法知道我们是否收敛到了。

等一等，你只是在拟合训练集么？为什么能推导出测试集泛化？

Good question from[@汪彧之]
这里面有个很有趣的角度：是的，没错，训练是在拟合训练集。但在 autoregressive 的场景里，假设数据集里每个 token 都只看过一遍的话，那么 所谓的 "training loss" 其实是 "next token validation loss" 。
类似的，在传统的过多遍数据集的场景下（如 ImageNet），第一个 epoch 的 loss 是可以看作和压缩率有线性关系的。但从第二个 epoch 开始，我们 empirically 知道模型的能力还在提高，但我暂时无法用压缩的观点来看 loss 的下降了。

思考题：对数据训练两个及其以上 epoch 时该如何用压缩观点来解释？跳出来看，这个问题的意义有多大？

压缩有限样本可以学习到真的 “智能”

考虑在有限但 足够多 的数据的情况下，压缩是 有可能 学习到真的智能的。
在有限在足够多的样本的情况下，如果假设我们的压缩算法（a.k.a, for now, Transformer + SGD) 对于当前的数据做训练时 training (a.k.a, next token validation) loss 能 “比较稳定” 的下降，并且 从某个 step T 开始，training error 都是 0（更精确一点是 epistemic uncertainty =0），能对未来 token 的预测完全准确则该模型就真的 “懂” 了数据的生成规律。

思考题：这里面缺少很多严格的数学定义，该如何严格地 formualte 这个命题？

所以我们知道，有限样本训练也是可以达到最大压缩率的

for skeptics: 是的，收敛率的问题没有讨论，可能 “有限” 也大得离谱，但我希望收敛速度尽可能快，也希望有更多人来研究这个事情。

涌现（emergence） 可以理解为在 loss 下降过程中，数据的某个子集的 epistemic uncertainty 突然快速下降，模型突然开始 “悟” 了。

由于 training dynamics 的复杂性，据我所知还没有办法预测什么时候能力会涌现、在什么时候涌现。我猜测涌现可能只是（我们目前还搞不太懂的） training dynamics 的一种行为；“慢慢学会” 其实到最后也没有太大问题。
@Xiangyu Zhang有个更符合中文语境的说法叫做 “顿悟” 。

涌现得到的人可以理解的智能，是和人没有区别的智能

在训练过程中压缩率越高，模型越 ”智能“

我们知道在训练过程中的 loss 其实是 validation loss，且当 loss 下降时，我们对于 next token 的传输压缩率会越高，再考虑到有限样本也是可以达到最高压缩率的，所以模型也就会越来越智能。

（empirically）模型越大压缩率越高，从而模型越智能

我们已经知道了，模型训练过程实际上是在对数据集做无损压缩。经验上，我们知道模型越大，模型能力越强。我的理解是，“大模型好” 这个说法实际上是在第三层：

“好” 这个算法可以在提供更多的能源的情况下达到更高的压缩率
第一层是机器学习就是压缩，压缩通向智能
第二层是 Transformer + SGD 是一个目前经验主义看起来还挺好的压缩算法
第三层是增加模型参数是一个在给定训练能源消耗上限的情况下，一个对压缩率有显著影响的超参数调节方法。

从压缩的角度，我们可以理解为，大模型的 loss curve 一般更低，从而对应更高的压缩率

(non-truth) 这和人的智能观察有一些有趣相似之处

在地球上，人比其他生物看起来都明显聪明
人的大脑（weights、神经元数量、皮层细胞数）从统计意义上比绝大部分生物都大（是的，不仅有非洲象、蓝鲸等 outlier，人类自身也有小头症和巨头症）

Extrapolate into the future (There's no guaranteed truth here)

长期看来，碳基的智能一定会远远小于硅基的智能

现在的 gpt 表现出的硅基智能是 “人类可以理解的智能”，但在压缩过程中也可能会产生 “人类不可理解的智能”。
我们可以将 GPU 和人类进行对比

GPU 加能源超频，人脑加能源发烧
GPU 之间传输 nvlink+infiniband，人脑之间传输靠动能（说话=空气震动，打字=手敲键盘，所以三体人很厉害）
机器 24x7 小时工作，人脑每天高强度工作 8 小时，剩下的时间在睡觉放松养身，否则就会认为在被 PUA。

从计算到通信到能源使用量，人类统统不占优。

压缩可以超过人类智能

当压缩率足够高时，模型将不得不找到数据中的规律。而有些规律可能是我们不知道的。
DeepMind(https://www.deepmind.com/publications/advancing-mathematics-by-guiding-human-intuition-with-ai) 已经在数学的纽结理论上做出了一些尝试。
压缩也可以发现物理定律。如果我们把很多 “苹果树的生长” 的视频给压缩好了，那么苹果可能 “砸中” 的不是牛顿而是模型，因为模型需要会预测苹果落下的规律，那么其 weights 中一定有一个隐式的 “牛顿定律”。压缩天文视频我们可以得到开普勒定律。那么压缩强子对撞机的数据呢？
这样看起来，AI for Science 的前途好像一片光明。

但正因为这样， AI for Science 单独存在的意义反而可能变低了

进一步，我们把天文地理人文政治生物化学物理数学的知识一起压缩，说不定 gpt 会一口气吐出基于某种新的 penrose tiling 而设计出的拥有新物理化学特性的晶体，可以作为脑机接口的优秀植入材料，并预测人因此能力的增强对于科技发展的二阶推动作用，分析对社会发展造成冲击，进而如何影响地缘政治，导致可能人类需要尽快殖民火星成为 multi-planetary species 而避免因地球毁灭产生的种族灭绝危机（这里 @elonmusk)
相对于 gpt 只是是一个模型在 inference，人类需要调动大量不同领域的专家并耗费大量资源来维持人这个生物化学计算机的运行，并且通过高超的管理艺术协调解决人类之间靠空气振动传播知识带宽低下的问题，加上毅力和运气才能有可能做出相同的工作。

GPT 很危险

没人同时是天文地理人文政治生物化学物理数学专家，而 GPT 压缩了足够的知识后就可以是。
如果一个毒贩问 GPT 你是否有便宜简单的方法合成冰毒，GPT 若回答了，那可能地球上某个地区就会毒品泛滥

当然 GPT-4 已经做好了一定的防护措施（即使使用了 "DAN" prompt）

GPT 的价值观和政治倾向也可能会对世界格局产生巨大影响。
为了不教大家做坏事，这里就不展开了。

如何控制训练好的硅基智能？

不要让它控制自己的能源
用 EMP （电磁脉冲）设备对准机房，不听话就电疗（杨教授？）
对有限数据压缩只能对有限世界进行解释。如果这时智能 “有意识”，那么也只是 “有限世界” 的意识，
可以推断的是，现有的 GPT 如果造成了对人类的破环，那么这个行为的要求一定最初是人类发起的。

因为虽然 GPT 在训练中在不停地通过 SGD 尝试压缩一个 token 的表示，但就目前的使用形态来说并没有在尝试在优化对未来世界的观察的压缩率，a.k.a, 没有做 SGD。[@niuyuanlei]

硅基只需要 encode “对未来下一个 token 预测的压缩” 这一条规则，并且人类给了它这个机会，可能也会造成不可控的危害。

所以 “GPT 继续训练” 这个按钮应该要选执剑人？:)

但，别慌：压缩告诉了我们目标，但没有告诉我们道路。

我们如果把视野放得开一点，我们会发现，其实很多计算问题都是学习问题，于是都可以从压缩角度来理解。
一个例子是密码学。从某个角度看，机器学习和密码学其实都在研究数据的学习能力：机器学习研究一份数据有 多可学，而密码学研究一个东西有 多不可学。
假设我们用 RSA 算法生成了一对密钥后, 对于一段明文 , 用其私钥加密得到密文 , 把、连在一起得到 , 然后用看做一个 autoregressive 学习问题。如果能正确预测 , 则说明模型学到了 RSA 算法 + 所用的密钥。

虽然可以认为现在只有的指数级 “学习"(a.k.a, 破译) 算法, 虑到模型还懂那么多数学 + RSA 的算法实现本身但我无法断定在强大的压缩算法下, 依然学不到破译算法。
希望懂密码学的同学可以来展开讲一下。

同样的，刚才 8 位数加法的问题，如果我们认为数据是一个很长的序列 [a1+b1=c1, a2+b2=c2, ...] ，且压缩算法足够厉害（可能 Transformer + SGD 还不够），那么最后不仅应该学会加法，还应该能学到随机数生成器及随机数种子。

当然，还有很多很多的问题可以探讨，这里还有一些没有展开的话题

传统统计机器学习学习分布的视角和压缩的联系是什么？VAE 是否也是在做压缩 (@malike)？判别模型中的 Information Bottleneck 和生成模型的 Minimum Description Length (a.k.a., 压缩) 之间关系该怎么理解？（@Xiangyu Zhang）
Mathematica 的 symbolic computation 能力被 GPT 学会是不是只是时间问题？最近也有一些用 GPT 模拟图灵机的工作。这样下去是不是 google/bing/wolframalpha 最后都会沦为 gpt 的一个外部数据库？wolframalpha 可能是其中 truthfulness 最高的。
RLHF 在压缩的视角里是什么作用？
Computer Vision 为什么抄 NLP 到今天也还在一个百分点一个百分点地把 ImageNet/MSCOCO 往上拱？

Transformer -> ViT，BERT -> MAE，GPT -> ViT-VQGAN，为什么还是不 work ？

BERT 也建模了 , 并且如果只 mask 则可以建模从目标包含了 Auto Regressive, 并且也可以通过 Gibs 采样生成文本，那如果用 BERT 会怎么样?
被压缩的数据该以什么样的视角来理解？图片里信息量这么大（随便找三支笔往桌上一扔，请用语言精确描述一下这三支笔的姿态）为什么压缩了也没见 “智能的感觉” 有本质提升？究竟什么是我们想压缩的东西？
BPE 对序列的压缩和 GPT 对 token 的压缩是否能统一看待？多模态是否有单独研究的必要？是否应该直接把 jpeg/h264/mp3 扔进去压缩？是否有从 bit/byte 层面直接做压缩的高效算法？
扩散模型 (Diffusion Model) 在计算过程中加入了随机噪声，是否意味着白白增大了 aleatoric uncertainty？是否意味着其压缩效率上限在更多任务上会受到天生的劣势。

小测验：diffusion model 里有随机噪声，那还是无损压缩么？

经验上加宽网络，可以使得网络学习能力更强，从而提高压缩率。从 NTK 角度如何理解压缩？（@Xiangyu Zhang）
如果我的 GPT 输出的是围棋棋谱， Alignment 的 Reward Model 是读棋谱数目数，那么在 RLHF 是否包含了一个 AlphaGo 的实现？如果不是还差什么？
如果我想把中文学术做好，知网数据的价值该怎么来衡量？
Chain of Thoughts 利用 "Let's think step-by-step" 诱导出更多的 token，从而使得能 Transformer 能写更多中间步骤，最后给出更好的答案。Self-critique or self-relfection 也可以看作是一种广义的 CoT。从压缩角度好像选择了一条 Alice 和 Bob 同时 “降智”、压缩率更低的解。如何理解这一点？

这里面的问题很多都想写一些观点，也想把我们对数据和 Alignment 的一些想法写出来（上面有一些很相关的问题），但发现到这里文章已经挺长了，并且 “猜想” 的不严谨部分已经挺多了，所以打算先写到这里。如果大家对于哪个问题比较好奇，可以告诉我，之后有时间会再来谈谈。

结语

前段时间在研究 OpenAI 到底在做什么时，发现了其过去的主要路径只是在做一件事：压缩。这段时间拉着很多小伙伴们或多或少的讨论后，大家纷纷觉得有道理，也写了几篇文章。从无损压缩开始，有了一个非常具体的实现和证明，便能一点点来解释 OpenAI 坚定这样做的原因、Sam Altman 为什么 2019年给投资人说我们把 AGI 造出来问他怎么赚钱就行了，为什么他这么担心 AI 安全， OpenAI 的使命是 "Creating safe AGI that benefits all of humanity"。这很马后炮，但如果从 “通过压缩的观点可以合理解释 OpenAI 的行为” 这句话来看，我们其实也是把对 OpenAI 的观察做了很高的压缩，那么这句话的压缩率其实也挺高的，可能还是值得花时间来思考一下。本篇文章内容没有用 ChatGPT，为人类创作作品。封面为 Midjourney V5 生成。

Acknowledgement

@wangyuzhi @xuxinran @wangguan @zhangmeng @xionghuixin @zhengyanan @duyulun @zhouerjin @yangtong @linzongyu @yangzhilin @zhangyutao @niuyuanlei @malike @zhangzilun @chenfeng

Reference

Ilya Sutskever (OpenAI Chief Scientist) - Building AGI, Alignment, Spies, Microsoft, & Enlightenment | Youtube
Sam Altman: OpenAI CEO on GPT-4, ChatGPT, and the Future of AI | Lex Fridman Podcast #367 | Youtube
Compression for AGI - Jack Rae | Stanford MLSys #76 | Youtube
Theory of Mind Breakthrough: AI Consciousness & Disagreements at OpenAI [GPT 4 Tested] | Youtube
GPT-4 Creator Ilya Sutskever | Youtube
What is NOT Random | Youtube
Hutter Prize
Neural Data Compression
An Introduction to Arithmetic Coding
压缩即智慧 @xuxinran
智慧信息的压缩：模型智能的涌现之道 @wangguan
为什么说 GPT 是无损压缩 @wangyuzhi
毅马当闲
Pause Giant AI Experiments: An Open Letter
【搜出来的文本】⋅（三）基于BERT的文本采样
基于算数编码的二分查找进行压缩的期望查询次数证明 @zhangmeng
Can LLMs Critique and Iterate on Their Own Outputs?
Reflexion: an autonomous agent with dynamic memory and self-reflection

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。