新智元报道
编辑:润 贝果AI读心术成了!?
今天LeCun转发了Meta AI最新的突破:AI已经能够实时解码大脑活动中的图像感知!
这项研究是由FAIR-Paris 与巴黎文理大学(PSL)巴黎高师(ENS)合作完成,是在利用脑磁图(MEG)信号重建视觉和语音输入方面取得的一个新的里程碑。
论文地址:https://ai.meta.com/static-resource/image-decoding
Meta使用脑磁图(MEG)这种非侵入性神经成像技术,每秒进行数千次大脑活动扫描,并开发了一个AI系统,能够几乎实时地解码大脑中的视觉表征。
这个系统可以实时部署,根据大脑活动重建大脑在每个瞬间感知和处理的图像。
可以说,这项研究开辟了一条前所未有的新途径,能够帮助科学界了解图像如何在大脑中表示,从而进一步揭示人类智能的其他方面。
从长远来看,它还可能作为临床环境中的非侵入性脑机接口的基础,帮助那些在遭受脑损伤后失去说话能力的人与外界沟通。
具体来说,Meta开发了一个由图像编码器、大脑编码器和图像解码器组成的系统。
图像编码器在大脑之外独立构建一组丰富的图像表示。然后,大脑编码器学习将 MEG 信号与这些构建出来的图像进行嵌入对齐。
最后,图像解码器根据这些大脑表征生成可信的图像。
Meta首先比较了各种预训练图像模块的解码性能,发现大脑信号与计算机视觉AI系统(如 DINOv2)的一致性非常强。
这个研究结果证实了自监督学习能让AI系统学习类似大脑的表征方式——算法中的人工神经元往往会像大脑的物理神经元一样被激活,来响应相同的图像。
这种AI系统和大脑功能的协调一致性,可以让AI生成与人类在扫描仪中看到的图像高度相似的图像。
基于这个原理,Meta在一个公开的MEG数据集上训练出了这个系统。
Meta认为,虽然功能性磁共振成像 (fMRI) 可以更好地解码图像,但MEG解码器可以实时生成结果,连续解码大脑活动,生成连续而且几乎是实时的图像流。
这对于帮助那些因为大脑损伤而不能与外界沟通的患者,与外界进行实时交流是非常关键的。
前置知识,什么是脑磁图(MEG) ?
MEG 的应用包括感知和认知大脑过程的基础研究、手术切除前定位受病理影响的区域、确定大脑各个部分的功能以及神经反馈。这可以应用于临床环境中以查找异常位置,也可以应用于实验环境中以简单地测量大脑活动。
科恩博士在麻省理工学院的屏蔽室,使用 SQUID 测试了第一个MEG
科恩博士在麻省理工学院的屏蔽室,使用 SQUID 测试了第一个MEG
AI读脑的技术架构
(2)从MEG信号流中生成图像
图1:(A)方法,冻住预训练模型 (B)处理方案,与图像生成不同,图像检索可以在对齐的次空间中进行,但要求在检索集中有正样本图像。
作者提到,这个系统有两大贡献:
MEG 解码器可实现 (1) 高性能图像检索和图像生成,
(2) 为解释大脑视觉处理提供新方法。这表明提出的方法有能力真正推广到新的视觉理念,并为「自由形式(free-form)」视觉解码铺平道路。
总之,研究结果为在实验室和临床中对视觉表征进行实时解码,开创了一个大有可为的方向。
方法(Method)
作者研究的目的是,让一群健康的参与者看一系列自然图像,使用MEG记录他们的大脑活动,然后从时序的信号中解码图像,而解码器依赖的是生成模型。
2. 训练目标
作者提出的pipeline有多个部分,因此使用多目标优化策略,在图像检索时,使用得是CLIP Loss。
为了评估生成图像的质量,使用MSE Loss,
最后,作者使用带权重的凸组合方式,将CLIP和MSE损失组合起来,进而完成训练目标。
3. 脑模型
作者使用卷积神经网络架构去提取特征,在此基础之上,添加了时序聚合层,以减少维度,节约计算开销。
4. 图像模型
对于图像的特征编码,作者探讨了VGG-19、CLIP及其变体,以及Transformer结构。
5. 生成模型
为了能够公平的和fMRI结果进行比较,作者和其他论文一样使用了预训练模型,再在此任务上进行训练。
6. 训练的计算资源消耗
夸模态检索任务是在大约63,000个图像上训练的,验证集大约15,800张图像。使用了一张32GB 内存的Volta GPU。
7. 评估方法
作者为了评估方法的有效性,使用了检索指标relative median rank,top-5 accuracy,生成指标PixCorr、SSIM、SwAV。同时,为了对MEG解码性能进行公平评估,作者利用了数据集中的重复图像演示,在评估指标之前对预测值取平均值。
8. 数据集:
THINGS数据集
作者在THINGS-MEG数据集上测试方法。四名参与者(平均年龄为 23.25 岁)接受了 12 次 MEG 训练,在训练过程中,他们看到了从THING 数据集中选取的 22,448 幅图像。在此基础上,向他们展示了一组从THINGS数据库中选取的图像,用这些图片来扩大检索规模,并提高检索能力,进而提高方法的鲁棒性。
结果
面对自然图像表示,哪些模型能提供最强大的解码性能?
为了回答这个问题,Meta采用线性岭回归模型(linear Ridge regression models),在给定对于每张图像的扁平化MEG响应的条件下预测到16种不同的潜在视觉表示,并比较了检索性能。如下表所示。
所有的图像嵌入都展现了高于随机水平的检索性能,但监督和文本/图像对齐模型(如 VGG, CLIP)获得了最高的检索分数。
机器学习被视为学习大脑反应的有效工具
Meta随后将这些线性基线与在相同任务上训练的深度卷积网络结构进行比较——在MEG窗口中检索匹配的图像。
使用深度模型使性能比线性基线提高了7倍(如下图2)。
多种图像嵌入类型都展现出良好的检索性能,其中 VGG-19(监督学习)、CLIP-Vision(文本/图像对齐)和DINOv2(自监督学习)的前五准确率分别为:70.33 ± 2.80%、68.66 ± 2.84%、68.00 ± 2.86%(计算了平均图像度量的标准误差)。
从「大」测试集设置可以得出类似的结论,虽然性能较低,但解码不仅依赖于图像类别,还需要区分同一类别的多张图像。代表性的检索示例如下图。
时间分辨率级别的图像检索为了进一步研究视觉表征在大脑中展开的可能性,作者在250ms的滑动窗口上做了分析:在图像呈现之前,所有模型都获得了基准水平的表现;在图像0~250ms的窗口中可以观察到第一个明显的峰值,随后在图像偏移之后出现第二个峰值,然后迅速回落到 0 到 250 毫秒的窗口中,所有模型都符合这个规律。
有趣的是,最近的自监督模型DINOv2在图像偏置后的检索性能尤为出色。
为了更好地理解解码指标的含义,下图展示了通过将原有测试集与由3,659张参与者未见过的图片组成的附加集,在这上测试了检索结果。
可以出看,解码器利用了图像与偏置相关的大脑反应,并早在250ms时,类别信息就主导了这些视觉表征。
根据表格1中的评估指标,生成的图像在视觉上表现出相对较高的质量,多个生成的图像正确地呈现了语义类别。然而,这些生成的图像似乎包含来真实图像的低级视觉信息。
讨论
这个研究具有基础性和实用性的影响。
首先,随着时间的推移解码复杂感知表示的能力,有望极大地促进人类理解大脑视觉处理过程中所涉及的各种过程。
有大量的工作正在检查视觉系统沿途构建的表示的性质和时序。然而,这些结果可能难以解释,特别是对于高级特征。
而这个研究中的生成解码提供了具体且可解释的预测。
其次,大脑解码技术最明显的用例是协助那些大脑损伤影响沟通的患者。
然而,这个用例需要实时解码,因此限制了使用时间分辨率较低的神经影像学模态如fMRI。
因此,当前的努力为未来能够实时解码铺平了道路。
局限性(Limitations)
Meta的分析突显了从MEG信号解码图像的三个主要限制。
首先,高级语义特征的解码优先于低级特征的解码:特别是,生成的图像保留了语义(例如,对象类别)比低级特征(例如,轮廓,阴影)更好。
很难将这种现象归因于研究的流程:实际上,将类似的程序应用于7T fMRI记录,可以合理地重建低级特征。
相反,这个结果与MEG的空间分辨率(≈ cm)远低于7T fMRI的(≈ mm)这个事实相呼应。
其次,目前的方法直接依赖于几个模型的预训练,并且只是端到端地学习将MEG信号与这些预训练的嵌入对齐。
研究的结果显示,这种方法的性能优于传统的计算机视觉特征,如色彩直方图、快速傅里叶变换和方向梯度直方图(HOG)。
这与最近的MEG研究保持一致,该研究显示,在语音解码的背景下,预训练的嵌入优于完全的端到端方法。
然而,未来仍需测试两个方面:
(1)微调图像和生成模块
(2)组合不同类型的视觉特征是否能够改善解码性能。
参考资料:https://ai.meta.com/blog/brain-ai-image-decoding-meg-magnetoencephalography/