都听说过较小的LLM(大型语言模型)和较小的文本分类器是如何在ChatGPT的回应上进行训练的。但现在,我们正进入一个新时代,图像可以被LLM精确解释。直到现在,ChatGPT的视觉能力只是一个有趣的派对把戏,但该模型的最新改进使其多模型可以胜过许多专为视觉任务构建的模型。虽然这是一个巨大的改进,但视觉问题尚未完全解决。ChatGPT存在根本性的局限,我们需要使用ChatGPT来克服这些问题。