大型语言模型(LLM)和预训练基础模型(PFM)在自然语言处理(NLP)、计算机视觉(CV)等领域有广泛应用。时间序列和时空数据本质上都是时间数据,将这两个广泛且内在联系的数据类别的研究结合起来至关重要。尽管深度学习和自监督预训练方法在时间序列和时空数据分析领域逐渐取得进展,但统计模型仍占主导地位。
本综述回顾了大型模型在时间序列和时空数据挖掘中的应用,涵盖了数据类型、模型类别、模型范围和应用领域/任务四个关键方面。
尽管传统的分析方法仍然占主导地位,但深度学习和自我监督的预训练方法正逐渐取得进展,本文还提供了全面的相关资源集合,包括数据集、模型资产和有用的工具,旨在为从业者提供全面且最新的理解和知识,并指出了未来研究的多种有前景的途径。
本综述的特点:
首次全面且最新的综述。这是第一篇全面回顾时间序列和时空数据分析大型模型最新进展的综述论文。我们提供了涵盖该领域广度的详细且最新的概述,同时还深入研究了各个方法的细微差别,为读者提供了对该主题的全面和最新的理解。
统一和结构化的分类法。我们引入了统一且结构化的分类法,将现有研究分为两个主要集群:时间序列大模型(LM4TS)和时空数据大模型(LM4STD),根据数据类别进行组织。根据模型类型,我们进一步将每个集群分为两个子组,即 LLM 和 PFM。随后的分类是通过模型范围、应用领域和具体任务的角度进行的。这种多方面的分类为读者提供了从多个角度理解该领域的连贯路线图。
丰富的资源编译。我们编译和总结了该领域的丰富资源,包括数据集、开源实现和评估基准。此外,我们概述了各个领域相关大型模型的实际应用。该汇编可为未来的研究和开发工作提供有价值的参考。
2.2 预训练基础模型
预训练基础模型(PFM)是大规模预训练模型,能够适应解决各种下游任务。PFM的特征是具有涌现能力和同质化,以及在构建AI系统时整合方法。PFM的能力有三个关键维度:模态桥接、推理和规划以及交互。
模态桥接包括多模态模型,如视觉语言模型等MLLM,弥合图像和文本之间的差距。推理和规划能力包括LLM中的CoT、ToT和GoT,以及任务规划代理。交互能力包括行动和通信。时间序列和时空数据的PFM仍处于早期发展阶段,远未达到上述第二和第三个关键维度。
2.3 时间序列和时空数据时序数据是现实世界应用的基础数据,包括时间序列和时空数据。时间序列是按时间顺序排列的数据点序列,可以是单变量或多变量。在以下内容中,我们使用特定字母表示法:粗体大写字母表示矩阵,粗体小写字母表示向量,书法大写字母表示集合,标准小写字母表示标量。时间序列数据。单变量时间序列x = {x1, x2, · · · , xT } ∈ R T是按时间顺序索引的T个数据点的序列,其中xt ∈ R是时间序列在时间t的值。多变量时间序列X = {x1, x2, · · · , xT } ∈ R T ×D是按时间顺序索引的T个数据点的序列,但具有D个维度,其中xt ∈ R D(1 ≤ t ≤ T)表示时间序列在时间t沿D个通道的值。时空数据包含时空图、时序知识图谱、视频、点云流和轨迹等多种结构,由时间和空间维度组织的数据点序列组成。本综述主要关注前三类。时空图。时空图G = {G1, G2, · · · , GT }是以时间顺序索引的T个静态图快照的序列,其中Gt = (Vt, Et)表示时间t的快照;Vt和Et是时间t的节点和边集。相应的邻接矩阵和节点特征矩阵被定义为At ∈ R N×N和Xt ∈ R N×D,其中At = {a t ij},如果节点i和j之间存在边,则a t ij = 0,s.t. e t ij ∈ Et。这里,N = |Vt|是节点数,D是节点特征的维数。时序知识图谱。时序知识图谱G = {G1, G2, · · · , GT }是按时间顺序索引的T个静态知识图快照的序列,其中Gt = (Et, Rt)是由时间t处的实体和关系集组成的快照。具体来说,Et封装了主体和客体实体,而Rt表示它们之间的关系集。在时序知识图谱中,实体和关系可能具有不同的特征,由Xe t ∈ R|Et|×De和Xr t ∈ R |Rt|×Dr表示,其中De和Dr是特征维度。视频数据。视频数据也可以被解释为一种时空数据,通常被定义为按时间顺序索引的图像序列。设V = {F1, F2, …, FT }是一个按时间顺序索引的T帧组成的视频,其中Ft表示第t帧。为简单起见,我们假设每个帧Ft都是一个像素矩阵,即Ft ∈ R H×W×C,不考虑其他元数据,其中H、W和C分别是帧的高度、宽度和颜色通道。与每个数据类别相关的代表性任务,如图2所示。可以总结为:时间序列任务包括预测、分类、异常检测和插补。时空图任务包括预测、链接预测和节点/图分类。时序知识图谱任务包括完成和预测。视频任务包括检测、字幕、预测和查询。 图2 大模型(即语言和其他相关的基础模型)可以被训练或巧妙地重新用于处理时间序列和时空数据,以用于一系列通用任务和专用领域应用。3 时间序列数据的大模型
时间序列数据的大模型包括用于时间序列数据的LLM(LLM4TS)和用于时间序列数据的PFM(PFM4TS)。前者是指利用LLM解决时间序列任务,无论LLM在适应过程中是微调还是冻结。另一方面,后者侧重于开发明确针对各种时间序列任务的PFM。其中,PFM4TS领域较新,可能未完全发掘通用PFM的潜力,但为未来发展提供见解。每个细分领域再分为通用模型和特定领域模型,如图3所示。
图3 从方法论(即LLM与PFM)、动机(如一般目的与特定领域目的)和应用的角度对时间序列和时空数据的大型模型进行综合分类。3.1 时间序列中的大语言模型(LLM4TS)时间序列分析在零售销售预测、经济时间序列缺失数据的插补、工业维护的异常检测以及来自不同领域的时间序列的分类等应用中至关重要。随着NLP领域中LLM的快速增长,我们探索了利用这些模型进行时间序列分析的可能性,分别从通用和特定领域模型的角度讨论了LLM4TS。通用模型基于提示的时间序列预测-PromptCast是一项新任务,旨在基于提示进行时间序列预测,为时间序列预测提供了一种“无代码”解决方案。LLMTime表明LLM是有效的零样本时间序列学习者。为了应对缺乏大规模数据训练的挑战,提出了一种基于部分冻结LLM的统一框架。类似的工作是TEMPO,它仅专注于时间序列预测,但结合了其他细粒度设计,如时间序列分解和软提示。等等,最近,Time-LLM被提出用源数据模式和基于自然语言的提示来重新编程时间序列,以释放LLM作为有效时间序列机器的潜力。特定领域模型运输。时间序列预测在智能交通系统(ITS)中起着关键作用。AuxMobLCast流程利用LLM进行交通数据挖掘,将人类移动数据转换为自然语言句子,以便微调现有的LLM进行预测。金融。最近金融领域有几篇法学硕士论文报道了简单有效的指令调整方法,用于情感分析,并将分类情感分析数据集转化为生成任务,使LLM更有效应用其训练和推理能力。实验还使用了GPT-4进行零样本/少热点推理,Llama进行微调,生成可解释的预测,实现了合理性能。还有使用类似方法基于文本数据预测股票价格走势的文献。事件预测。事件预测是对具有不规则时间戳的异步时间序列数据进行建模的标准方法,例如金融、在线购物和社交网络等领域。时间点过程(TPPs)已成为对这些数据进行建模的标准方法。事件预测旨在根据过去预测未来事件的时间和类型。LLM在这种设置中可能很有用,因为它们擅长处理丰富的文本信息。医疗保健。医疗领域需要预测患者就诊和症状时间序列的临床模型,但现有模型因数据处理和开发复杂性而受限。GatorTron和NYUTron是临床LLM,改进了五个临床NLP任务,展示了在医学中使用临床LLM的潜力。LLM可通过少量即时调谐将数字时间序列数据接地,改进零样本推断和健康任务的监督基线。心电图是常用的医疗监测工具之一,可利用自动生成的临床报告来指导自监督预训练框架。3.2 时间序列中的预训练基础模型(PFM4TS)除了利用LLM进行时间序列分析外,时间序列预训练和相关基础模型的开发具有潜力,有助于识别跨领域和任务的一般时间序列模式。通用模型自2021年以来,提出了大量预训练的基础模型,其中大多数是通用的。Voice2Series是第一个能够重新编程用于时间序列任务的框架。基于对比学习技术出现了几个基于时间序列数据的预训练基础模型,包括TF-C、TS2Vec和CLUDA。CLUDA是一种基于对比学习的无监督时序域自适应模型,具有自定义对比学习和最近邻对比学习组件。此外,该领域还使用了许多其他技术,如STEP模型、MTSMAE、SimMTM和PatchTST。TSMixer是一种轻量级的MLP-Mixer模型,用于多元时间序列预测。特定领域模型PromptTPP是一种预训练事件序列基础模型,采用连续学习(CL)解决灾难性遗忘问题。它将基础模型与连续时间检索提示池集成,提示为小型可学习参数,与基础模型联合优化,确保按顺序学习事件流,无需缓冲或特定于任务的属性。4 时空数据的大型模型本节将研究跨三个主要数据类别(时空图、时间知识图和视频)的时空数据分析中大模型的进展,每个类别都具有广泛的现实世界应用。4.1 时空图(STG)STG是一种概念,表示个体进入一个星球,其元素在空间和时间上进行交互,形成深刻的时空组合。STG应用广泛,包括交通、空气质量、股票价格和人体骨骼分析等。STGNN是STG预测最流行的方法,利用GNN捕捉空间相关性,其他模型学习时间依赖性。LLM和PFM为STGNN提供文本数据支持,增强时空情境丰富性,融合多种形式数据,扩大时空理解深度和广度。这些模型可生成人类可解释解释,提高透明度和可靠性,简化训练和推理过程,提高计算效率。时空图的大语言模型相较于PFM,使用LLM增强STGNN学习能力的文献较少。一种方式是利用LLM学习节点之间的关系,如早期研究提出框架,通过ChatGPT提取网络结构,再集成到GNN中,提升股票预测性能。另一种方式是利用LLM的先验知识增强STGNN的下游应用,如LA-GCN中转化为先验全局和类别关系拓扑,定义节点之间的互连,强调关键节点信息。总之,LLM在提高STGNN的准确性、情境敏锐度和语义深度方面具有巨大潜力。时空图的预训练基础模型通用目的。对比学习在图像和文本领域广泛应用,在STG学习领域也取得显著效果。STGCL通过对比正负对,从复杂STG数据中提取丰富有意义的表示,促进交通预测和电力消耗预测等应用。SPGCL最大化正负邻居区分度,使用自定进度策略生成最优图,学习顶点间信息关系。气候。基于AI的气候预测模型利用深度学习分析大量气象数据,提取复杂模式。预训练策略提高模型泛化能力。FourCastNet实现高分辨率预测和快速推理。潘谷的多时间尺度模型组合方法展示更强的中期预测能力。ClimaX针对各种气候和天气任务进行微调。W-MAE整合自监督预训练方法,提取基本特征和一般知识。FengWu采用多模态和多任务方法,将不确定性损失纳入区域自适应优化中。运输。CPPBTR是一种基于transformer的群体流量预测框架,具有两阶段解码过程。TrafficBERT利用BERT激发的关键特征,采用双向transformer结构预测整体流量。TFM将交通模拟纳入交通预测领域,利用图形结构和动态图形生成算法捕捉交通系统中参与者之间的动态和相互作用。4.2 时序知识图谱知识图谱(KGs)和时态知识图谱(TKGs)是研究知识上复杂多关系设置的重要模型。KGs表示事实,通常从文本数据中提取,以三元组(s,p,o)的形式表示。TKGs通过扩展事实为具有时间戳的四元组(s,p,o,t),有效地捕捉事实之间的时间依赖性,有助于提高对实体行为的理解。4.3 视频视频是图像序列的数字表示,传统视频理解方法有2D CNN和3D CNN。最近,变换器用于建模时空依赖性。最新的LLMs和PFMs利用多模态特性,如CLIP和DALL-E,可联合处理视觉和文本模态,提高视频分析任务的泛化和鲁棒性。视频的大语言模型现有的视频理解模型仅针对特定任务,缺乏综合多种任务的能力。最新的研究表明,LLM的序列推理能力可以应用于各种视频处理任务,源于预先训练的自然语言处理LLM。一些研究文献关注使用LLM的视频问答(VQA)、多模态模型和多模式输入。LAVILA利用大型语言模型的能力来获取视频语言表示,克服了视频文本语料库规模有限的挑战。通过微调预先训练的LLM,LAVILA创建了自动化的视频叙述者,提供了全面覆盖、增强时间同步和多样性文本内容的好处。视频的预训练基础模型近年来,语言、视觉和多模态预训练方法融合,开创了各种面向视频的预训练策略。具体而言,OmniVL统一了图像语言和视频语言建模,PAXION整合了动作知识,mPLUG-2允许利用各种模块组合进行单模态和跨模态任务,mPLUGvideo基于mPLUG-2的概念设计。这些方法为视频处理带来了一系列视频或视频语言基础模型。5 资源和应用本节总结了与时间序列和时空数据相关的各种应用中常见的数据集、模型和工具,具体如表3。
表3 不同应用程序中的数据集资源摘要
5.1 交通应用交通流量预测已成为智能交通系统(ITS)发展的关键问题。时间序列和时空数据的利用有助于创建更准确和自适应的预测模型。数据集。多个交通数据集已成为基准,如METR-LA、PEMS-BAY、PEMS04、SUTD-TrafficQA、TaxiBJ、BikeNYC、TaxiNYC和SafeGraph的移动数据集。这些数据集提供了交通速度和流量的详尽见解,以及交通流量建模和预测的宝贵资源。LargeST是第一个大规模交通预测的交通数据集,包括五年内道路网络上的8,000多个传感器。工具。研究人员可以使用SUMO、TransWorldNG、SafeGraph Data for Academics和trafficBERT等工具进行交通模拟和分析。SUMO是开源的交通模拟器,TransWorldNG是GitHub上的复杂交通模拟工具。SafeGraph Data for Academics提供匿名数据访问。trafficBERT是针对不同道路条件的模型,利用多头自注意力机制捕捉时间序列信息。5.2 医疗保健应用医疗保健领域的时间序列预测面临挑战,但具有实际意义。预测模型在疾病进展、死亡率估计和时间依赖风险评估方面至关重要。本节概述了著名数据集和模型/工具,展示了其在推进医疗解决方案方面的巨大潜力。数据集。医疗保健领域有多个数据集,如PTBXL(18,885名患者,21,837份心电图)、纽约大学数据集(10年住院临床笔记)、UF Health临床语料库(900亿字)、i2b2-2012(时间关系注释)、MIMICIII(ICD-9代码、生命体征等)和CirCor DigiScope(最大儿科心音数据集)。模型检查点和工具包。模型检查点和工具包在医疗保健领域广泛应用。NYUTron处理实时结构化/非结构化笔记和电子订单,BioBERT优化生物医学数据集,ClinicalBERT适应临床领域,BlueBERT擅长生物医学NLP任务,Clairvoyance支持临床决策,ARL EEGModels和DeepEEG处理EEG信号。5.3 天气应用天气预报是日常决策和经济考虑的基础,涉及大气条件预测。本节介绍了用于天气动力学时间序列预测的主要数据集、模型和工具。数据集。SEVIR(风暴事件图像)包含10,000多个事件,整合了GOES-16和NEXRAD数据。Shifts作为不确定性估计,对真实世界分布偏差具有鲁棒性。NASA提供了AvePRE、SurTEMP、SurUPS数据集,阐明了12个气象参数的小时变化。WeatherBench作为中程天气预报的基准,CMIP6是国际联盟,专注于评估全球气候模型,ERA5是广泛的再分析数据库,提供1979年至2018年的颗粒大气数据。模型和工具。Pangu-Weather是快速、精确的全球预测模型;ClimaX基于Transformer架构,配备创新编码和聚合技术,可在CMIP6数据上预训练;GraphCast融合GNNs,在预测任务中表现出众。天气预报的时间序列评估得益于数据收集和建模的进步,未来有望提供更精细的工具和数据集。5.4 金融应用时间序列预测,特别是在金融领域,面临挑战。需要深入研究线性和非线性历史数据交互以进行未来预测。常见应用包括预测买卖信号和预测股票价格变动。数据集。金融(就业)收集了COVID-19期间美国100万活跃员工的就业数据,并考虑国家政策。StockNet研究了推文和历史股价对88只股票的影响。EDT面向企业事件检测和基于文本的股票预测,包含9721篇新闻文章,为基于文本的股票预测提供基准。NASDAQ-100包含NASDAQ-100的每日股票价格,使用yfinance包从雅虎财经检索。模型和工具。FinGPT是开源、扩展、专门为金融领域定制的语言模型,强调数据管理管道和轻量级低秩适应方法的价值。WeaverBird是金融领域的智能对话系统,具有知识库和搜索引擎,能理解复杂金融查询,提高可信度。在快速发展的金融领域,预测模型和工具的不断改进至关重要。随着数据量和模型复杂度的增加,金融行业将从更精确的预测和精细的决策中受益。5.5 视频应用视频问答(VideoQA)致力于使用给定视频中的内容回答自然语言问题。该模型应生成反映视频中描绘内容的精确答案。该领域还扩展到视频质量评估和视频预测。数据集。TGIF-QA提供165K个动画GIF的QA对,MSR-VTT有10,000个视频剪辑和字幕,WebVid有1000万视频剪辑和网络字幕,MSVD有12万个视频片段描述,DiDeMo有近27,000个事件时刻描述,COCO有328K图像用于对象检测、分割和字幕。模型和应用。对比语言图像预训练(CLIP)利用自然语言监督来训练图像表示,BLIP提供独特的引导方法处理VLP中的噪声网络数据,ViLBERT扩展BERT架构联合处理视觉和文本输入,VisualBERT通过Transformer将图像区域和语言结合起来,允许self-attention识别隐式的语言-视觉对齐。5.6 事件预测应用事件序列,也称为异步时间序列,在金融、购物和社交等领域至关重要。本小节将讨论用于事件预测任务的主要数据集、模型和工具。数据集。亚马逊和淘宝是两个包含用户产品评论行为的数据集,每个事件包含时间戳和类别。Retweet、StackOverflow和Taxi是另外三个事件序列数据集,分别包含用户转发、用户问题解答和用户出租车上车事件序列。模型和应用。Tick 是经典 TPP 统计学习的著名库,但存在局限性。为克服这些局限性,研究人员开发了神经 TPP,利用神经网络的表达能力学习复杂依赖关系。EasyTPP 是神经事件序列建模领域的首个开源研究资产中央存储库,提供流行神经 TPP 实现、丰富模块库、统一数据集界面和易于使用扩展的评估程序。5.7 其他除了前面提到的具体应用之外,时间序列预测、分类和异常检测也是电力、云计算、零售等领域的普遍应用领域。数据集。ETT(电力变压器温度)包含中国两个县的变压器两年温度数据;M4提供100,000个时间序列;Electricity【309】含近四年家庭电力消耗数据;阿里巴巴集群跟踪捕获24小时共置工作负载统计数据;TSSB(时间序列分割基准)拥有75个注释时间序列;UCR时间序列分类档案数据集从85个扩展到128个系列。通用工具和库。OpenSTL 是时空预测学习的基准,涵盖广泛方法和任务。BasicTS 是基于 PyTorch 的基准测试和工具箱,用于时间序列预测。Merlion 是开源机器学习库,支持单变量和多元模型。darts 是专为时间序列预测和异常检测设计的 Python 库。PyTorch Geometric Temporal 是 PyTorch Geometric 的动态扩展库,支持各种功能。6 展望在本节中,我们讨论了当前研究的潜在局限性,并强调了未来六大研究方向,旨在开发更强大、透明和可靠的大规模时序数据分析模型。6.1 大模型的理论分析大型语言模型(LLM)主要处理自然语言,但最近的研究将其扩展到时间序列和时空任务。LLM的学习表示可被微调以捕捉时序数据模式。然而,LLM作为“黑匣子”,其预测和决策背后的数据影响难以理解。需要进行更深入的理论分析,以了解语言和时序数据之间的潜在模式相似性,以及如何有效地将其用于特定的时间序列和时空任务。6.2 多模式模型的开发现实世界应用中的时间序列和时空数据通常带有文本描述等补充信息,这在经济学和金融等领域尤其有用。LLM可以适应学习联合表示,考虑时间数据的顺序性质和其他模态的独特特征,以及不同模态的时间分辨率差异,以充分利用来自不同时间分辨率的所有信息,获得更好的性能。6.3 持续学习和适应现实世界应用需要研究模型适应非平稳环境的能力,避免灾难性遗忘。虽然已有一些研究关注常见模型中的这些问题,但大型模型持续适应不断变化的时间数据,包括在线学习策略、适应概念漂移以及适应数据中不断演化的模式,仍未被充分探索。6.4 可解释性和可解释性理解LLM预测时间序列的原因至关重要,特别是在医疗和金融领域。目前对LLM内部理解有限,因此需要建立理论框架以理解LLM所学,并研究如何增强大型模型以执行时间推理和推断因果关系。这包括开发识别因果关系的方法,对于根本原因分析和干预计划等应用至关重要。6.5 大型模型的隐私和对抗性攻击时态数据敏感,LLM训练可能泄露隐私。研究隐私保护技术(如差分隐私和联邦学习),确保数据隐私,同时受益于LLM在时间序列和时空分析方面的强大功能。6.6 模型泛化和漏洞LLM在通用数据上预训练,并在特定任务上微调。微调数据中的对抗性或噪声示例可能导致模型存在漏洞。如果微调数据未经过仔细整理,模型可能继承偏见或漏洞,导致鲁棒性受损。此外,LLM在大量数据集上训练,但可能无法很好地推广到新数据。时间序列和时空数据可能突然变化或趋势,LLM在训练期间未遇到类似模式,可能会产生不可靠的输出,强调鲁棒泛化的需求。参考资料:《 Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook》