本文聚焦于将生成技术整合到时空数据挖掘中,考虑到时空数据的显著增长和多样性。随着 RNN、CNN 和其他非生成技术的进步,研究人员已经探索了它们在捕捉时空数据中的时间和空间依赖关系方面的应用。然而,生成技术如大规模语言模型(LLMs)、扩散模型(Diffusion)、自监督学习(SSL)、序列到序列(Seq2Seq)模型和扩散模型的出现,为进一步增强时空数据挖掘开辟了新的可能性。
本文对基于生成技术的时空方法进行了全面分析,并引入了一个专门为时空数据挖掘流程设计的标准框架。通过提供详尽的综述和利用生成技术的时空方法的新分类,本文加深了对这一领域中各种技术的理解。
论文标题:
A Survey of Generative Techniques for Spatial-Temporal Data Mining论文链接:https://arxiv.org/abs/2405.09592论文作者:Qianru Zhang(张倩茹), Haixin Wang(汪海昕), Cheng Long(龙程), Liangcai Su(苏良才), Xingwei He(贺星伟), Jianlong Chang(常建龙), Tailin Wu(吴泰霖), Hongzhi Yin(尹洪志), Siu-Ming Yiu(姚兆明), Qi Tian(田奇), Christian S. Jensen作者单位:香港大学、北京大学、南洋理工大学、清华大学、西湖大学、昆士兰大学、华为云、奥尔堡大学时空数据结合了空间和时间的元素,可以揭示跨越时空现象的见解,广泛应用于环境监测、交通分析、流行病学、社会科学和城市规划等领域。这些数据通过地理坐标和时间戳表示,便于分析模式、趋势和关系。时空数据可以分为事件数据、轨迹数据、点数据和栅格数据四类。
1. 事件数据:事件数据指的是在特定位置和时间发生的具体事件,例如犯罪数据或投票数据。这些数据通常使用欧几里得坐标系表示,但在道路网络中的事件(如事故),事件之间的距离则由沿路段的最短路径决定。事件数据还可以包括附加变量,如犯罪类型或投票的政党。
2. 轨迹数据:轨迹数据记录了物体随时间移动的空间路径,例如飞行数据和出租车数据。轨迹数据通常通过在移动物体上安装传感器来收集,这些传感器在不同时间间隔记录 GPS 位置。时间间隔越小,轨迹的精度越高。
▲ 事件数据和轨迹数据示意图
3. 点数据:点数据是指从一组移动参考点收集的数据,例如气象气球在大气中收集的数据或传感器测量水体表面温度的数据。每个气象站代表一个特定的位置,定期记录温度读数。点数据可以用于重建任意位置和时间的时空场。
▲ 不同时间步点数据示意图
4. 栅格数据:栅格数据中的参考点是静态的,可以在空间上规则或不规则地分布。栅格数据的观测值在固定时间间隔记录,常见的类型包括卫星图像,每个像素对应栅格网格中的一个单元,包含光谱特征信息;数字高程模型(DEM),表示海拔或地形;气候变量,表示温度、降水和风速;以及土地覆盖或土地使用信息,每个单元表示特定位置的土地覆盖类型,如森林、城市区域、水体或农业用地。
1. 大语言模型(LLMs):大规模语言模型(LLMs)在自然语言处理和计算机视觉领域表现出色。例如,ST-LLM 模型通过将时间步骤作为 token 处理,从全局视角建模时空依赖关系,显著提升了交通流量预测的准确性。
2. 自监督学习(SSL):自监督学习(SSL)通过未标记数据中的替代任务来学习有用的表示。例如,TrajRCL 模型利用对比学习技术,显著提升了轨迹数据的表示学习效果。
3. 扩散模型(Diffusion Models):扩散模型利用正向和逆向过程,模拟时空数据的生成过程。例如,DiffSTG 模型将时空图神经网络与不确定性量化特性相结合,提高了预测的准确性和可靠性。
4. 序列到序列模型(Seq2Seq):序列到序列模型(Seq2Seq)广泛应用于处理序列数据的任务,如机器翻译和文本摘要。基于 Seq2Seq 的时空数据挖掘方法,如 Trafformer,通过自注意力机制,显著提高了交通流量预测的精度。
▲ 框架示意图
图中展示了利用生成技术进行时空数据挖掘的一般流程。该流程涉及处理从各种位置传感器收集的原始时空数据,包括事件数据、轨迹数据、点参考数据和栅格数据。
首先,创建数据实例来存储时空数据,这些实例可以是点、时间序列、空间地图、轨迹或时空栅格。为了在不同的挖掘任务中应用生成技术,时空数据实例需要转换为特定的数据格式,具体取决于所选择的数据表示方式。这些时空数据实例可以表示为序列数据、矩阵、张量或图。
最后,选择合适的生成技术来处理各种时空数据挖掘任务,如预测、分类和表示学习等。这些模型利用生成技术的独特能力,从时空数据中提取有价值的见解,并解决复杂的时空数据挖掘挑战。
生成技术在时空挖掘任务中的应用
我们展示了一种全面的分类法,将现有研究基于生成技术分为四大类:大规模语言模型(LLMs)、自监督学习(SSL)、扩散模型(Diffusion)和序列到序列模型(Seq2Seq)。每类技术提供了独特的方法来解决时空分析中的挑战。
在每一类中,具体研究针对不同的时空任务,采用特定的生成技术进行研究。这一分类法为理解和组织时空分析领域的多样研究提供了有价值的框架,促进了知识传播和领域的进一步发展。相关研究的应用任务大致可分为时空表示学习、时空预测和时空推荐,如表所示。每个领域都有众多研究专注于发展专门的方法和技术,以应对各自的挑战和需求。通过探索这些领域中的研究广度和深度,研究人员可以深入了解用于解决各种时空分析任务的多样化方法和创新技术,从而推动整个领域的发展。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧