清华朱文武团队:开源世界首个轻量图自动机器学习库AutoGL-light

机器之心专栏

机器之心编辑部


清华大学朱文武教授团队自 2020 年发布智图库(AutoGL)以来,在图自动机器学习的可解释性和可泛化能力等方面取得新进展,特别关注于图 Transformer、图分布外泛化(OOD)、图自监督学习等方面,发表图神经架构搜索评测基准,并在中国新一代开源创新服务平台 GitLink 上发布首个轻量智图库(AutoGL-light)。


智图库回顾


图(graph)是描述数据间关系的一般抽象,广泛存在于不同的研究领域中并有许多重要应用,例如社交网络分析、推荐系统、交通预测等互联网应用,新药物发现、新材料制备等科学应用(AI for Science),覆盖诸多不同领域。图机器学习在近年来取得了广泛关注。由于不同图数据在结构、性质和任务上千差万别,现有人工设计的图机器学习模型缺乏对不同场景与环境变化的泛化能力。图自动机器学习(AutoML on Graphs)是图机器学习发展的前沿,旨在针对给定的数据和任务,自动化地设计最优的图机器学习模型,在研究与应用上都有着极大的价值。


针对图自动机器学习问题,清华大学朱文武教授团队从 2017 年开始布局,并在 2020 年发布了智图库(AutoGL)—— 世界首个针对图自动机器学习的平台和工具包。


项目地址:https://github.com/THUMNLab/AutoGL


智图库已在 GitHub 获得了超千个星标,吸引了超过 20 个国家和地区数万次访问,并在 GitLink 上进行了发布。智图库包括一套完整的图自动机器学习流程,涵盖了主流的图自动机器学习方法。智图库通过图自动机器学习解决方案 AutoGL Solver,将图上的自动机器学习拆分为五个核心部分:图自动特征工程、图神经架构搜索(NAS)、图超参数优化(HPO)、图模型训练,以及图模型自动集成。智图库已经支持节点分类、异构图节点分类、链接预测、图分类等多种类型的图任务。 


图自动机器学习研究新进展


针对目前图自动机器学习缺乏可解释性和可泛化能力等问题,智图团队在图自动机器学习研究取得了一系列新进展。


1. 图分布外泛化(OOD)架构搜索


针对图神经架构搜索无法处理图数据分布变化问题,提出了基于解耦自监督学习的图神经架构搜索方法,通过为每个图样本定制合适的图神经网络架构,有效增强了图神经架构搜索方法处理数据分布偏移的适应能力。该工作已发表于机器学习顶级国际会议 ICML 2022。



论文地址:https://proceedings.mlr.press/v162/qin22b/qin22b.pdf


2.大规模图架构搜索


针对现有图神经架构搜索无法处理大规模图问题,提出了基于架构 - 子图联合采样机制的超网络训练方法,通过重要性采样和同辈学习(peer learning)算法,突破了采样过程中的一致性瓶颈,极大程度提升了图神经架构搜索的效率,首次实现了单机可处理亿规模真实图数据。该工作已发表于机器学习顶级国际会议 ICML 2022。



论文地址:https://proceedings.mlr.press/v162/guan22d.html


3. 图神经架构搜索评测基准


针对图神经架构搜索缺乏统一的评测标准,以及评测过程消耗的计算资源量巨大问题,智图团队研究并提出了图神经架构搜索基准 NAS-Bench-Graph,首个针对图神经架构搜索的表格式基准。该基准可以高效、公平、可复现地比较不同图神经架构搜索方法,填补了针对图数据架构搜索没有基准的空白。NAS-Bench-Graph 设计了一个包含 26,206 种不同图神经网络架构的搜索空间,采用了 9 个常用的不同大小、不同类型的节点分类图数据,并提供了已经完全训练好的模型效果,可以在保证可复现性与公平比较的同时,极大地减少计算资源。该工作已发表于机器学习顶级国际会议 NeurIPS 2022。


项目地址:https://github.com/THUMNLab/NAS-Bench-Graph


4. 自动图 Transformer


针对目前人工设计的图 Transformer 架构难以取得最佳预测性能问题,提出了自动图 Transformer 架构搜索框架,通过统一的图 Transformer 搜索空间与结构感知的性能评估策略,解决了设计最佳图 Transformer 耗时长,难以得到最优架构的难题,该工作发表于机器学习顶级国际会议 ICLR 2023。



论文地址:https://openreview.net/pdf?id=GcM7qfl5zY


5. 鲁棒图神经架构搜索


针对目前图神经架构搜索无法处理对抗攻击问题,提出了鲁棒图神经架构搜索方法,通过在搜索空间中增加鲁棒性图算子并在搜索过程中提出了鲁棒性评价指标,增强了图神经架构搜索抵御对抗攻击的能力。该工作已发表于模式识别顶级国际会议 CVPR 2023。


论文地址:https://openaccess.thecvf.com/content/CVPR2023/papers/Xie_Adversarially_Robust_Neural_Architecture_Search_for_Graph_Neural_Networks_CVPR_2023_paper.pdf


6. 自监督图神经架构搜索


现有图神经架构搜索严重依赖于标签作为训练和搜索架构的指标,限制了图自动机器学习在标签匮乏场景的应用。针对该问题,智图团队提出了自监督图神经架构搜索方法,发现了驱动图数据形成的图因子与最优神经架构之间潜在的关系,采用了一种新颖的解耦自监督图神经架构搜索模型,实现了有效在无标签图数据上搜索最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。



7. 多任务图神经架构搜索


针对现有图神经架构搜索无法考虑不同任务对架构需求的差异性问题,智图团队提出了首个多任务图神经网络架构搜索方法,通过同时为不同图任务设计最优架构并采用课程学习捕捉不同任务之间的协作关系,有效实现了不同图任务定制最优架构。该工作已被机器学习顶级会议 NeurIPS 2023 接收。


轻量智图库


基于上述研究进展,智图团队在 CCF 指定开源平台 GitLink 发布了轻量智图(AutoGL-light),世界首个轻量图自动机器学习开源库。其整体架构图如图 1 所示。轻量智图主要具有以下特点:


图 1. 轻量智图框架图


项目地址:https://gitlink.org.cn/THUMNLab/AutoGL-light


1. 模块解耦


轻量智图通过更全面的模块解耦方式,实现了对不同图自动机器学习流水线更便捷的支持,允许在机器学习流程的任何步骤中自由加入模块,满足用户定制化需求。


2. 自主定制能力


轻量智图库支持用户自主定制化图超参数优化(HPO)和图神经架构搜索(NAS)。在图超参数优化模块中,轻量智图提供了多种超参数优化算法和搜索空间,并支持用户通过继承基类来创建自己的搜索空间。在图神经架构搜索模块中,轻量智图实现了典型和最先进的搜索算法,且用户能够根据自己的需求自主轻松组合和定制搜索空间、搜索策略和评估策略的模块设计。


3. 广泛的应用领域


轻量智图的应用不仅仅局限于传统的图机器学习任务,而是进一步扩展到了更广泛的应用领域。目前,轻量智图已经支持了分子图、单细胞组学数据等 AI for Science 应用。在未来,轻量智图希望可以为不同领域图数据提供最先进的图自动机器学习解决方案。


4. GitLink 编程夏令营


以轻量智图为契机,智图团队深度参与了 GitLink 编程夏令营(GLCC),其是在 CCF 中国计算机学会指导下,由 CCF 开源发展委员会(CCF ODC)举办的面向全国高校学生的暑期编程活动。智图团队的两个项目 “GraphNAS 算法复现” 和 “图自动学习科学领域应用案例” 吸引了国内十余所高校的本科生和研究生报名。


夏令营举办过程中,智图团队与参与同学积极沟通,工作进展程度超出预期。其中,GraphNAS 算法复现项目在轻量智图中成功实现了上述介绍的图分布外泛化架构搜索(ICML’22)、大规模图架构搜索(ICML’22)、自动图 Transformer (ICLR’23),有效验证了轻量智图库的灵活性与自主定制能力。
图自动机器学习科学领域应用项目则在轻量智图实现了基于图的生物信息处理算法,包括用于单细胞 RNA 测序分析的代表性算法 scGNN、用于分子表征学习的代表性算法 MolCLR,以及用于分子结构预测的代表性算法 AutoGNNUQ,推动了图自动机器学习技术在 AI for Science 的应用。在 GitLink 编程夏令营中,轻量智图既丰富了算法和应用案例,也使参与的同学锻炼了开源软件开发等技能,在图自动机器学习方面培养人才,并为助力我国开源生态建设的发展贡献了自己的力量。
智图团队来自清华大学计算机系朱文武教授领导的网络与媒体实验室,核心成员包括助理教授王鑫、博士后张子威、博士生李昊阳、秦一鉴、张泽阳,硕士生关超宇等十余人。项目得到了国家自然科学基金委和科技部的大力支持。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

相关推荐

  • UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源
  • 解决大模型复现难、协作难, 这支95后学生团队打造了一个国产AI开源社区
  • ChatGPT与DALL·E 3之间的行业「黑话」被人发现了
  • 一行代码提高大模型10%性能,开发者:免费午餐
  • 让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%
  • 陶哲轩疯狂安利Copilot:它帮我完成了一页纸证明,甚至能猜出我后面的过程
  • 百岁数学巨匠陨落!丘成桐视他为师,90岁依旧研究数学
  • CPU&GPU天梯图(2023年最新版)
  • 【学术相关】中国科学院院士谈避坑:这10种导师千万不要选!
  • 有哪些值得计算机专业学生加入的国企?
  • 上月做私活比主业赚得多...
  • 直接放大推荐模型可行吗?存在什么问题?
  • 知名巨头宣布:做四休三!
  • "雪糕刺客”真的不行了?“钟薛高”裁员欠薪的背后......
  • 你喝过青岛啤酒吗?
  • 再看RAG在真实金融文档问答场景的实践方案:SMP2023 金融大模型挑战赛的两种代表实现思路
  • Google DeepMind 宣布基于 LLM 的机器人控制器 RT-2
  • 重点裁技术和管理!领英重创核心工程团队,技术管理占据 20%
  • 空间小程序: Web 开发者的下一个增长曲线?
  • 是时候彻底放弃“高分低能”的 Leetcode了:AI 时代的面试需要大变革!