GraphScope 是阿里巴巴达摩院智能计算实验室研发并开源的一站式图计算平台。GraphScope 提供了 Python 客户端,能十分方便的对接上下游工作流,具有一站式、开发便捷、性能极致等特点。它整合了智能计算实验室多个重要的创新性技术,包括 GRAPE,MaxGraph,Graph-Learn,分别支持图分析、图的交互式查询和图学习任务,引擎间使用 Vineyard 存储,提供跨进程,零拷贝的内存数据共享服务。其中核心优势包括在业界首次支持了 Gremlin 分布式编译优化,支持了算法的自动并行化、提供了企业级场景下的极致性能等。在阿里巴巴内外部应用中,GraphScope 已经证明在多个关键互联网领域(如风控,电商推荐,广告,网络安全,知识图谱等)实现了重要的业务新价值。
我们提供了一个基于 JupyterLab 的 Playground,可以从浏览器中在线试用 GraphScope。
https://try.graphscope.app/
GraphScope 支持本地运行,或在 Kubernetes (k8s) 管理的集群上运行。为了快速上手,我们先从本地部署的方式开始。
使用 pip 安装 GraphScope。
pip3 install graphscope
注意 graphscope 的版本要求,需要 Python >= 3.7
及 pip >= 19.0
GraphScope 包在大多数流行的 Linux 发行版 (Ubuntu 20.04+ / Centos 7+) 与 macOS 12+ (Intel/Apple silicon) 上测试通过,对于 Windows 用户,需要在 WSL2 上安装 Ubuntu 来使用 GraphScope。
ogbn-mag
是由微软学术关系图(Microsoft Academic Graph)的子集组成的异构图网络。该图中包含 4 种类型的实体(即论文、作者、机构和研究领域),以及连接两个实体的四种类型的有向关系边。
我们需要处理的任务是,给出异构的 ogbn-mag
数据,在该图上预测每篇论文的类别。这是一个节点分类任务,该任务可以归类在各个领域、各个方向或研究小组的论文,通过对论文属性和引用图上的结构信息对论文进行分类。在该数据中,每个论文节点包含了一个从论文标题、摘要抽取的 128 维 word2vec 向量作为表征,该表征是经过预训练提前获取的;而结构信息是在以下过程中即时计算的。
GraphScope 以属性图(property graph)建模图数据。属性图中,点和边都有一个标签(label),不同的标签有不同的属性(property)。以 ogbn-mag
为例,下图展示了属性图的模型。
该图具有四种顶点,分别标记为“论文”、“作者”、“机构”和“研究领域”。有四种连接它们的边, 每种边都有一个标签,并且边的两端顶点的标签也是确定的。例如,“引用”这种标签的边连接两个“论文”顶点。另一个例子是标记为“撰写”的边, 它要求该起始点的标记为“作者”,终止点的标记为“论文”。所有的顶点和边都可以具有属性。例如,“论文”顶点具有诸如发布年份、主题标签等属性。
执行如下命令载图,GraphScope 会自动下载数据:
import graphscope
from graphscope.dataset import load_ogbn_mag
g = load_ogbn_mag()
更多内容:https://github.com/alibaba/GraphScope