数仓架构师的核心能力

数仓架构师的能力模型是什么?业务方面,数仓架构师需要了解业务需求和场景,能够根据业务特点和目标设计合理的数据模型和指标体系,能够为业务提供有效的数据支持和解决方案。技术方面,数仓架构师需要掌握数据仓库的理论和方法,熟悉数据仓库的分层架构和建模原则,精通 SQL 语言和 ETL 工具,熟悉常用的数据库技术和大数据技术,能够进行数据质量管理和性能优化。

为助力数仓人才实践提升和职业发展,DataFun将于10月28日9:00-17:00举办DataFunSummit2023:现代数据栈技术峰会,设立数据仓库论坛,从建模、架构、分析、性能优化等角度,切合最新趋势分享一线实践经验,欢迎广大从业者参与交流。


论坛详情


嘉宾&议题

出品人:罗亮 腾讯 PCG 数据专家

个人介绍:毕业于浙江大学。在互联网大数据领域有13年工作经验,先后就职于阿里巴巴和腾讯,是最早阿里onedata体系参与者与建立者。曾负责阿里本地生活数据研发团队,蚂蚁大数据部数字金融线(花呗,借呗,理财,保险,芝麻信用等)数据团队,腾讯 PCG 数据治理团队,有多年业务数据、业务数据中台、数据中台治理等经验,目前为腾讯数据专家。

邱盛昌 OPPO 互联网服务系统主管

个人介绍:十三年数据行业工作经历,曾就职于多家大型互联网公司,一直深耕数据体系建设领域,尤其擅长DW架构与维度模型的设计。目前就职于OPPO,先后负责广告业务、应用分发业务(软件商店、游戏)的数据内容建设及数据分析。

🔥演讲题目:优雅的维度模型与多维分析设计实践

演讲提纲:一套抽象得极其通用、极致维度退化、指标口径统一的数据仓库模型;一张几百个字段、几千亿记录数、秒级出数据的报表,非常宽非常全非常多还非常快,这就是维度建模与多维分析设计的魅力。主要内容包括:

1. 维度模型设计的必要性

2. 极致分区表的数据仓库架构

3. 优雅的维度模型设计

4. 万能的多维分析模型与报表

听众收益:

1. 如何设计一个优雅的数据仓库架构?

2. 如何设计维度模型更通用更合理?

3. 如何建设多维分析体系以极大减少取数与报表需求?

李晨曦 炎凰数据 研发工程师

个人介绍:毕业于南京大学,专注于大数据处理分析系统的研发。目前致力于读时建模数据系统查询引擎的开发工作。

🔥演讲题目:使用Apache Arrow快速构建现代数据系统

演讲提纲:数据系统有着专用化的发展趋势,用于特定领域的新型数据系统层出不穷,能够快速、高效构建现代数据系统成为一个关键问题。本次演讲会介绍新一代列式内存格式Apache Arrow,并分享使用Apache Arrow构建读时建模数据系统的实践。

听众收益:

1.了解Apache Arrow作为通用列式内存标准的关键特性

2.了解Apache Arrow的生态系统和应用

2.了解Apache Arrow用于构建现代数据系统的实践

马年圣 蚂蚁集团 实时数仓架构师,数据技术专家

个人介绍:马年圣,毕业于河海大学,先后就职于网易、阿里、蚂蚁等互联网公司,当前工作重心在实时数据研发和架构,负责蚂蚁集团广告、决策等领域实时数据。

🔥演讲题目:金融级实时数仓建设实践

演讲提纲:实时数据在互联网公司中扮演的角色越来越重要,从最开始的实时数据大屏,发展到现在算法、工程级的应用数据,如何高效稳定的构建实时数仓来支撑业务的发展,是实时数据架构一直探索演进的命题,本次演讲将围绕如下几个模块来介绍本人在实时数仓领域的实践与思考。具体包括:

1. 蚂蚁实时数仓架构设计与落地

2. 实时数仓数据质量建设

3. 针对实时计算难题的多种解决方案(如关联类问题、长周期问题等)

4. 流批一体在实时数仓的应用

5. 数据湖落地展望

听众收益:

1. 实时数仓的架构和质量建设方案

2. 多种实时数据解决方案

3. 流批一体能力落地和实践案例

惠明 腾讯 在线视频数据科学部 Tech Leader

个人介绍:北京邮电大学硕士,先后在优酷,美团,腾讯有过10多年的数据仓库、治理和工具建设经验。

🔥演讲题目:腾讯视频指标中台驱动湖仓一体建设实践

演讲提纲:

1. 腾讯视频数据业务介绍

2. 腾讯视频指标中台整体架构

3. 腾讯视频湖仓一体建设实践

4. 总结&规划

听众收益:

1. 指标中台的技术架构

2. StarRocks在指标服务的应用

3. 湖仓一体的技术实践

孟德斌 字节跳动 数据专家

个人介绍:美团、腾讯、字节10年+数据仓库经验,5年+业务数据团队管理经验,目前在字节负责业务安全数据仓库建设。

🔥演讲题目:数据仓库工程的架构思维

演讲提纲:

1. 数仓的复杂度

2. 软件设计原则在数仓应用

3. 数仓加工元模型

听众收益:对数仓复杂度的来源有进一步的认知,提供一种新的思路用户数仓设计。

赵司臣 ClickHouse工程师

个人介绍:赵司臣,ClickHouse Data Plane Infrastructure组工程师。他当下专注于基础架构与ClickHouse Cloud研发。他的主要兴趣是分析型数据库,云服务系统和ML engineering的结合。此前,他是AWS资深工程师,帮助构建了AWS RDS,AWS Kendra服务。

🔥演讲题目:云上的实时数仓 - ClickHouse云原生新特性技术解析

演讲提纲:ClickHouse是用于实时应用和分析的最快和资源效率最高的数据库,是实时数仓领域的代表产品和行业领先技术栈。MergeTree表引擎系列中的表是ClickHouse快速数据处理能力的核心组件。我们将在这里详细介绍MergeTree家族的新成员SharedMergeTree,这是ClickHouse在云原生方向的重要里程碑也是ClickHouse在中国阿里云上落地的重磅商业特性。

冯成林 蚂蚁集团 高级数据方案专家

个人介绍:近十年蚂蚁安全领域的工作经历,主要从事面向智能风控的数据建模、架构及产品方案的工作。

🔥演讲题目:大宗产业风控领域的数据探索与实践

演讲提纲:基于大宗商品行业场景,从风控视角探索大数据的应用,重点介绍蚁盾安全科技服务大宗产业客户的落地实践。

听众收益:

1. 大宗商品行业风控的特点

2. 数字化在大宗传统产业的应用

3. 行业的非标性对数据应用的挑战

宋志毅 网易云音乐 资深数据开发工程师

个人介绍:北京邮电大学本科、硕士毕业,加入网易云音乐7年,负责数据仓库内容生态数据体系建设,服务于toC和toB场景,同时负责数据仓库数据治理工作。

🔥演讲题目:网易云音乐用户行为归因数据体系建设

演讲提纲:

1. 用户行为归因面临的问题,主要介绍归因的业务背景,上一阶段的做法和存在的问题

2. 归因数据体系建设当前的解决方案,主要包括埋点、模型、平台三个方面

3. 未来的规划

听众收益:

1. 归因分析主要从哪些方面来做?

2. 如何做数据建设支持复杂多样的归因分析?

3. 如何将归因的技术手段和业务知识结合?

4. 归因实现如何做到高效、统一?

扫码免费报名直播

关注我们,更多信息更新中......

相关推荐

  • AI基础软件:如何自主构建大+小模型?
  • 从零开始学VLAN划分,让你的网络性能翻倍!
  • LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
  • 目前最优的非蒸馏、可商用的开源大模型!MIT-IBM 提出鲑鱼模型!
  • 只需这个下毒小工具,让Stable Diffusion彻底崩溃!狗变猫,车变牛,AI侵权打响反击战
  • 能挣钱的,开源SpringBoot和Vue的企业级项目,代码很规范!
  • 公司 9 个人了。
  • 关于我博士毕业的这件小事:Waymo研究员2年半心路分享火了
  • CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器
  • RTX4090等高算力显卡禁售,跑训练是否有其他替代方案?
  • 京东投资人徐新错过的几位大佬
  • 【Python】pandas 如何实现 excel 中的汇总行?
  • 【学术相关】饶毅:北大老师的博士学位来自什么大学?
  • 【深度学习】既然英伟达A100/H100 太贵,为什么不用 4090?
  • 1024程序员节,有人收获24K黄金键盘帽,也有人收获一包BUG
  • 面试官让列举 Spring 的事务会失效的场景,我说了 8 个
  • AI新突破:提示词生成工具打造Agent,模拟人生
  • 背调电话打给了我撕破脸的前同事,新工作飞了
  • 使用Python分析瑞幸和星巴克全国门店分布关系
  • 一个不太好用的 IDEA 代码生成插件