大规模数据分析避坑指南-实战篇

随着数据查询量的增长,数据库将面临时效性、吞吐量、分库分表、数据一致性、统一引擎、稳定性等方面的难题,为此需要采用合适的存储、缓存、OLAP引擎以及整体架构,来实现大规模的分析。

为推动新时代DataOps的发展,DataFun将于10月28日9:00-17:00举办DataFunSummit2023:现代数据栈技术峰会,设立大规模数据查询与分析论坛,邀请来自快手、Alluxio、小米、矩阵起源的专家,切合最新趋势分享一线实践经验,欢迎广大从业者参与交流。


论坛详情


嘉宾&议题

出品人:于帅 快手 资深大数据专家

个人介绍:快手资深大数据专家,11年大数据研发管理经验。在快手依次负责公司上市项目、电商基建数据团队、电商C端数据团队的搭建与管理,在数据的采建管用等方面有丰富经验。

路帅 快手 大数据应用技术负责人

个人介绍:快手大数据应用技术负责人,拥有10年+的大数据平台及数据中台的研发经验,在快手带队负责构建了高效、稳定、安全的万亿级数据的数据中台服务,在数据驱动增长、埋点数据治理、高效数据分析方向有深厚的积累和经验。

🔥演讲题目:快手万亿级行为分析平台的演进

演讲提纲:

1. 快手用户行为分析的发展演进与挑战

2. 快手用户行为分析架构设计详解

3. 快手用户行为分析应用场景分析

4. 快手用户行为分析未来规划

🎁听众收益:

在万亿级数据下用户行为分析平台建设面临的挑战以及最佳实践,可以学习到如下内容:

1. 用户行为分析的整体架构体系

2. 用户行为分析的难点与解决方案

3. 用户行为分析平台建设的实践经验

车赛光 Alluxio 解决方案架构师

个人介绍:车赛光,Alluxio解决方案架构师,具有大数据领域十多年研发和解决方案的丰富经验。对数据从采集、处理、分析全链路到整个数据平台建设都有深入洞见。加入Alluxio之前,曾在硅谷Conviva公司负责研发、管理、售前等诸多重要工作。

🎁演讲题目:Alluxio SDK 在 Presto/Trino 中的应用

演讲大纲:

1. 以Presto为例介绍OLAP数据缓存类型

2. 以Alluxio SDK为基础的客户端缓存的工作原理

3. 客户端缓存的使用收益

🎁听众收益:了解最新的Alluxio SDK为基础的客户端缓存原理和收益

崔振凯 快手 分析平台 开发工程师

个人介绍:快手分析平台开发工程师,在快手从事分析产品研发与性能优化工作,加入快手前从事数据服务化和大数据二次开发工作。在大数据和BI领域有较为丰富的开发和实践经验。

🔥演讲题目:快手大数据分析场景性能优化实践

演讲提纲:本次分享介绍快手分析平台在大数据场景下查询性能面临的挑战与性能优化实践。

🎁听众收益:

1. 了解快手分析平台的发展和架构

2. 分析产品在大数据场景下查询性能遇到的困难与挑战

3. 大数据分析性能优化实践经验

周渝豪 小米 大数据软件开发工程师

个人介绍:毕业于武汉科技大学,先后就职于深圳市同洲电子股份有限公司、武汉安天信息技术有限责任公司和小米科技(武汉)有限公司,此前主要负责基于 Hadoop 的大数据平台的开发和维护,主要是 Hive 和 Spark 相关的工作,目前在小米负责 OLAP 引擎 Trino 的开发和维护。

🔥演讲题目:OLAP 引擎 Trino 在小米的实践

演讲提纲:主要介绍 OLAP 引擎 Trino 在小米的一些实践经验,Trino 在小米的发展历程,在整体架构上的定位,以及小米内部的一些主要工作,包括动态 Catalog 和 UDF 的加载、集群高可用性、Iceberg 数据湖查询性能优化、与 SparkSQL 兼容性问题的处理、集成测试的构建等等。

🎁听众收益:

1. 如何让 Trino 变得更好用?

2. 如何处理 Trino 和 SparkSQL 的语法不兼容?

3. Trino on Iceberg 有哪些问题需要注意?

申江伟 矩阵起源 研发工程师

嘉宾信息:MatrixOne存储引擎开发工程师。曾从事分布式存储和存储引擎工作。曾任职安超云存储产品ArStor的资深开发工程师。目前负责MatrixOne Layout层的研发。

🔥演讲题目:MatrixOne 存储格式设计解读

演讲提纲:MatrixOne 是一款新型超融合异构云原生数据库管理系统,通过全新设计研发的统一分布式数据库引擎,能够同时灵活支持 OLTP、OLAP、Streaming 等不同工作负载的数据管理和应用。此次演讲将探讨 MatrixOne 存储设计的初衷,数据结构解析,如何保证性能、数据兼容性的以及 MatrixOne 的应用场景。

扫码免费观看直播

相关推荐

  • 探索大模型技术在自智网络方向的应用前景(推荐收藏)
  • 与创新者同行,Doris Summit Asia 2023 线下技术峰会圆满落幕!
  • 苹果“套娃”式扩散模型,训练步数减少七成!
  • 北大数学课,启用AI助教
  • 老黄苏妈齐聚现场!芯片巨头围观首款AI PC,联想造
  • 当AI有了审美灵魂,作画已经真假难辨了!划重点:免费
  • 全球最强CPU一夜易主,130亿参数大模型被塞进PC,没网也能生成邮件周报PPT
  • 清华&通院让AI智能体成功识破谎言!ReCon框架玩转「阿瓦隆」,三思后行+换位思考
  • LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命
  • Bengio、Hinton、张亚勤等AI大佬再发联名信!AI太危险,我们需要重新定位
  • 突发!英伟达H800/A800禁令竟提前生效,但4090意外豁免
  • 实测商汤医疗健康大模型「大医」:紧贴实际场景,可塑性超强,还能自定义提示工程!
  • DISC-FinLLM:复旦大学团队发布中文智慧金融系统,采用多专家微调框架
  • 开源版「ChatGPT Plus」来了,能做数据分析、插件调用、自动上网,落地真实世界的智能体
  • 低成本快速入局大模型,你需要学下向量数据库
  • 手机能跑百亿参数大模型,骁龙8Gen3来了,自研PC架构上线
  • LeCun又双叒唱衰自回归LLM:GPT-4的推理能力非常有限,有两篇论文为证
  • 大语言模型Fine-tuning踩坑经验之谈
  • OceanGPT:面向海洋科学的大型语言模型初探
  • 年终盘点!2023年顶会论文合集(含CVPR、ECCV、NIPS、AAAI、ACL、KDD、ICML等)