智能化数据平台实践

现代数据栈是指组成云原生数据平台的一组技术,通常用于降低运行传统数据平台的复杂性,组件通常包括云数据仓库、数据集成服务、ELT 数据转换工具、BI 层和反向 ETL 工具。现代数据栈在海外方兴未艾,尤其是在美国,有很多创业公司和投资机构在这个领域布局。国内也有一些企业开始尝试使用现代数据栈,但还存在一些差距和挑战,比如云上数据安全合规、云成本控制、云上数据治理等。其应用挑战或门槛主要在于技术选型和集成的难度,以及应对数据分析的速度、质量和价值等方面的更高要求。在未来,现代数据栈将向着多模数据支持、模块化、协作优化、智能化等方向演进。为推动国内现代数据栈技术普及与发展,DataFun将于10月28日9:00-17:00举办DataFunSummit2023:现代数据栈技术峰会,设立海量数据采集与集成论坛、数据仓库论坛、数据治理与资产管理论坛、大规模数据查询与分析论坛、DataOps 论坛、BI 智能分析论坛,欢迎广大从业者参与交流。扫码免费报名观看

峰会议程



峰会论坛



峰会嘉宾

峰会专家团:郭炜 白鲸开源 CEO,Apache Member个人介绍:白鲸开源 CEO,Apache 基金会成员, Apache 孵化器导师,ClickHouse 华人社区创始人, Apache Dolphin Scheduler PMC, Apache SeaTunnel 导师。郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国计算协会开源发展委员会委员,TGO鲲鹏会北京分会会长。郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase等,是国内开源社区领军人物。李潇 Databricks 工程总监、Apache Spark Committer & PMC个人介绍:李潇,Databricks 工程总监、Apache Spark Committer 和 PMC 成员。他领导和管理七个团队,负责开发 Apache Spark、Databricks Runtime 和 DB SQL。他的主要兴趣是数据湖仓、数据复制和数据集成。此前,他是 IBM Master Inventor 荣誉的获得者,也是数据库异步复制和一致性验证方面的专家。他于 2011 年在佛罗里达大学获得博士学位。王宇飞 火山引擎 DataLeap 研发负责人个人介绍:曾任职于阿里巴巴,在大数据领域有10年的研发经验,包括大数据基础架构,数据平台产品等,目前专注于数据中台相关领域与商业化能力的探索与实践。阎志涛 快用云科 联合创始人个人介绍:毕业于北京大学,北京快用云科技术有限公司联合创始人。大数据独角兽企业 TalkingData 早期创始团队成员,历任研发副总裁、CTO 等职位。在 TalkingData 之前,在 IBM,Oracle 等国际知名企业担任资深架构师等资深技术职位。扫码免费报名观看


大规模数据查询与分析论坛

出品人:于帅 快手 资深大数据专家个人介绍:快手资深大数据专家,11年大数据研发管理经验。在快手依次负责公司上市项目、电商基建数据团队、电商C端数据团队的搭建与管理,在数据的采建管用等方面有丰富经验。路帅 快手 大数据应用技术负责人个人介绍:快手大数据应用技术负责人,拥有10年+的大数据平台及数据中台的研发经验,在快手带队负责构建了高效、稳定、安全的万亿级数据的数据中台服务,在数据驱动增长、埋点数据治理、高效数据分析方向有深厚的积累和经验。演讲题目:快手万亿级行为分析平台的演进演讲提纲:1. 快手用户行为分析的发展演进与挑战2. 快手用户行为分析架构设计详解3. 快手用户行为分析应用场景分析4. 快手用户行为分析未来规划听众收益:在万亿级数据下用户行为分析平台建设面临的挑战以及最佳实践,可以学习到如下内容:1. 用户行为分析的整体架构体系2. 用户行为分析的难点与解决方案3. 用户行为分析平台建设的实践经验车赛光 Alluxio 解决方案架构师个人介绍:车赛光,Alluxio解决方案架构师,具有大数据领域十多年研发和解决方案的丰富经验。对数据从采集、处理、分析全链路到整个数据平台建设都有深入洞见。加入Alluxio之前,曾在硅谷Conviva公司负责研发、管理、售前等诸多重要工作。演讲题目:Alluxio SDK 在 Presto/Trino 中的应用演讲大纲:1. 以Presto为例介绍OLAP数据缓存类型2. 以Alluxio SDK为基础的客户端缓存的工作原理3. 客户端缓存的使用收益听众收益:了解最新的Alluxio SDK为基础的客户端缓存原理和收益崔振凯 快手 分析平台 开发工程师个人介绍:快手分析平台开发工程师,在快手从事分析产品研发与性能优化工作,加入快手前从事数据服务化和大数据二次开发工作。在大数据和BI领域有较为丰富的开发和实践经验。演讲题目:快手大数据分析场景性能优化实践演讲提纲:本次分享介绍快手分析平台在大数据场景下查询性能面临的挑战与性能优化实践。听众收益:1. 了解快手分析平台的发展和架构2. 分析产品在大数据场景下查询性能遇到的困难与挑战3. 大数据分析性能优化实践经验周渝豪 小米 大数据软件开发工程师个人介绍:毕业于武汉科技大学,先后就职于深圳市同洲电子股份有限公司、武汉安天信息技术有限责任公司和小米科技(武汉)有限公司,此前主要负责基于 Hadoop 的大数据平台的开发和维护,主要是 Hive 和 Spark 相关的工作,目前在小米负责 OLAP 引擎 Trino 的开发和维护。演讲题目:OLAP 引擎 Trino 在小米的实践演讲提纲:主要介绍 OLAP 引擎 Trino 在小米的一些实践经验,Trino 在小米的发展历程,在整体架构上的定位,以及小米内部的一些主要工作,包括动态 Catalog 和 UDF 的加载、集群高可用性、Iceberg 数据湖查询性能优化、与 SparkSQL 兼容性问题的处理、集成测试的构建等等。听众收益:1. 如何让 Trino 变得更好用?2. 如何处理 Trino 和 SparkSQL 的语法不兼容?3. Trino on Iceberg 有哪些问题需要注意?申江伟 矩阵起源 研发工程师嘉宾信息:MatrixOne存储引擎开发工程师。曾从事分布式存储和存储引擎工作。曾任职安超云存储产品ArStor的资深开发工程师。目前负责MatrixOne Layout层的研发。演讲题目:MatrixOne 存储格式设计解读演讲提纲:MatrixOne 是一款新型超融合异构云原生数据库管理系统,通过全新设计研发的统一分布式数据库引擎,能够同时灵活支持 OLTP、OLAP、Streaming 等不同工作负载的数据管理和应用。此次演讲将探讨 MatrixOne 存储设计的初衷,数据结构解析,如何保证性能、数据兼容性的以及 MatrixOne 的应用场景。扫码免费报名观看


海量数据采集与集成论坛

出品人:乔超 火山引擎 DataSail 资深架构师个人介绍:10+大数据经验,任职于京东、阿里,多年百万亿级海量数据的数据采集和集成经验,目前致力于打造字节全域数据集成 DataSail 产品。林佳 顺丰科技 大数据平台研发高级工程师个人介绍:负责顺丰数据集成平台的设计与研发。演讲题目:建设企业统一的数据集成平台,实现数据传输可视,可控,可回溯演讲提纲:1. 数据集成平台介绍2. 平台整体架构介绍听众收益:了解顺丰数据集成平台。王小静 理想汽车 高级大数据工程师个人介绍:从事大数据领域开发10年,对大数据组件有深入的了解及落地经验,spark、flink-cdc的contributer。演讲题目:基于Flink on K8s的数据集成实践演讲提纲:1. 数据集成平台业务背景介绍2. 数据集成方案的探索与实践3. 规划与未来展望听众收益:1. 通过flink实现批流一体落地2. 如何实现flink on k8s的快速落地3. 数据集成产品的设计思路及实践扫码免费报名观看

数据仓库论坛

出品人:罗亮 腾讯 PCG 数据专家个人介绍:毕业于浙江大学。在互联网大数据领域有13年工作经验,先后就职于阿里巴巴和腾讯,是最早阿里onedata体系参与者与建立者。曾负责阿里本地生活数据研发团队,蚂蚁大数据部数字金融线(花呗,借呗,理财,保险,芝麻信用等)数据团队,腾讯 PCG 数据治理团队,有多年业务数据、业务数据中台、数据中台治理等经验,目前为腾讯数据专家。邱盛昌 OPPO 互联网服务系统主管个人介绍:十三年数据行业工作经历,曾就职于多家大型互联网公司,一直深耕数据体系建设领域,尤其擅长DW架构与维度模型的设计。目前就职于OPPO,先后负责广告业务、应用分发业务(软件商店、游戏)的数据内容建设及数据分析。演讲题目:优雅的维度模型与多维分析设计实践演讲提纲:一套抽象得极其通用、极致维度退化、指标口径统一的数据仓库模型;一张几百个字段、几千亿记录数、秒级出数据的报表,非常宽非常全非常多还非常快,这就是维度建模与多维分析设计的魅力。主要内容包括:1. 维度模型设计的必要性2. 极致分区表的数据仓库架构3. 优雅的维度模型设计4. 万能的多维分析模型与报表听众收益:1. 如何设计一个优雅的数据仓库架构?2. 如何设计维度模型更通用更合理?3. 如何建设多维分析体系以极大减少取数与报表需求?李晨曦 炎凰数据 研发工程师个人介绍:毕业于南京大学,专注于大数据处理分析系统的研发。目前致力于读时建模数据系统查询引擎的开发工作。演讲题目:使用Apache Arrow快速构建现代数据系统演讲提纲:数据系统有着专用化的发展趋势,用于特定领域的新型数据系统层出不穷,能够快速、高效构建现代数据系统成为一个关键问题。本次演讲会介绍新一代列式内存格式Apache Arrow,并分享使用Apache Arrow构建读时建模数据系统的实践。听众收益:1.了解Apache Arrow作为通用列式内存标准的关键特性2.了解Apache Arrow的生态系统和应用2.了解Apache Arrow用于构建现代数据系统的实践马年圣 蚂蚁集团 实时数仓架构师,数据技术专家个人介绍:马年圣,毕业于河海大学,先后就职于网易、阿里、蚂蚁等互联网公司,当前工作重心在实时数据研发和架构,负责蚂蚁集团广告、决策等领域实时数据。演讲题目:金融级实时数仓建设实践演讲提纲:实时数据在互联网公司中扮演的角色越来越重要,从最开始的实时数据大屏,发展到现在算法、工程级的应用数据,如何高效稳定的构建实时数仓来支撑业务的发展,是实时数据架构一直探索演进的命题,本次演讲将围绕如下几个模块来介绍本人在实时数仓领域的实践与思考。具体包括:1. 蚂蚁实时数仓架构设计与落地2. 实时数仓数据质量建设3. 针对实时计算难题的多种解决方案(如关联类问题、长周期问题等)4. 流批一体在实时数仓的应用5. 数据湖落地展望听众收益:1. 实时数仓的架构和质量建设方案2. 多种实时数据解决方案3. 流批一体能力落地和实践案例惠明 腾讯 在线视频数据科学部 Tech Leader个人介绍:北京邮电大学硕士,先后在优酷,美团,腾讯有过10多年的数据仓库、治理和工具建设经验。演讲题目:腾讯视频指标中台驱动湖仓一体建设实践演讲提纲:1. 腾讯视频数据业务介绍2. 腾讯视频指标中台整体架构3. 腾讯视频湖仓一体建设实践4. 总结&规划听众收益:1. 指标中台的技术架构2. StarRocks在指标服务的应用3. 湖仓一体的技术实践孟德斌 字节跳动 数据专家个人介绍:美团、腾讯、字节10年+数据仓库经验,5年+业务数据团队管理经验,目前在字节负责业务安全数据仓库建设。演讲题目:数据仓库工程的架构思维赵司臣 ClickHouse工程师个人介绍:赵司臣,ClickHouse Data Plane Infrastructure组工程师。他当下专注于基础架构与ClickHouse Cloud研发。他的主要兴趣是分析型数据库,云服务系统和ML engineering的结合。此前,他是AWS资深工程师,帮助构建了AWS RDS,AWS Kendra服务。演讲题目:云上的实时数仓 - ClickHouse云原生新特性技术解析演讲提纲:ClickHouse是用于实时应用和分析的最快和资源效率最高的数据库,是实时数仓领域的代表产品和行业领先技术栈。MergeTree表引擎系列中的表是ClickHouse快速数据处理能力的核心组件。我们将在这里详细介绍MergeTree家族的新成员SharedMergeTree,这是ClickHouse在云原生方向的重要里程碑也是ClickHouse在中国阿里云上落地的重磅商业特性。扫码免费报名观看

数据治理与资产管理论坛

出品人:刘超 滴滴出行 专家工程师个人介绍:刘超,硕士毕业于南京信息工程大学,一直从事数据领域相关工作。2018年加入滴滴。目前负责滴滴大数据治理的相关工作。通过持续地推动技术&产品能力建设,对滴滴大数据的数据引擎(hadoop、es、flink、olap等)&数据产品,进行全域治理。近期的工作重心为成本治理、安全治理两个方向。王义忠 滴滴出行 资深软件开发工程师个人介绍:四川大学计算机硕士毕业,先后加入百度、阿里、华为、滴滴等互联网公司,从事大数据相关工作,有丰富的大数据处理、大数据治理等经验。演讲题目:滴滴大数据资产治理实践演讲提纲:主要分享滴滴内部如何做数据资产治理,主要内容包括:1. 滴滴数据资产治理体系介绍2. Hadoop治理实践:治理项设计及推荐3. Es治理实践听众收益:1. 针对Hadoop存储及计算治理如何设计治理项?2. 滴滴内部如何做Es治理?3. Hadoop健康分模型如何设计?扫码免费报名观看

DataOps论坛

出品人:马欢 DAMA数据管理社区 主理人,全球数据要素50人论坛专家个人介绍:《DAMA数据管理知识体系》《首席数据官管理手册》《DataOps实践手册》等数据领域畅销书的主译者,数据管理专家,CDMP。谭晟中 联通数字科技有限公司 数据智能事业部总监个人介绍:1998年本科毕业于北京理工大学,2005年获得复旦大学工程硕士学位,2019年10月加入联通数字科技有限公司数据智能事业部(原联通大数据有限公司),任职专业总监,主要负责联通数一体化数据资产管理平台产品研发、对外交付和数据治理实施。具备20年以上政府、大型国企、外资企业的信息系统、数据中心、大数据项目规划、数据治理项目实施工作经验,10年以上微软、联想等世界500强企业工作经历,服务过包括国家税务总局、索尼(中国)、联想集团、国家统计局、上海世博会、上汽集团、国泰君安、海通证券、中体彩等大型客户。聚焦于大数据及数据治理相关行业,具备多年政企、智慧城市、金融、企业等行业数据治理项目平台交付与实施经验,在多个省部级政府项目和大型企业项目中负责数据湖仓规划、数据治理、数据开发与服务等工作,交付省部地市各级政务类大数据平台及数据治理项目50余个,对企业级数据仓库规划与治理有着深刻理解。擅长DCMM评估、DAMA管理体系、数据治理规划、大数据平台数据治理、研发与交付等方面的咨询及实施。演讲题目:DataOps在联通数科的实践 构建数据研发治理运营一体化能力演讲提纲:1. DataOps实践的困难与挑战2. DataOps体系建设思考3. 构建一体化协同机制4. 总结与展望听众收益:1. DataOps在实践中经验总结2. 如何合理构建数据研发治理运营一体化能力3. DataOps的新机遇与新挑战秦旸 深擎科技 数据架构师个人介绍:历任平安/百姓网/Talkingdata架构师/TL,目前在深擎负责SaaS技术团队及数据平台的建设。敬畏达尔文文化,相信跨界的力量。演讲题目:深擎科技资讯业务数据流编排实践演讲提纲:1. 深擎资讯数据服务体系简介2. 基于 Dolphinscheduler 的业务编排方案3. 复杂业务场景举例听众收益:1. 了解针对券商的资讯数据服务体系2. Dolphinscheduler 上如何增加业务算子编排能力?3. 了解复杂业务场景下业务算子编排如何提效数据开发?扫码免费报名观看

BI智能分析论坛

出品人:赵灵宝 京东零售 数据工具产品负责人个人介绍:目前专注于负责智能化数据工具产品方向,曾就职于百度、埃森哲、友邦,从事过互联网、金融、能源、生产制造、零售等多个行业IT规划、数据仓库、商业智能建设。黄聪飞 京东 数据产品架构师个人介绍:京东数据产品架构师,曾主导京东零售内部一体化数据分析平台及指标体系的建设,目前是ABI数据产品及大模型数据应用产品的负责人,在指标体系设计、数据产品建设及数字化运营方面有着丰富的实践经验。演讲题目:BI智能分析产品演化及大模型实践探索演讲提纲:1. BI数据产品的演化之路2. 精细化数据分析与数据产品困境3. 突破困境:ABI数据产品的应对策略4. 大模型崛起:数据分析的新篇章5. 大模型数据应用实践听众收益:1. 探索数据产品的可能性和价值2. 分享如何应对复杂业务口径与海量个性化分析3. 探讨大模型在数据分析中的应用,如何让GPT“懂业务”黎宁 现代财险 大数据部负责人个人介绍:现任现代财险大数据部负责人,高级工商管理硕士,毕业于北京大学光华管理学院。20年以上金融保险行业工作经验,在企业数字化转型战略规划、数字化智能风控、大数据征信、风控反欺诈、数据挖掘建模、风险预警与舆情监测等领域具有丰富经验。曾任阳光保险\阳光信保任大数据部高级总监、摩尔龙集团高级副总裁兼CTO、Accenture大中华区咨询经理,中科院空间中心数据分析师等。扫码免费报名观看

往期推荐


九章云极DataCanvas多模态大模型平台的实践和思考

PPT 下载|数据产品经理峰会

开源数据库 MatrixOne 的 HTAP 分布式架构演进

信息流场景下的AIGC实践

电信网络运营事件知识图谱构建

Abase2: NoSQL数据库中的CRDT支持实践

国产开源湖仓LakeSoul--数据智能的未来方向

数据湖与实时数仓应用实践

网易大数据智能运维平台 EasyEagle

点击关注,更多信息更新中

相关推荐

  • 复旦大学联合华为诺亚提出VidRD框架,实现迭代式的高质量视频生成
  • 获1000万美元捐款,用于代码重构、上云,论文预印版平台arXiv「好起来了」
  • 专访MIT贾皓钧&段辰儒博士:AI4S时代的化学材料发现——「AI炼金术」
  • 在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了
  • OpenAI终于Open一回:DALL-E 3论文公布、上线ChatGPT,作者一半是华人
  • 清华版「AutoGPT」登GitHub热榜!复杂任务轻松搞定,还能自己训练模型
  • 提示工程夭折?MIT斯坦福让大模型主动提问,自己搞明白你想要什么
  • arXiv可算有钱搞服务器了:新获1000万美元捐款,正在线火热招人
  • 清华系百亿估值大模型公司自曝:年内已融资25亿!
  • DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”
  • 没绷住,vivo提前“泄密”大模型能力
  • 分了 100 万。
  • 还原现场前端录制用户行为技术方案
  • 大厂为啥都要用Node去写中间层(BFF)呢?
  • 2023年轻型创业项目,旅游卡代理,别人旅游,你拿佣金
  • 美国芯片禁令升级,游戏显卡RTX4090全网下架
  • 使用 Hampel 进行离群点检测
  • LLM推理技术之StreamingLLM:如何拥有无限长生成能力
  • 爆了!金融界也开始卷 AI 了...
  • 没有数据搞不成 ChatGPT,六大技术专家教你如何用好数据!