大数据的里子

从源头把控数据质量,通过数据监控让复杂的架构变得透明,结合业务需求,梳理业务指标,减少重复开发,推动企业的数字化转型,在整个生命周期内都保持对数据的管控,兼顾安全合规问题,将经验逐渐自动化,在大模型时代更要将自动化提速。以上这些都是大数据领域的“脏活累活”,但又必不可少,数据治理成就了大数据的大、快、稳,也成了大数据的里子。2023年11月24-25日,DataFunCon2023·深圳站邀你参与,探讨数据治理发展趋势。

论坛详情


嘉宾和议题

邓琴丰 YY直播 数据产品负责人个人介绍:目前负责YY直播数据产品的总体规划,带领团队落地包括数据开发管理、数据治理、数据分析、数据服务、用户画像及运营分析等数据平台及应用产品;有10年+的大数据分析及产品经历。演讲题目:YY直播业务指标治理实践演讲提纲:烟囱式的需求开发沉积大量数据模型及数据报表;而业务指标管理存在技术口径和业务口径混用,同名不义及同义不同名等问题;通过业务指标的体系化梳理及构建,引入指标生命周期管理机制,清理融合存量数据模型及报表;最终面对业务用户,构建以指标目录为入口的自助购物式的数据获取及分析体验,提纲如下:1. 存在的问题及原因分析2. 业务指标体系化构建3. 业务指标管理驱动数据治理4. 自助购物式的指标分析听众收益:1. 如何梳理并构建业务指标体系?2. 如何利用指标管理驱动数据治理?3. 指标管理产品构建及运营的实战经验扫码咨询报名
韩钰 腾讯 大数据平台部 数据上报系统负责人个人介绍:硕士毕业于中国科学院计算机网络信息中心,曾先后就职于百度、滴滴、腾讯等公司,目前在腾讯数据中台负责数据上报系统,深耕数据上报质量和效率,实现PCG的全业务覆盖。演讲题目:数据采集治理演讲提纲:1、引子1)数据采集的深广准决定了指标应用的能力上限,指标治理需要从采集源头开始2)数据采集其实就做一件事:将真实的客观世界数字化并记录下来3)做好数据采集的终极目标是 质量 和 效率2、质量1)数据质量问题60%~80%发生在采集阶段,在指标应用阶段才发现质量问题会让人气馁,排查也很低效2)新一代数据质量审查工具,让人们对数据质量的认知从 合规检查 提升到 合理分析3)质量审查能让人一眼看穿数据质量,让指标使用方可以放心大胆的使用采集数据4)智能判定则可让机器自动发现问题,基于灰度主流对比、主流日期环比等一系列相关性对比思路5)行为诊断可用来帮助诊断一些数据采集的疑难杂症,通过可视化单个用户的全部行为轨迹6)补充其他质量工具,总结实践经验3、效率1)效率瓶颈很多时候并不在开发上,而在对需求的梳理、沟通、反复修改、录入、验收,以及后续长久的维护上2)定义终端数据采集模型,在 事件 的基础上增加 页面 和 元素,标准化采集口径,约定大于灵活3)实现 在线文档 与 需求面板 的同步,既利用了在线文档的便捷,又能在需求面板中完成Diff对比、测试验收等操作4)利用采集SDK帮助提升开发效率,用一套API 引导开发者按采集模型来埋点,可选的用自动和半自动采集来减轻开发负担,搭配一套高效的测试诊断工具5)建立退出机制,基于ROI(血缘热度/成本)的生命周期管理4、展望1)质量 和 效率 我们在路上听众收益:1、了解新一代数据质量审查工具,让人快速看清数据质量,让机器自动发现问题2、了解如何才能把数据采集的效率做好扫码咨询报名
林天权 蚂蚁集团 高级数据技术专家个人介绍:林天权(花名:画龙),现任蚂蚁集团高级数据技术专家,有10多年大数据研发、架构升级和数据治理经验,14年开始加入蚂蚁,深度参与蚂蚁大数据的发展和升级演进,曾作为实时数据负责人主导蚂蚁双十一媒体实时大屏、蚂蚁全域实时采集链路和蚂蚁实时数据研发平台研发,以及PB级adhoc查询加速服务和大安全一键数据服务化平台研发与升级,现任蚂蚁安全大数据技术团队数据架构及治理负责人,推进技术创新,打造EB级AutoFinOps核心能力,升级蚂蚁新一代数据架构,用数据创造价值。演讲题目:蚂蚁新一代数字智能化治理平台 AutoFinOps 实践与探索演讲提纲:科技驱动一直是蚂蚁的核心发展理念,也是蚂蚁安身立命之本。蚂蚁过去的发展,源于能够始终抓住技术变革机遇,用技术创造价值。蚂蚁集团在面对EB级数据规模、错综复杂的业务以及数字时代新型安全风险挑战,数据治理除了传统的运动式治理、元数据驱动治理、一站式治理平台、自上而下的治理规范制度约束等解决方案外,也在不断尝试技术创新和架构升级等手段破局和提效,提供更加高效、便捷、丝滑的自动化、智能化解决方案,本次分享带你深入了解蚂蚁如何通过治理数字智能化快速实现“无感降本”,特别是智能归因、AutoFinOps、错峰计算等技术应用和实践,期待你的聆听,也期待与你一起交流。具体内容包括:1. 数据治理的困难与挑战2. 数据治理的顶层设计和架构3. 数据治理自动化和智能化的最佳实践4. 思考总结与未来展望听众收益:1. 了解蚂蚁数据治理的设计思路2. 深度解读蚂蚁“无感降本”技术如何高效实现3. 探讨数据治理领域未来趋势扫码咨询报名
冯赞锋 快手 大数据架构师个人介绍:先后就职于百度、创新工厂-豌豆荚、快手三家公司,主要擅长大数据中台构建、数据治理,在搜索、爬虫、后端服务开发等方向也有一定积累,目前在快手主要负责数据治理架构设计和开发工作。演讲题目:快手数据成本白盒化治理实践演讲提纲:1.1 背景介绍● 数据治理介绍:快手数据治理整体介绍● 本次分享核心:通过引擎与数仓白盒化拆解,提升治理深度,实现降本增效1.2 收益评估方法○ 压缩率○ 存储数据量○ 资源消耗(CPU核*天)○ 作业运行时长○ 作业失败率1.3 引擎白盒化● HBO● JVM升级● 压缩算法替换● 计算过程拆解1.4 数仓白盒化● 基于 Similar SubExpression 的公共模型构建和优化● 数仓自动化治理实践1.5 个人思考● 严谨:事前收益测算 -> 事中灰逐步度验证,解决异常CASE -> 事后整体效果评估● 深入:对引擎、工具、数仓均有深入理解● 行动:躬身入局,模糊各个团队的边界1.6 未来规划● 压缩效率持续提升● 实时计算Flink白盒化● 数仓架构优化听众收益:1、深入到大数据存储计算引擎和数据仓库,对其进行白盒化拆解,在治理思路、治理经验等方面有不少可借鉴之处2、讲述快手实践,如何成功降低千万级存储和计算成本扫码咨询报名
许璐 平安产险 数据智能 大数据工程师个人介绍:15年加入平安,目前负责平安产险大数据基础平台研发管理优化等工作。演讲题目:数字化转型下的大数据平台治理扫码咨询报名
张森森 平安集团 科技会数据管理 高级经理个人介绍:电子科技大学硕士毕业,曾服务于中通服,TeraData 等知名公司。现就职于平安集团科技会安保中心数据管理部门,任技术平台组负责人(高级经理),曾负责引领集团数据中台的规划、建设,现负责集团数据技术管理运营工作以及集团数据管理平台的建设。演讲题目:模型赋能下的数据安全合规管理演讲提纲:1. 数据合规管理的架构2. 合规知识库的构建3. 借助大模型进行智能合规监测4. 实现全生命周期的数据合规监测 - DCMM评估模型,评判数据能力成熟度 - PIA评估个人信息收集利用合规性5. 构建数据合规化指标体系,实时监测风险听众收益:1. 学习使用大模型构建智能化数据合规知识库2. 了解如何利用大模型进行数据合规能力评估3. 获取利用大模型提升数据合规水平的行业经验扫码咨询报名
左银康 国信证券 数据治理负责人个人介绍:本科毕业于华中科技大学,先后在大型股份制商业银行、四大央企和国信证券从事数据治理工作。在商业银行总行开展数据治理,推动全行的数据标准制定、客户数据质量检核、元数据的管理和平台工具建设,在四大央企之一开展集团主数据建设,进行集团组织、员工、物料主数据的规划、实施和推广,目前在国信证券开展数据治理工作,负责公司数据治理组织、制度、流程、工具的规划、设计和实施落地。演讲题目:基于需求驱动的数据治理场景化实践演讲提纲:在大数据时代,数据治理已经成为了企业数字化转型的必经之路。然而传统的数据治理和数据资产管理工作往往偏向中后台,如何将数据资产管理与业务、开发结合,将数据治理由管控走向服务,更好地体现数据资产的成果和价值,是目前行业数据治理共同面临的痛点和挑战。为此,本次分享从需求管理的思路出发,面向监管报送、资产管理、经营分析等实际的业务场景以及模型开发、测试和生产环境一致性保障等开发场景,剖析痛点和需求,设计方案,实现数据治理的场景化落地。听众收益:1. 数据治理缺乏业务配合,如何驱动业务和开发的积极性?2. 数据治理流于形式,如何嵌入日常的研发节点?3. 数据治理涉及领域众多,如何融合打通?
扫码咨询报名

往期优质文章推荐

往期推荐


抖音云原生向量数据库从“非主流”到“新常态”的演变

火山引擎VeCDP:如何0-1构建与应用标签体系

纵腾湖仓全链路落地实践

知乎的缓存加速:Presto的进化实战(长文解读)

AI基础软件:如何自主构建大+小模型?

阿里巴巴数据模型设计与构建实践

B站数据质量保障体系建设与实践

更多最新详情,点击阅读原文,查看大会官网!

相关推荐

  • 今天有什么搞笑|上海万圣节cos众生相,更适合中国宝宝体质
  • ​理想L9高速一死三伤,官方针对疑点首次正面回应
  • 8张3090,1天压缩万亿参数大模型!3.2TB骤降至160GB,压缩率高达20倍
  • GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会
  • 吴恩达加入图灵三巨头混战,炮轰Sam Altman:AI监管「不会管不如不管」,LeCun转赞
  • 微软论文一张截图,曝出GPT-3.5仅有200亿参数?AI圈巨震,网友大呼太离谱!
  • 全球首款3nm芯片塞进电脑,苹果M3炸翻全场!128GB巨量内存,大模型单机可跑,性能最高飙升80%
  • 用童话训练AI模型,微软找到了探索生成模型参数的新切入点
  • 图模型也要大?清华朱文武团队有这样一些观点
  • 苹果M3系列登场,性能翻倍,M1、M2已成时代眼泪
  • 万万没想到,ChatGPT参数只有200亿?
  • 独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
  • 比亚迪今年的薪资。
  • 用代码聊聊我们跟目前主流前端编程不一样的地方
  • 2024年,扩散模型方向还能发顶会吗?
  • 详解 Spring Cloud 版本问题
  • “吾日三省吾身!”,LLMs: what?
  • 分享俩个大模型挂经,xAI & 英伟达
  • 【深度学习】MagicNet | CVPR2022 | 医学图像的3D mixer
  • 可以提取图像文本的 5 大 Python 库