大数据、数据架构、推荐冷启动...小红书的 AI 数据新方案都在这个会


伴随着行业数据持续积累,人工智能正加速渗透各类场景,大数据、数据架构和推荐系统等领域,依然是各行各业目之所聚。4 月 19  至 20 日,「DataFunCon 2024 · 上海站」来袭!大会以“数聚垂域,智领未来”为主题,将在上海龙之梦大酒店举行。


小红书技术副总裁风笛出任大会专家团,携手上海市数据科学重点实验室,以及阿里巴巴、百度、京东等多家行业领军代表,共同策划 60 余场精彩议题,深入探讨“ 大数据 + AI ”在各个行业中的落地应用。


小红书存储和数据库团队负责人刘备(毛琦),担任「数智 · 大数据系统论坛」工业出品人,与来自抖音、清华大学、复旦大学、哈尔滨工业大学等多位数据智能技术专家,畅聊大数据系统探索的最新实践。


  • 实时湖仓如何保证数据质量的同时,实现低延迟数据处理?

  • 在缺乏用户历史数据情况下,推荐系统如何有效地为新内容找到目标受众?

  • 如何提升图数据库的多跳查询性能,满足在线业务的实时性要求?

这类问题不仅推动着技术创新探索,也激发了我们对技术落地的无限想象力。


4 月 19 日起,小红书技术团队将接连贡献三个精彩议题,解答上述问题。小红书数据引擎湖仓架构团队负责人庞博社区推荐算法专家巴斯、分布式数据库架构师再兴将在峰会现场带来实时湖仓架构在小红书的探索与实践高时效推荐实践 - 从系统提效到内容冷启动小红书图数据库在分布式并行查询上的探索》的主题分享。


分享日程



实时湖仓架构在小红书的探索与实践


4 月 19 日 17:20-18:05「新一代数据架构论坛」

庞博(孙超) |   小红书数据引擎湖仓架构负责人


在数据驱动时代,实时湖仓架构正成为企业快速响应市场变化、提升决策效率的关键。庞博拥有丰富的数据平台架构设计与优化经验,在本次分享他将带领我们深入探讨:小红书如何结合线上业务场景和需求,通过 OLAP 和数据湖技术的深度融合,实现架构的优化升级。


庞博将详细阐述小红书湖仓架构的演进历程,并围绕“产出更快”“查询更快”这两个核心需求,分享小红书实时湖仓架构的创新策略和成果。通过一系列实际案例分析,他将展示如何运用近实时入湖、StarRocks、Iceberg 等前沿技术,有效降低数据处理成本,提升查询性能和效率。


高时效推荐系统实践 - 从系统提效到内容冷启动


4 月 19 日 17:20-18:05「推荐系统论坛」

巴斯(陈祈烨) |   小红书社区推荐算法专家


小红书如何打造一个分钟级的高时效推荐系统,快速满足用户的个性化需求?内容冷启动作为推荐系统的核心环节,对于新内容的传播和用户参与度的提升至关重要。本次分享,巴斯将深入剖析高时效推荐系统的构建过程和内容冷启动的关键策略。


巴斯在视频推荐、内容冷启动及社交推荐等领域拥有多年实战经验。他将分享小红书去中心化高时效分发系统的实践和挑战,从推荐时效性提升开始,延伸至内容冷启动的多项探索和技术实践。通过实际案例分析,巴斯将揭示如何利用创新算法和策略,解决新内容在缺乏历史数据和用户反馈情况下的推荐难题。


小红书图数据库在分布式并行查询上的探索


4 月 20 日 16:35-17:20 「数智 · 大数据系统论坛」

再兴(李凝瑞) |   小红书分布式数据库架构师 


图数据库作为数据库领域的重要分支,虽然经过数十年发展并涌现出众多产品,但在互联网公司的在线业务应用中,其查询能力的使用却往往局限于两跳以内。这主要是因为传统数据库在三跳及以上的查询时延过长,无法满足在线业务对实时性的高要求。


小红书数据库团队通过分析原查询模式上的弊端,并提出优化点,将分布式并行查询的思想应用于图数据库,显著提升多跳查询的响应时间。再兴,作为 Apache 社区开源项目 HugeGraph 的核心创始人、小红书图数据库产品 REDgraph 核心成员,将在本次分享中详细介绍这一技术探索。


在本次分享中,再兴将从图数据的基本概念讲起,深入探讨多跳查询在业务中的应用和面临的性能挑战。他将阐述团队如何识别并优化原查询模式,以及为什么选择分布式并行查询作为突破口。通过介绍基于 MPP 理念的技术实践,包括架构改造、查询计划改写、起点 ID 去重等优化措施,再兴将揭示这些创新如何实现查询性能的显著提升。




限时赠票


想想要亲临上海峰会现场,一览数据智能的探索实践?

我们将免费送出门票一张


转发推送至朋友圈,后台回复「DataFun」,即可参与抽奖。

我们将抽取 1 位幸运的小伙伴

获得 DataFunCon 2024·上海站门票(不含餐)。

抽奖截止时间:4 月 18 日  12:00



温馨提示:

中奖者请在 6 个小时内留意消息,添加小助手微信【微信号:REDtech01】,凭中奖信息和转发截图领取电子门票。


往期精彩内容指路 


释放数据湖潜力:小红书如何实现数仓效率与成本的双重优化

小红书离线数仓提效新思路,提升百倍回刷性能

小红书可观测 Metrics 架构演进,如何实现数十倍性能提升?


添加小助手,了解更多内容

微信号 / REDtech01



相关推荐

  • Spring Boot集成easypoi快速入门Demo
  • 人人都该知道的12个赚钱底层思维;裸辞一年,自媒体收益百万丨生财有术
  • 通过JS获取你当前的网络状况?建议大家学一学~
  • 国内行情差,来看看国外
  • 我们真的需要把训练集的损失降到零吗?
  • 从启发式到模型化 京东推荐广告排序机制演化
  • 全平台GUI库, 物联网,嵌入式,单片机,桌面应用都行
  • 6.2K Star很精美,一个跨平台的聊天软件
  • 数据科学中10个常用的高级SQL查询方法
  • 当我们执行 npm run serve 时到底发生了什么?
  • 也看Graph CoT–大模型与知识图谱结合工作:兼看多模态大模型进展综述
  • 智猩猩AI智能体技术研讨会最终议程公布!6位学者和开发大牛现场解读AI智能体内涵
  • 神级代码注释,喜欢的拿去用
  • AI大模型,这个就叫专业!
  • 一笔漂亮的退出:回报5个亿
  • 如何促进你的职业发展?个人专著《工作的心智》,今日开始预售
  • 腾讯云披露 4 月 8 日服务故障原因;北京技术人员月平均薪酬中位值超1.2万元 | 极客头条
  • 硅谷 CEO 立「千万赌约」,邀马斯克应战:“我用 1000 万美元,赌你的 AI 预测是错的!”
  • 做代码搜索真的太难了!
  • 四年磨一剑,腾讯云亮出业内首款全自研AIGC存储解决方案