1024 程序员节|100 秒里的小红书技术这一年

今年的 1024,是小红书技术团队走过的第十个程序员节。


小红书社区已不只是一群志趣相投的用户组成的小社区,这里有着温暖而广阔的人间烟火。



今年小红书日活用户已突破 1 亿。用户数量增长迅速,为社区带来了多元化的内容生态,承载这样一份责任并不简单。


今年的 1024 程序员日是星期二,小红书的技术同学们每周提交代码最多的时间恰好也是周二下午 2 点。


过去一年里,技术团队用一行行代码实现了许许多多需求,为快速成长中的小红书社区添砖加瓦。


小红书的程序员们这一年,在忙这些...


01
Inspire Lives,让小红书更懂每个人


在小红书,有许多普通人帮助普通人的故事在发生,每个用户发表的笔记都能被看到。这就意味着小红书的技术同学需要做出业界里非常规的解决方案:更注重分发的普惠性,而不仅仅追求效率。


面对 10 亿量级的图文、视频笔记,传统人工定义的层次化标签,无法完整刻画图文和视频内容。


多模态在小红书最大的优势就是小红书中海量的多模态内容数据,这些数据中就隐含了一些天然的标注信息,基于这些天然的标注,技术同学就可以在没有人工标注的情况下,进行大规模的多模态学习,为下游的各种任务和模型提供多模态的语义表征。


有了大规模多模态表征与检索系统,小红书就能够更好地理解用户发送的内容。


在小红书搜索:「1024 是什么日子?」时,就能看到关于1024程序员节的各种笔记。简单的搜索操作背后,既需要理解海量笔记,也需要给大量相关的笔记排序,选择出那些最匹配的内容推到台前,被用户看到。


简单来说,多模态让小红书能够更好地理解内容。在理解之上,才能判断什么是「好」内容,在需要的时候交给用户。而推荐或搜索的本质,即是如此:信息分发和信息匹配。


两年前,小红书的推荐系统中最重要的召回、粗排、精排模块的时效性还停留在天级。


过去,常常会有这样的情况发生:有用户点赞了一篇笔记,如果该笔记内容不是用户过去有过的兴趣,新兴趣无法被推荐系统快速学习到,用户可能喜欢的相关笔记也就无法及时地被看到。


为了解决这些问题,就要尽早地让推荐系统理解内容的赛道、质量、可能感兴趣的用户是谁。小红书团队进行了高时效项目,排序模型首先经历了从天级别到小时级,进一步到分钟级的升级,后续在召回模块也达到了分钟级更新的能力。


无论是用户探索到的新兴趣,还是一条刚刚发布的笔记,现在都能在片刻之间出现在笔记信息流中。


当然,为了防止掉入信息茧房,小红书也有不少遗忘策略,平衡用户的长短期兴趣。看到自己喜欢的东西,也看到更大的斑斓世界。


增长迅速的小红书社区里,原创的好内容在增长,也不可避免地吸引了黑灰产的注意。为了让用户看到更多好内容,小红书技术团队专门开展了虚假种草项目,用系统化的方式打击刷量行为。2022 年至今,累计清理作弊点赞行为 31 亿次,展示了平台尊重好内容的决心。


有了这些努力,小红书确实比以往更懂你。


02
业务在成长,技术在奔跑


小红书是一家从诞生之日起,所有技术体系全部搭建在「云」上的公司,称得上是「云上的原住民」。


小红书自建的 Redis 从 Day 1 就实现了容器化部署,极大地降低了集群运维的成本,目前已经达到了数十万级 Pod 规模、上百 TB 的数据量。


作为一家高速发展的公司面临的数据存储,加工和分析使用的挑战也非常大。目前小红书已经开启了从单云架构到多云架构的转型,可以根据不同云厂商特点部署不一样的技术。


随着业务规模扩大,Kafka 传统存储模型显露出了很多缺点。技术同学对 Kafka 进行了云原生改造,达到了降低成本、弹性调度、CPU 能效提升等目标。


目前小红书 APP 内搜索用户渗透率已步入行业第二,这离不开小红书在机器学习领域的多年耕耘。


小红书里的文本、图像、视频素材及搜索、推荐、广告等场景都需要机器学习的支持。小红书技术对于机器学习的需求度增长迅速,技术同学将分散在各处的离线机器学习资源全部迁移到上海,合成一个区并和在线混部,提升了资源使用效率和易用性,降低了 1 亿+成本。


机器学习平台架构也完成了升级,引入了全新的异构架构,支持 CPU 和 GPU 的灵活搭配,大幅提升性能。完成了大模型训推架构从 0 到 1 的搭建,特征迭代效率从一周提升到了一天。


「学习能力」提升的同时,搜广推分发引擎项目也完成上线。搜索、推荐、广告三种业务形态从本质上都属于内容分发系统:基于用户和上下文,从大量的候选池中,经过多轮的筛选,返回少数结果过程。


Lucky 搜推广架构升级项目针对在线数据检索和业务策略迭代,提供高效率、高性能、高可用的分发架构底座,让业务同学能够专注在检索功能和算法策略研发上。


视频业务和短视频播放规模不断增长,小红书技术同学也在研究如何在保证提升用户体验质量,降低视频带宽成本。应运而生的 REDplayer 是小红书团队首个开源项目,让小红书视频体验上了一个大台阶。技术团队还专门研发了一款基于 AI 的无参考视频质量评估算法 RedVQA,它能够最大程度地模拟人眼视觉感知一致的质量评估,保证视频压缩之后仍能保留原有的观看体验。


业务体量扩大时,原本不起眼的小花销也可能会变成「吞金兽」。


为了平衡业务发展与成本,过去的一年里技术团队开展了技术成本洞察和优化项目。现在,小红书团队有了专门的 OneCloud 资源洞察平台,可以快速查看各团队在从计算、存储、CDN 等各方向的资源用量,对成本最高的环节开展针对性的优化。


业务快速增长时,小红书的技术团队也在快速奔跑。


03
Something New


视频中提到的「达芬奇」和「此刻」,刚刚开始在小红书 APP 中开始内测,都是小红书在 AI 领域的新尝试。


「达芬奇」是小红书基于大语言模型开发的智能助手,其定位是成长中的生活艺术家。在聊天的过程中,达芬奇会贴心地读懂用户的好问题,也许问题很复杂,但是达芬奇会提供基于小红书社区众多笔记总结归纳后的个性化、高效且准确的详细答案。


「此刻」是一个帮助用户快速生成图片的小工具,用户可以专注在分享文字笔记上,由「此刻」为用户生成配图。


小红书技术团队探索了不少新事物,有许多惊喜的发现也乐意与业界共享。这一年里,技术团队写下了近百篇技术分享文章,发表了十余篇学术论文,与全世界分享自己的新发现。在刚刚过去的国际计算机视觉大会 ICCV 2023 中,一篇来自小红书技术团队的论文评定为 Oral 论文(接收率1.88%)。


这一年,用户看见的与看不见的项目,还有许许多多,无法一一列举。


用户评价小红书的「好用」,不只是「大项目」带来的,更是无数提升体验的细小迭代带来的。


在小红书,每一行代码都不同凡响。


祝所有的技术同学,1024 程序员节,节日快乐!










互动区

在评论区留下「喜欢小红书的原因」

我们将抽取留言排在前 20 位的同学

送出「小红书 1024 程序员节马克杯」一个!

评论截止时间:2023 年 10 月 31 日 12:00



相关推荐

  • 30.4K Star开源项目:探索二进制世界的强大十六进制编辑器
  • 思路打开,换个方式解决算力和数据问题
  • Python网页开发神器fac新版本来了
  • 闹大了!淘宝这是什么操作?!
  • 清华新研究解密信息茧房!全新信息动力学理论,登Nature子刊
  • 美国码农疯狂求职,狂投250份简历!揭秘潜规则:网申填完就战胜92%对手
  • 爆火AutoGPT获1200万美元融资,GitHub已有151k星
  • LeCun和xAI联创对呛,GPT-4重大推理缺陷无解?网友:人类也是「随机鹦鹉」
  • 明年对标GPT-4!星火3.0高能进化,给AI注入灵魂,林黛玉马斯克多种人设可定制
  • 1024 程序员节引爆星城,180+ 位大咖谈 AIGC、开源,开启未来编程范式!
  • midjourney画画:黑猫+梵高的星空
  • 1024.AI日报:微信AI机器人来了&AI预计将在未来的10年能胜任任何工作
  • 1024,我奉劝各位程序员。。
  • 代码的艺术-Writing Code Like a Pianist
  • 新来一个同事:为什么 HashMap 不能一边遍历一边删除?一下子把我问懵了!
  • 4K画质3D合成视频,渲染速度提升30多倍,论文作者带你解读新研究
  • NeurIPS 2023 | 「解释一切」图像概念解释器来了,港科大团队出品
  • RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免
  • 大咖云集,看点前瞻:蚂蚁集团主办CNCC2023五大论坛
  • 公开出售GitHub star、Kaggle点赞,「黑市」越来越明目张胆了吗?