今年的 1024,是小红书技术团队走过的第十个程序员节。
小红书社区已不只是一群志趣相投的用户组成的小社区,这里有着温暖而广阔的人间烟火。
今年的 1024 程序员日是星期二,小红书的技术同学们每周提交代码最多的时间恰好也是周二下午 2 点。
过去一年里,技术团队用一行行代码实现了许许多多需求,为快速成长中的小红书社区添砖加瓦。
小红书的程序员们这一年,在忙这些...
在小红书,有许多普通人帮助普通人的故事在发生,每个用户发表的笔记都能被看到。这就意味着小红书的技术同学需要做出业界里非常规的解决方案:更注重分发的普惠性,而不仅仅追求效率。
面对 10 亿量级的图文、视频笔记,传统人工定义的层次化标签,无法完整刻画图文和视频内容。
多模态在小红书最大的优势就是小红书中海量的多模态内容数据,这些数据中就隐含了一些天然的标注信息,基于这些天然的标注,技术同学就可以在没有人工标注的情况下,进行大规模的多模态学习,为下游的各种任务和模型提供多模态的语义表征。
有了大规模多模态表征与检索系统,小红书就能够更好地理解用户发送的内容。
在小红书搜索:「1024 是什么日子?」时,就能看到关于1024程序员节的各种笔记。简单的搜索操作背后,既需要理解海量笔记,也需要给大量相关的笔记排序,选择出那些最匹配的内容推到台前,被用户看到。
简单来说,多模态让小红书能够更好地理解内容。在理解之上,才能判断什么是「好」内容,在需要的时候交给用户。而推荐或搜索的本质,即是如此:信息分发和信息匹配。
两年前,小红书的推荐系统中最重要的召回、粗排、精排模块的时效性还停留在天级。
过去,常常会有这样的情况发生:有用户点赞了一篇笔记,如果该笔记内容不是用户过去有过的兴趣,新兴趣无法被推荐系统快速学习到,用户可能喜欢的相关笔记也就无法及时地被看到。
为了解决这些问题,就要尽早地让推荐系统理解内容的赛道、质量、可能感兴趣的用户是谁。小红书团队进行了高时效项目,排序模型首先经历了从天级别到小时级,进一步到分钟级的升级,后续在召回模块也达到了分钟级更新的能力。
无论是用户探索到的新兴趣,还是一条刚刚发布的笔记,现在都能在片刻之间出现在笔记信息流中。
当然,为了防止掉入信息茧房,小红书也有不少遗忘策略,平衡用户的长短期兴趣。看到自己喜欢的东西,也看到更大的斑斓世界。
增长迅速的小红书社区里,原创的好内容在增长,也不可避免地吸引了黑灰产的注意。为了让用户看到更多好内容,小红书技术团队专门开展了虚假种草项目,用系统化的方式打击刷量行为。2022 年至今,累计清理作弊点赞行为 31 亿次,展示了平台尊重好内容的决心。
有了这些努力,小红书确实比以往更懂你。
小红书是一家从诞生之日起,所有技术体系全部搭建在「云」上的公司,称得上是「云上的原住民」。
小红书自建的 Redis 从 Day 1 就实现了容器化部署,极大地降低了集群运维的成本,目前已经达到了数十万级 Pod 规模、上百 TB 的数据量。
作为一家高速发展的公司面临的数据存储,加工和分析使用的挑战也非常大。目前小红书已经开启了从单云架构到多云架构的转型,可以根据不同云厂商特点部署不一样的技术。
随着业务规模扩大,Kafka 传统存储模型显露出了很多缺点。技术同学对 Kafka 进行了云原生改造,达到了降低成本、弹性调度、CPU 能效提升等目标。
目前小红书 APP 内搜索用户渗透率已步入行业第二,这离不开小红书在机器学习领域的多年耕耘。
小红书里的文本、图像、视频素材及搜索、推荐、广告等场景都需要机器学习的支持。小红书技术对于机器学习的需求度增长迅速,技术同学将分散在各处的离线机器学习资源全部迁移到上海,合成一个区并和在线混部,提升了资源使用效率和易用性,降低了 1 亿+成本。
机器学习平台架构也完成了升级,引入了全新的异构架构,支持 CPU 和 GPU 的灵活搭配,大幅提升性能。完成了大模型训推架构从 0 到 1 的搭建,特征迭代效率从一周提升到了一天。
「学习能力」提升的同时,搜广推分发引擎项目也完成上线。搜索、推荐、广告三种业务形态从本质上都属于内容分发系统:基于用户和上下文,从大量的候选池中,经过多轮的筛选,返回少数结果过程。
Lucky 搜推广架构升级项目针对在线数据检索和业务策略迭代,提供高效率、高性能、高可用的分发架构底座,让业务同学能够专注在检索功能和算法策略研发上。
视频业务和短视频播放规模不断增长,小红书技术同学也在研究如何在保证提升用户体验质量,降低视频带宽成本。应运而生的 REDplayer 是小红书团队首个开源项目,让小红书视频体验上了一个大台阶。技术团队还专门研发了一款基于 AI 的无参考视频质量评估算法 RedVQA,它能够最大程度地模拟人眼视觉感知一致的质量评估,保证视频压缩之后仍能保留原有的观看体验。
业务体量扩大时,原本不起眼的小花销也可能会变成「吞金兽」。
为了平衡业务发展与成本,过去的一年里技术团队开展了技术成本洞察和优化项目。现在,小红书团队有了专门的 OneCloud 资源洞察平台,可以快速查看各团队在从计算、存储、CDN 等各方向的资源用量,对成本最高的环节开展针对性的优化。
业务快速增长时,小红书的技术团队也在快速奔跑。
视频中提到的「达芬奇」和「此刻」,刚刚开始在小红书 APP 中开始内测,都是小红书在 AI 领域的新尝试。
「达芬奇」是小红书基于大语言模型开发的智能助手,其定位是成长中的生活艺术家。在聊天的过程中,达芬奇会贴心地读懂用户的好问题,也许问题很复杂,但是达芬奇会提供基于小红书社区众多笔记总结归纳后的个性化、高效且准确的详细答案。
「此刻」是一个帮助用户快速生成图片的小工具,用户可以专注在分享文字笔记上,由「此刻」为用户生成配图。
小红书技术团队探索了不少新事物,有许多惊喜的发现也乐意与业界共享。这一年里,技术团队写下了近百篇技术分享文章,发表了十余篇学术论文,与全世界分享自己的新发现。在刚刚过去的国际计算机视觉大会 ICCV 2023 中,一篇来自小红书技术团队的论文评定为 Oral 论文(接收率1.88%)。
这一年,用户看见的与看不见的项目,还有许许多多,无法一一列举。
用户评价小红书的「好用」,不只是「大项目」带来的,更是无数提升体验的细小迭代带来的。
在小红书,每一行代码都不同凡响。
祝所有的技术同学,1024 程序员节,节日快乐!
在评论区留下「喜欢小红书的原因」
我们将抽取留言排在前 20 位的同学
送出「小红书 1024 程序员节马克杯」一个!
评论截止时间:2023 年 10 月 31 日 12:00