“百模大战”已开启。
而在大模型热潮中,“人才”成为各大科技公司、创业团队和研究机构激烈争夺的关键。
无论是海外还是国内,当下涉足大模型的企业都在疯狂延揽人才。
围绕“如何选择和培养大模型人才”话题,量子位智库特别邀请澜舟科技合伙人&首席产品官李京梅,向读者分享对人才话题的看法,探讨大模型人才的发展现状、机遇挑战以及未来发展前景。
澜舟科技作为生成式大模型代表企业,致力于用场景优势驱动大模型应用超车,在大模型人才团队架构方面更具有贴合应用场景的特点。量子位智库希望通过此次分享,为AI企业搭建、培养大模型人才团队提供有益参考。
本文为量子位智库“大模型人才”系列深度访谈栏目,更多内容请关注即将发布的《2023 AIGC大模型人才发展全景报告》。
李京梅,澜舟科技合伙人&首席产品官,北京大学学士、美国纽约州立大学硕士、美国宾州州立大学 MBA。
曾就职于微软美国和微软亚太研发集团,阿里云等头部软件、云计算公司,在云计算、大数据、人工智能、城市大脑等领域具有丰富的产品和解决方案经验。
今年企业对大模型训练效率、推理效率的提升需求更加明显,如何利用好有限算力成为关键。
模型的效果好坏依赖算法人才,模型的效率高低取决于AI工程人才。
对于算法人才,我们关注候选人在专业领域的认知、所在的学术团队、论文等学术成果。
大模型是新兴技术,悟性好的年轻人可以快速学习并上手,不需要太多历史包袱。
应用和基础研究强结合的培养方式,更适合国内对大模型人才的需求。
量子位智库:澜舟科技如何划分大模型人才?
李京梅:澜舟科技的人才体系是与面向企业客户的服务体系直接挂钩的。澜舟科技拥有自有大模型,我们的定位是大模型+To B应用,面向金融机构、互联网公司等企业做行业应用落地。
澜舟科技面向企业的服务体系目前分为四层,L1、L2、L3、L4。L1是基础通用大模型,L2是行业大模型,目前主打的是金融、营销、文娱等领域,还包括机器翻译等垂直大模型。L3是聚焦具体的场景任务,比如金融行业里根据财经新闻写摘要或写研报。L4是自主智能体,或者称为数字助手,这四层体系与我们的人才是直接相关的。
量子位智库:有人按照模型部署中重要程度将大模型人才划分成三类:大模型核心研发人才、工程/产品人才、大模型应用人才,您怎么看这种分类方式?
李京梅:您所说的算法人员、工程支撑人员、产品人才和我们服务体系各个层级都相关。
就算法人才而言,L1、L2、L3各自分别有负责通用大模型、行业大模型和偏场景应用的算法负责人。在这当中,最核心的是通用大模型的算法人员,因为其他的模型都是继承自L1的通用大模型。
就工程人才而言,与传统互联网岗位划分没有区别,包括前端、后端和测试人员。
就产品经理而言,L1通用大模型的产品经理的作用是横向支撑,L2和L3的产品经理要继承通用大模型的能力,并基于金融行业或其他行业训练出大模型以及上层应用。
量子位智库:L1到L4这几类人才,哪种是相对比较稀缺的?
李京梅:通用大模型核心研发人才是最为稀缺的。像我们创始人周明老师在微软时就接触过大模型、预训练这些技术,但这样的人才很少,Transformer技术是2017年才发布的,2017年后才陆续产生大模型研发人才。
L2层跟L1层的人在能力画像上差别不大,纯从技术层面,跟L1层的技术要求一样。但L2层因为行业和领域数据不同,需要业务场景,对L2层的人才的要求是训练出面向金融行业更好的模型。
L2人才基于内部协同和分工会有更多行业认知,比如对金融行业大模型做评测时,应该如何定义十项任务,除了L2技术人员,还有面向行业解决方案的产品经理,给出行业输入,L2的人才综合能力更强一些。
量子位智库:在基础通用大模型训练过程中,会更关注哪些环节技术?
李京梅:通用大模型训练过程中会更关注预训练、监督微调(SFT)、指令微调、基于人类反馈的强化学习(RLHF)、价值观对齐等环节。
预训练环节是基于无监督学习,利用海量数据去训练,我们会使用AI框架技术,比如PyTorch,目前也出现了针对大模型训练优化的框架,比如DeepSpeed、Colossal-AI、阿里云内置的框架等,我们也都会使用。
对于多模态技术,澜舟科技更多是偏重文本,但是现在文生图、文生视频、文生语音技术也变得更可行,我们会在开源的图片模型基础上进行二次训练,针对客户想要的图片风格进行可控图片生成,提高生成效率。
我们的多模态技术是在开源模型基础上,通过文字与其他模态结合,从而实现应用场景落地。
量子位智库:在训练过程中,如何应用规模化技术呢?
李京梅:ChatGPT出来前,我们走的是轻量化,轻量化是指模型参数量比较小。截至2021年7月,我们大模型参数量达到10亿,效果就已经很好。我们目前在扩大参数量,推出7B和40B的模型,如果有客户需要我们训练更大参数量的模型,比如700亿、上千亿也是可以做到的。
更大规模参数的模型依赖的是资源,使用分布式技术,像一台机器一样高效训练几百、上千张英伟达显卡,这涉及整个算力、卡、机器之间的通讯效率等,都泛指规模化技术。从最开始的10亿参数量到现在的400亿参数量,我们的规模化技术已经相对成熟了。
量子位智库:对于中间件和工具链技术是如何应用的呢?
李京梅:有些客户除了有模型的购买需求还有掌握训练技术的需求,在数据基础上做Continue-Train,想自己做微调,我们会把工具链的技术对外输出。如果要实现模型流程闭环,必须是有这些工具的。
量子位智库:推理与部署环节技术是如何应用的呢?
李京梅:企业客户有高并发或多并发的需求,需要更高效缩短推理时间,如果大模型推理效率低,就需要多堆显卡,成本被推高;如果大模型推理效率高,就可以使用更少的显卡,缩短响应时间,提升并发效率,现在市面上也出现了推理加速的开源框架。
量子位智库:孟子大模型经历了多次升级,不同的升级过程当中会更注重哪些环节?
李京梅:在预训练技术、规模化技术、工具链技术、推理部署技术上,核心环节我们投入的时间更多,AI框架技术和多模态技术我们更多的是适配和使用。
量子位智库:在这些环节当中会注重去配置哪些能力、哪些专业素养的人才?
李京梅:我们原来做轻量化,现在做更大参数量的大模型,所以就引进了更多在大厂实操过、跑过工程闭环的人才,这类人才更多来自成熟的互联网产业。
今年企业对训练效率、推理效率的提升需求更加明显,如何利用好有限算力就成为关键问题。这体现在商业化定价上,比如调用API接口的定价,如果训练推理的成本高,在定价上就不具备优势。如何用更少的算力,带来同样的用户体验,这就是技术降本的关键。技术不过硬,就需要更多的显卡,成本就高。我觉得这是需要AI工程人才来解决的问题。
预训练技术的好坏在于模型效果如何,但效果好并不代表效率高。效率高就依赖于AI工程人才,这些人不一定特别懂算法,但懂AI工程,很多云平台厂商的工程人才自身不做算法,但是懂算法,他们之前为千万用户到平台上训练、合作、推理提供支撑服务,为了服务好用户,平台需要帮助用户降本提效。像阿里电商,腾讯游戏等自身业务非常庞大,用户并发量都很高,都用自有模型,自己训练好自己用,也会遇到无数挑战,实验室里人才在实践方面还有待提升,很难接触到实际挑战,所以当下AI工程人才是市场所需的。
量子位智库:相比实验室的人才,AI工程人才更稀缺吗?
李京梅:不能说AI工程人才更稀缺,还是要分阶段来看。各家企业在专注训练模型时,更倾向于选择算法人才来训练模型。等现在模型纷纷都已经训练出来,大模型企业期望对外提供服务时,团队就更需要AI工程人才。
也有不少大模型厂商选择绑定平台厂商,根据其提供的工具来进行训练,也就不需要引进实验室人才或工程人才,我觉得这是看各家的选择。
量子位智库:澜舟科技会更关注大模型研发人才的哪些方面?
李京梅:人才的学术成果、实践经验、学历背景对于澜舟科技的大模型团队而言都很重要。
我们创始人周明博士就是行业的领军人物,在学术界、研究界的视野就足够。周老师在高校兼职博导,他的博士生、硕士生在学术研究领域有些成果。学术背景我们比较关注,所以硕士生和博士生会比较多。尤其是算法人才,我们关注人才在专业领域内的认知、所在的学术团队、论文等学术成果。
而且基于我们公司注重实践的定位,也看重实践经验丰富的人才,不管是合伙人还是VP都具备实操能力。同样,我们也十分重视专利。除了实践与研发,每年团队都产出几十个核心发明专利。
我们比较综合,不刻意补充纯学术研究的人才,研究也是依赖于实践,避免只做研究、只给客户服务的这些情况。
量子位智库:刚才提到的能力要素,哪些更重要?
李京梅:我觉得要分阶段,因为大模型技术迭代非常快,现在和6个月以前相比会有很大不同。6个月前,大模型基础研究成果更加重要。如今有很多开源大模型,只做底层核心大模型对于面向企业服务的技术厂商并没有那么重要,我们公司定位就是开源技术基础之上再做大模型预训练。我们立足企业服务,所以目前实践型人才占比较高。
大模型训练的效果的好坏通过两种方式来判断,一种是榜单评测,另一种就是客户的评测反馈。客户真正使用上行业模型至少要到明年,我们还是要以实践效果为导向。
量子位智库:您觉得市面上大模型人才的薪酬水平存在过高的情况吗?之后会有所回落吗?
李京梅:我认为目前的薪酬水平是有一点偏离实际情况的,人才市场的变化与整个技术趋势是相关,但不是完全合拍的。如果去年没有ChatGPT的问世,今年的人才市场并不会这么火热。
从目前来看,市场上已有130多个大模型,出现了百模大战的盛况。我们认为这些公司中,到今年年底或明年年初,不太坚定投入大模型的创业公司就会回归原本的核心业务,不会投入大量的时间、精力、财力押注大模型,所以随着时间的推移,对于大模型人才的需求会有所减缓,人才的薪酬也会有所回落。
量子位智库:澜舟科技会选择吸纳刚毕业的人才吗?
李京梅:其实这类人才我们大多会选择自己培养。这和我们基因背景有关系,周明老师2020年底从微软出来,到李开复老师创新工场孵化,会热衷于选拔实习生,一般是硕士、博士背景,很多实习一年多转为留用的人才。
量子位智库:我理解是让这些实习生成长为大模型研发人才,培养周期需要一年到两年左右。
李京梅:其实实习生工作半年左右,我们就能看出来是不是具备大模型研发人才的潜力。比如有一位博士在2021年毕业就加入了澜舟科技,他现在成长为能够带领几位师弟的研发leader人才。
现在新技术瞬息万变,具体需要多长的培养周期我觉得要看潜力,半年到一年就能达到大模型研发要求的人才其实很多,他们可以独立完成很多事情,比如说指令微调,强化学习,还有监督微调(SFT)等,悟性强的实习生很快能掌握,但训练中间还是需要有经验的员工check,导师会带一点。
目前阶段,大模型面向企业落地其实是不容易的,但和能力素质较高的年轻人对齐模型研发训练的认知还是很快的。
量子位智库:您怎么看待“大牛带小牛”这种培养形式?
李京梅:我觉得还挺有效的,现在的年轻人相对还是“白纸”,而且大模型这样的新技术不像传统的软件工程需要时间积累和学习,没有太多历史包袱。年轻人的基础好而且跟随自己导师也积累过相关项目经验,可以快速成长到一定的水准,后续接着磨炼,就能够成长成优秀的大模型人才。
量子位智库:澜舟科技吸纳的大模型人才大部分是在自然语言方向,有没有再细分一点的研究方向?
李京梅:也有,比如机器翻译,文本生成搜索这些研究领域的人才比较多。
量子位智库:您觉得目前的大模型能够做核心研发的人才大概是在什么规模?
李京梅:乐观点的话,国内做核心研发有几千人左右,OpenAI做核心能有几十人,投入已经是非常多的。中国大厂不超过10家,做核心大模型的也没有很多,创业公司就更少了。像王小川说100天招100人,也不是全部都研发大模型,所以几千人就已经很多了。
量子位智库:您觉得未来这些核心研发人才会越来越多吗?
李京梅:肯定会多,现在高中毕业生上大学选专业,他们会参考人才市场薪酬,从而决定选择什么专业,高校也会根据市场情况增加设置相关专业。
除了学生群体,还有很多潜在人才加入大模型行列。之前有很多候选人来找我,把自学大模型的学习笔记发给我,来询问应该补充学习哪些论文和文章。在这些方面有过积累的人才,我觉得都是可以发展成大模型人才的。
量子位智库:您说的这些潜在人才我们看作是大模型的储备人才,那您认为大模型核心研发人才未来会成指数级增长吗?
李京梅:我觉得不至于成指数量级增长,从我的角度来看,能做这件事的团队少而且需求在变少。以Meta的LLama2开源以后,大模型作为基座来讲已经遍地开花了,未来会出现几个巨头。国内外的很多企业也都是站在OpenAI开源的成果上,所以其实做最底层的技术人员,全球范围内的人数都不多。所以我觉得大模型核心研发人员,可能没有之前想象的需要那么顶尖的人才,如今“百模”出现,就表明大模型的基础能力已开始趋同,现在投入大模型的人才不是大家想象说的那么顶尖,必须要OpenAI、Google、Meta出的大模型,可能就会更多围绕上层行业应用去落地。
今年上半年大模型落地很少,都在训练大模型本身,现在发现大家差不太多。大家都在做0-1的事,想要比别人走得更远,更多的人就会关注怎么把大模型应用到场景中。
量子位智库:您认为目前大模型人才的发展阶段是处于刚刚起步、高速发展,还是相对成熟的阶段呢?
李京梅:如果是指和大模型核心研发相关的人才,那我觉得已经迈过了刚刚起步的探索阶段,现在处于高速发展阶段,分水岭是“百模”情况的出现,意味着已经有很多大模型团队已经实现技术闭环。
量子位智库:您觉得迈向下一个阶段的标志性事件是什么呢?
李京梅:还是商业化事件,比如面向C端有第二个抖音这种现象级产品出现,面向B端稍微滞后一些,企业客户从内部使用到大范围推广还需要一些时间,目前很难说使用大模型给客户带来了多少效用。
量子位智库:关于大模型人才的分布,您觉得哪些地方是比较密集的?
李京梅:我觉得是北京、上海、深圳。北京肯定是最多的,这跟高校人才是密切相关的。然后就是华东、上海,再延展到杭州,因为有阿里在。再有是深圳,因为像华为、腾讯都在深圳。
量子位智库:您觉得国内目前的这种培养模式可以从哪些方面进行提升?
李京梅:加强校企合作是很好的培养人才的方式,这种方式培养出来的人才在毕业时就有工程实践的积累。因为高校人才擅长做学术研究、写论文,但他们没有场景也缺乏数据。所以校企联合可以发挥自身优势,高校人才将自己的研究和实际场景结合会更有益,研究出成果也能继续发论文,对企业来说也能形成前瞻技术的沉淀。
当前一直在讨论产、学、研联动,其实现在很多企业和高校也在做这种合作,澜舟科技也和金融机构成立金融NLP联合实验室。目前适合国内的培养模式,更可能是应用和基础研究紧密结合这种方式。
量子位智库:除了实践型人才,您认为未来什么类型的大模型人才更受企业的青睐?
李京梅:我觉得是跨界人才。比如面向金融领域的大模型,就需要懂金融和大模型的人才。比如AI for science,需要既懂制药又懂AI的人才。未来大模型往产业落地,跨界人才是非常吃香的,至于是从科学家里培养AI人才,还是从AI人才里培养懂业务的人才主要是看大家的选择。
— 完 —
「量子位2023人工智能年度评选」开始啦!
今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名
MEET 2024大会已启动!点此了解详情。
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~