▲智一科技联合创始人、CEO龚伦常
龚伦常还预告了今年多个重要会议——在上海,2024中国生成式AI大会·上海站将于11月举行,中国智能汽车算力峰会将于6月举行;在深圳,第六届全球AI芯片峰会和第六届全球自动驾驶峰会分别将于9月和12月举行。欢迎大家参会。▲智一科技联合创始人、智车芯产媒矩阵总编辑张国仁
“启明创投是中国投资大模型最多的创业投资机构之一。”启明创投合伙人周志峰谈道,启明创投在过去2年持续布局大模型基于三个假设:第一,生成式AI尚处发展初期,基础技术创新为主流;第二,多数模型公司最终将演变为模型应用一体化企业,对外输出的是应用,他们更容易把握技术边界,推动产品创新;第三,本阶段绝大部分资金流向大模型公司,提供了更多的迭代机会。周志峰认为生成式AI应用企业,其0到1阶段的成长较其他领域更长,需要同时克服TPF(Technology-Product Fit)和PMF(Product-Market Fit)两大挑战,而其他领域通常只需面对PMF一座大山。创业者和投资人都需要更大的耐心和定力。▲启明创投合伙人周志峰
生数科技联合创始人兼CEO唐家渝分享说,生数科技之所以选择原生多模态大模型技术路线,是因为图像、3D、视频等同为视觉模态,在模型训练中是相互促进的关系。同时在商业化方面,通用大模型能够应用于更多场景,面对场景需求变化能够迅速作出反应。谈及开源与闭源的路线选择,他认为各有合适的商业路径,开源的最大价值在于生态建设,但从模型能力提升来看,闭源还是会走在开源前面。▲生数科技联合创始人兼CEO唐家渝
▲爱诗科技创始人兼CEO王长虎
成立于2023年5月的银河通用机器人,是国内具身智能代表初创公司之一。北京大学助理教授、银河通用机器人创始人&CTO、智源具身智能中心主任王鹤谈道,目前面向通用机器人的具身多模态大模型的局限在于数据来源有限、很难高频输出动作。他提到应对这两大挑战的方向,一是通过仿真世界提供训练数据,二是采用三维模态模型提升泛化性和速度。对此,银河通用机器人构建了三层级大模型系统,包括硬件、仿真合成数据训练的泛化技能、大模型等。基于该系统,机器人可实现跨场景、跨物体材质、跨形态、跨物体摆放、依据人类语音指令进行的开放语义泛化抓取,成功率达95%。▲北京大学助理教授、银河通用机器人创始人&CTO、智源具身智能中心主任王鹤
昆仑万维董事长兼CEO方汉强调了“技术领先”在AI领域的重要性,不同于互联网时代产品的商业模式导向,大模型时代应该是技术导向。方汉谈道,OpenAI在AI创企中的地位,本质上是其文本大模型的SOTA(当前技术指标第一)能力带来的。对于当前的AI创业者,在图像、视频、音乐等任何赛道,只要能取得SOTA,就能通过技术优势获得大量用户,后续再通过产品创新、商业模式创新把用户固化在平台上,形成自己的护城河。▲昆仑万维董事长兼CEO方汉
阿里通义实验室XR团队负责人薄列峰通过4个框架来解读人物视频生成新范式。基于这些框架的应用,正逐步落地通义千问APP。人物动作视频生成框架Animate Anyone可基于单张图和动作序列,输出稳定、可控的人物动作视频;人物换装视频生成框架Outfit Anyone是基于服饰图和人物形象;人物视频角色替换框架Motionshop采用Video2Motion,基于视频人物动作驱动3D数字人;人物唱演视频生成框架Emote Portrait Alive能够基于单张图和音频,输出准确、生动的人物唱演视频。▲阿里通义实验室XR团队负责人薄列峰
▲前Meta⾸席⼯程负责⼈胡鲁辉
云天励飞“云天天书”大模型技术负责人余晓填将大模型比作人类知识的信息压缩机,即压缩海量数据,学习其中的统计规律。在大模型四大要素——参数、算力、数据、人才中,他认为人才是最重要的根基,结合其他要素能实现高效的海量信息压缩。余晓填将大模型落地分为三个阶段:技术找场景、场景反哺技术、场景找技术。目前处于第二阶段,需要在深度场景挖掘更多数据,有针对地提升算法能力,找到技术变现在精度、成本、效率“三角约束”的平衡点。云天励飞的解决方案就是“算法芯片化”。▲云天励飞“云天天书”大模型技术负责人余晓填
万兴科技副总裁朱伟谈道,当下,大模型正从1.0图文时代进入以音视频多媒体为载体的2.0时代。视频创作需求量巨大,然而长期来视频相关模型仅占极少数,且大模型在音视频领域的应用面临数据集缺失、视频内容结构及层级复杂、算力成本高等严峻挑战。进入2024年AI视频年,万兴科技将在4月28日正式公测旗下万兴“天幕”音视频多媒体大模型。该模型具有多媒体、垂直解决方案、算力数据及应用本土化三大特色,将支持60秒视频一键生成,并具备视频生视频、文生音乐、文生音效等多项能力。▲万兴科技副总裁朱伟
▲李未可科技合伙人&AI负责人古鉴
中科曙光智能计算产品事业部副总经理胡晓东谈道,中科曙光通过异构平台与算力网络打造了算力基础及能力,由于大模型闭环流程的每个环节对软件栈有不同需求,打造AI全栈软件也至关重要。在基础软件栈方面,中科曙光推出了DAS AI Software Stack基础软件栈,通过多种AI组件、性能组件支持大模型快速迁移和优化。除此之外,中科曙光还深度还聚焦AI开发平台、内容创作平台、训练推理平台等多个平台服务,并通过创空间WorkSpace将平台能力进行资源整合与分配,支持AI能力化实践。▲中科曙光智能计算产品事业部副总经理胡晓东
阳光保险集团人工智能首席科学家杜新凯谈道,大模型和保险的底层逻辑天然契合,融合“数字化转型+大模型应用”的智能化转型成为当前阶段保险业发展新质生产力最应该把握的科技主题。阳光保险基于阳光正言GPT大模型,正在打造“三个智能化”,即销售智能化、客服智能化、管理智能化,积极探索通过大模型深度赋能改变传统的保险业务模式。▲阳光保险集团人工智能首席科学家杜新凯
安谋科技产品总监杨磊指出,生成式AI正逐步成为客户端设备上的人机交互界面,而具备100亿参数级别的模型已成为终端设备的最佳匹配规格。然而,在终端部署这类大型模型时,仍面临成本、功耗及软件生态等多重挑战。在当前大模型发展的硬件驱动阶段,杨磊谈道,异构计算是部署端侧大模型的理想选择,它能最大限度地提升SoC的性能、能效以及面积利用率。NPU作为端侧AI应用的关键算力资源,将为大模型的分布式落地演进提供核心动力。安谋科技自研“周易”NPU面向大模型场景做了架构、内存墙等多方面改进。它采用多核设计,能够同时支持卷积神经网络(CNN)和Transformer架构,并已成功适配了国内外多个主流大模型。▲安谋科技产品总监杨磊
联汇科技CEO兼首席科学家赵天成谈道,中大型企业普遍存在“知识断层”问题,大量专业知识转移、检索效率低,导致行业数字化转型受阻、技术创新遇到瓶颈,这对多模态大模型驱动的知识新引擎提出要求。联汇科技开创了三位一体产品栈“模型+工具+应用”,提供To B的全栈式AI2.0解决方案,通过智能体的人机对话、实时数据、自动决策能力实现员工提质增效。▲联汇科技CEO兼首席科学家赵天成
▲始智AI wisemodel创始人兼CEO刘道全
vivo AI解决方案中心总监谢伟钦认为,端侧大模型会是未来AGI道路上的一条重要路径,可在给用户提供个性化服务的同时,更好地保护用户,也能支持在无网和弱网环境下的大模型应用。对于大模型企业来说也可以节约大量服务器成本。vivo自研蓝心大模型率先实现端侧化部署。大模型及AI技术在很多维度上是对人能力的提升,如多模态大模型的图文理解和问答能力可以很好地帮助视障用户了解周围的环境和事物,更好地工作生活。vivo会持续关注更多类似的大模型应用场景,并将支持更多的模型开源,同时希望借助开源社区的力量迭代大模型效果和产品体验。▲vivo AI解决方案中心总监谢伟钦
硅基智能CTO林会杰认为,虽然现在闭源模型暂时领先,但未来开源一定会比闭源更好。回顾互联网时代,头部搜索引擎公司都是基于开源软件的力量构建产品,对于开发者来说,开源从体验、效率到质量都更胜一筹,“只有敢开源的公司才能做出好的大模型”。对于AGI,硅基智能的愿景是在数字空间里让代码感知、理解,像人一样表达和交互,也就是具身智能。▲硅基智能CTO林会杰
联汇科技CEO兼首席科学家赵天成认为,在AI技术早期不确定性时,投入基础设施是明智之选。他在2020年归国创业时顾虑小模型定制化成本过高,于是转而做工具链等基础设施,而后逐步确立了预训练模型及Agent发展路线。赵天成希望五年后每个企业都有自己的数字助手,让效率提升10倍以上。▲联汇科技CEO兼首席科学家赵天成
2024年中国生成式AI大会完整议程