大模型如何开启输入法的“iPhone时刻”?对话讯飞输入法总经理程坤

讯飞输入法13周年再启航,定义下一代生成式AI输入法。作者 |  香草
编辑 |  漠影
大模型时代需要什么样的输入法?进入21世纪第3个十年,人工智能迎来“智慧涌现”的大模型时代,键盘打字、整句联想、斗图……这些“传统”的功能可能已经无法满足广大用户的个性化需求。如何在产品形态已经很成熟的情况下,不断解构用户场景、挖掘用户持续发展的需求,是头部玩家的永恒命题。在13周年之际,讯飞输入法发布“面向下一代输入法的生成式AI”,并带来全新的13.0版本,开启生成式AI输入时代基于大模型的AI能力,讯飞输入法13.0支持60多款应用覆盖6大表达场景,并率先开启人机交互界面革新,推出全新的卡片式推荐区“活力视界”,在屏幕与按键之间采用双行显示,支持自由组合卡片功能,将传统的文字呈现方式升级为“Feed流”式的交互体验。据悉,讯飞输入法的“AI创作助手”于今年8月首次推出并开启内测。据讯飞官方数据,经过两个多月的上线验证,基于星火大模型的“AI创作助手”月累计请求量已超过6000万次,用户点赞率超过85%。此次升级,“AI创作助手”再次进化,致力于帮助用户“智慧表达”和“智能连接”那么,讯飞输入法13.0究竟能够为用户带来什么样的生成式AI新体验?“生成式AI输入法”与传统输入法相比,核心能力有哪些?大模型时代下,输入法未来的发展趋势是什么?智东西与讯飞输入法总经理程坤、讯飞输入法产品总监赵明路进行了深入交流,并第一时间试用了讯飞输入法13.0,从中寻找这些问题的答案。
01.60+应用覆盖6大场景把深、厚、大的能力隐藏在薄页面中


2010年,讯飞推出第一代讯飞输入法,开启了中文输入法的语音输入时代。而现在,伴随着“生成式AI”浪潮的到来,各个领域都迎来了“智慧涌现”的大模型时代,输入法领域自然也发生着巨变。下一代输入法应该是什么样的?具备智慧表达、智能连接两大能力,自适应、自进化两大特征的“生成式AI输入法”,是讯飞输入法团队在这个新时代交出的首份答卷。基于这两大能力和特征,讯飞输入法13.0提供了20余款AI创作助手,覆盖6大场景、60多款应用讯飞输入法13.0在人机交互上也进行了革新,上线业界首创的“活力视界”交互界面,在屏幕与按键之间采用双行显示,以创新式的卡片设计,实现Feed流式的交互体验。

▲用户可在菜单面板开启“活力视界”界面

与传统的文字候选栏相比,“活力视界”创新组合了Emoji(表情符号)、花样字、斗图等多样化的候选建议,甚至输入之外的扩展服务,内容展示更加多元。

▲“活力视界”为用户提供斗图、Emoji等候选建议

从产品设计的角度来看,赵明路认为,一个好的产品应该用简单的界面为用户提供多维的价值“活力视界”作为连接传统界面设计和全新AI功能服务之间的线索,通过一个简单的两行视窗,将产品背后丰富的AI能力矩阵呈现在用户面前。对于用户来说,讯飞输入法从交互方式上看起来,可能并没有太大的变化,用户也不需要花费较大的学习成本去理解其中的层级结构。只要用户能更便捷地使用服务,在使用中能感受到“更懂我”,就是讯飞想要达到的效果。

▲赵明路解读讯飞输入法13.0的产品创新

程坤告诉智东西,生成式AI输入法的意义和价值,可以从两个层面来理解,也就是智慧表达和智慧连接这两大能力。1、智慧表达:有大脑、有思想、有灵魂的输入法首先,从用户角度来看,生成式AI技术相当于为输入法加上了“大脑”。上一代输入法只能做文字输入,而现在通过生成式AI赋能,输入法不仅能帮助用户把灵感更好地表达出来,还能激发更多创意。智慧表达能力主要分为三个场景,在用户输入的各个时机,即输入前、输入中、输入后,以不同的方式完善用户的表达。一是在输入前智能生成。基于对上下文内容的理解,结合不同表达需求智能生成内容,主动替用户表达。例如,当用户处于聊天、发布、评论、评价等不同场景的输入框时,“活力视界”右端的推荐栏会自动根据场景需求,提供不同的功能。智东西分别选取了朋友圈、微博、淘宝、小红书这四个应用场景体验,讯飞输入法均自动提供了相应风格的文案。

▲讯飞输入法在朋友圈、微博、淘宝生成不同风格的文案

同样的,在文案生成后,用户可以通过下方的指令切换不同的风格。例如讯飞输入法生成下面这段小红书文案后,我希望它能提供一个更简短的版本,点击“语言简练点”即可重新生成更符合需求的文案。

▲使用讯飞输入法生成小红书文案(动图有加速)

二是在输入中智能补全。基于用户已经输入的内容,讯飞输入法13.0能帮助用户补全句子或续写文章。在补全句子后,用户可以继续在下方选择第二次指令,如引用名言、增加Emoji、改变语气等。

▲扩写句子后,用户可点击下方指令为文字增加Emoji

三是在输入后智能润色。基于用户在聊天、评论、发布等不同场景中输入的内容,结合用户表达习惯或需求,对用户的表达进行应情应景的智能润色。

▲智能润色后,用户点击下方指令可二次生成不同风格文字

2、智能连接:理解用户意图,以用户为中心连接万物其次,从输入法品类角度来看,生成式AI能够帮助输入法从工具型应用向服务型应用转型,无论是输入法App内还是跨App应用,都能将用户与其输入后想要的服务连接起来。智能连接能力主要体现在连接输入场景内外多元服务上,在不同的场景主动为用户提供不同的功能选择。其中比较具有代表性的功能是AI剪贴板。用户无需输入任何内容,只需复制想要回复的消息,“活力视界”窗口就会自动弹出AI剪贴板功能,并提供智能回复等选项。

▲只需复制消息,AI剪贴板就可以提供智能回复

此外,在AI剪贴板中右滑,可以看到拆词、翻译、搜索等更多功能,点击“翻译”即可自动翻译剪贴板中的内容。

▲AI剪贴板自动翻译用户剪贴板内容

AI剪贴板提供的翻译功能,也是讯飞输入法智能连接能力的体现——连接输入场景之外的内容与服务,用户无需切换至翻译应用,即可获得文字翻译功能。
02.推出首个输入法认知大模型打造“1+N+X”生态的重要一环


10月24日,讯飞发布星火认知大模型V3.0,与70天前刚刚发布的星火大模型V2.0相比,文本生成、语言理解、多模态等七大能力全面提升,全面对标ChatGPT。讯飞采取了“1+N(重大行业)+X(细分行业及产品)”的生态体系战略,而讯飞输入法,则是其中的“N”环节里,“智慧输入”这一赛道的应用,是整个生态系统布局的重要一环。在星火大模型V3.0的基础上,讯飞为输入法量身定制了首个输入法认知大模型涵盖文本生成、多语言语音、多模态生成等生成式AI能力矩阵。首先,文本生成能力是讯飞输入法的基础与核心能力,也是智慧涌现开始的地方。多语言语音能力上,讯飞输入法在去年率先发布了语音个性化方言免切换系统,对整个方言语音系统的使用有极大促进。从今年6月到9月,短短三个月内,讯飞输入法闽南话的使用率提升了1177%。在此基础上,今年,讯飞输入法额外构建了多语言语音大模型,将识别、翻译、语种分类多任务聚合,达到信息共享互通的目的,实现语种免切换识别、语音到目标语种自动翻译以及领域识别效果增强。目前,讯飞输入法13.0多语种自动识别覆盖了37种语言,端到端语音翻译超过13个,在多语言识别的通用效果上也提升了30%多模态生成能力上,基于讯飞星火多模态大模型,输入法认知大模型将多模态对齐到统一语义空间中,通过两种方式,即多模态理解和多模态生成两种任务的协同训练,来实现多模态的协同。目前,讯飞输入法逐渐开始落地应用多模态生成式AI的能力,如AI皮肤、AI头像、AI造字等,为输入法的个性化带来更多可能性。

▲讯飞输入法AI皮肤、AI头像、AI造字界面

除了最基本的生成化特点以外,讯飞认为,新一代输入法认知大模型还应具备个性化、场景化、自进化的特点。在自进化和场景化方面,研发团队结合对比学习,构建了大量正例和负例用于训练Reward Model(奖励模型),并提出了4种Reward Model训练方法,可以在不需要外接人工干预的情况下,实现大模型的常态化自更新。上一代的输入法其实已经具备很多功能,包括不同的输入模式、不同的键位、多种外部功能等。如果对每个功能和项目都进行单独建模,整个系统融合起来的难度是很大的。针对这个问题,讯飞输入法研发团队提出名为ALL-IN-ONE的统一模型架构,利用Prompt(提示词)做任务引导,将不同的任务进行分解耦合训练。除了提高整个系统的稳定性,对可用性、安全性也有很大的提升。

▲科大讯飞AI研究院副院长丁克玉解读统一建模与自进化

在个性化方面,面向C端时,大模型的个性化问题一直是业界难题,因为企业无法为每个用户构建一个专属的大模型。对此,讯飞输入法研发团队提出了Low-Rank个性化定制方法,通过将模型尺寸降低到认知大模型的十万分甚至百万分之一,来使小规模的个性化模型能够在手机等移动设备上顺利运行。具体来说,Low-Rank通过使用场景和相关的用户操作记录下来,在端侧训练小模型,既实现了个性化,又保障了用户信息的安全。
03.13年坚持聚焦用户需求开启输入法领域的“iPhone时刻”


今年3月,英伟达CEO黄仁勋曾在演讲中说,AI的“iPhone时刻”正在到来。而讯飞输入法,想要开启输入法领域的“iPhone时刻”。13年前,讯飞推出第一代讯飞输入法,开创了中文语音输入法的先河。赵明路称,这其实就是一个小小的“iPhone时刻”。数据显示,与去年同期相比,讯飞输入法日语音渗透率提升18%,日语音调用量提升35%,00后用户占比提升17%,日活跃用户规模提升10%,用户规模保持高速增长,产品核心指标蝉联行业第一。

▲讯飞输入法产品核心指标提升数据

作为一款十几年的“老产品”,尤其是在输入法市场规模增长缓慢的情况下,讯飞输入法能够做到年化10%的活跃用户增幅,离不开团队持续13年对用户需求的深入观察,以及对新兴技术的持续跟进。

▲讯飞输入法内容生态总监卢洁解读用户洞察

回顾讯飞输入法13年的发展历程,程坤告诉智东西,有几个特别的节点对讯飞输入法的发展非常关键。首先是2010年,讯飞输入法诞生的日子。当时,这款产品的名字还叫“讯飞语音输入法”,是首款中文语音输入法,它开启了上一代输入法的“语音输入时代”。其次是2012年,讯飞输入法率先将DNN(深度神经网络)应用到语音识别任务中,相对于传统的模型算法使识别效果获得大幅提升,标志着语音输入从“可用”向“好用”发展。2016年,讯飞与锤子手机合作,首次在万人体育场演示语音输入,使语音输入为更多人所知,用户量也获得爆发式增长,月活突破1亿,达到1.1亿规模2018年作为一个起点,讯飞输入法开始全面拥抱年轻人,先后上线了有趣的、DIY功能、交流社区以及内容开放平台,开始由提升效率向表达个性的方向发展而如今在2023年,伴随着新生用户的需求增长和大模型时代新技术的赋能,讯飞输入法探索在产品功能、内容生态多方面应用生成式AI技术,想要开启输入法的生成式AI时代赵明路告诉智东西,如果要用一句话来形容讯飞输入法13.0与12.0相比最大的革新,那就是——全面拥抱生成式AI赵明路称,用户的需求、技术的发展,始终是讯飞输入法团队不断创新、不断进行产品迭代的最大驱动力。星火大模型提供坚实的技术底座,对用户需求的敏锐洞察提供产品创新的动力,在技术和产品的双向驱动下,讯飞输入法筑起“护城河”,成为输入法品类中的佼佼者。生成式AI输入法不会是终点。在讯飞输入法研发团队看来,它更像是一个分水岭,一个新的发展趋势。程坤谈道,从长远来看,未来,每个人都会有一个智能助理。输入法作为一个既被高频使用,又能跨场景、跨应用的品类,能够连接不同应用之间的“孤岛”,同时又将大模型理解、推理、生成、多模态等优势能力发挥出来。无论是交互界面上的重塑,还是AI功能的增加和深入,都有可能成为继语音输入后,下一个融入每个人生活中难以割舍的用户习惯。
04.结语:输入法开启生成式AI输入新时代


输入法是智能手机、平板、电脑、智慧屏等带屏智能终端所必备的软件产品,渗透到每一位用户的日常生活中。在大模型时代,正如程坤所说,生成式AI在输入法中的应用落地是一个必然的趋势。不仅是讯飞,市面上其他头部输入法厂商也都在做相关的尝试。不同于传统的拼音、手写或语音输入,生成式AI输入无论是在内容的玩法、表达的多样性,还是在服务连接能力上,都能提供更多的想象空间。输入法不再是一个冷冰冰的工具,而是更懂用户、为每个用户量身定制的个性化产品。

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)




相关推荐

  • TF线下活动报名 | 11月4日,TF121邀您一起寻找企业数字化的第二曲线!
  • 最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑|开源免费
  • 姚期智Hinton Bengio联名发文:18个月内AI规模将扩大100倍,得有人管管了
  • 「20万级最强智驾」还不用激光雷达,极越01到底是一款什么样的车?
  • 正面硬刚OpenAI!智谱AI推出第三代基座模型,功能对标GPT-4V,代码解释器随便玩
  • 谷歌 20 亿美元投资 AI 初创公司 Anthropic,AI 赛道竞赛再加速
  • 2秒出图的文生图模型出现了!清华提出LCM,新一代图像生成里程碑
  • 给你的 SpringBoot 工程部署的 jar 包瘦瘦身吧!
  • 【进阶玩法】策略+责任链+组合实现合同签章
  • 一个Demo搞定前后端大文件分片上传、断点续传、秒传
  • 重磅!西工大李学龙团队研发大模型自主无人机集群!
  • 8年干出千亿市值,东南亚最大快递IPO了
  • 李克强:大力发展新一代信息技术、人工智能、数字经济等(2020 年 1 月)
  • 再看大模型微调数据质量如何评估:已有方法回顾及IFD指令遵循难度筛选的思路与聚类细节
  • Python制作进度条,原来有这么多方法
  • 顶级ML后端工程师“进化”指南
  • Instagram 仅 3 名工程师,如何做到 1400 万用户?
  • 第五要素|大模型时代,数据治理与AI相互依存形成闭环
  • 纵腾湖仓全链路落地实践
  • Midjourney重大升级,网页版正式上线!生成图像真实清晰