“宝藏AI神器”通义听悟上新：超长音视频随便问，高校师生可获500小时免费时长

西风发自凹非寺
量子位 | 公众号 QbitAI

家人们，大模型加持的AI神器，真的救了大命了——

就在几天前，我被老板要求整理AI大神何恺明MIT第一课的内容，ddl非常紧张。然而全英文各种专有名词听的我一头雾水。

好巧不巧，有朋友给我推荐了阿里通义听悟，他们刚上新AI音视频问答助手“小悟”，据说在业界首次支持了单记录、跨记录、多语言超长音视频自由提问。

咱也不知道这宣传的效果是否「保真」，但我只能死马当作活马医。

我悄默声地打开了通义听悟上传了时长1小时15分钟的视频文件。

芜湖！没想到还挺好用，分分钟一键提取出了关键词、全文概要以及自动划分好章节，还有要点回顾，连PPT都被一一提取出来了，可导出全部为pdf：

接下来，“小悟”的表现更让我眼前一亮。

它不仅能够根据音视频记录对我提出的问题给出答案，还会在最后标出引用出处以及对应时间戳，点击时间戳就能自动跳转到原视频对应位置，也方便了返回原文求证，效率up up up：

既然如此，我还有一个大胆的想法，以后再被随机抽查提问上次开会or上节课讲了啥，岂不是……

据了解，除了“小悟”，通义听悟现在还上新了更多新功能，对于经常要处理一大堆录音、发布会视频的量子位来说，自然是不能错过新的实（mo）用（yu）工（shen）具（qi）。

这就赶紧来测试一波～

PS：剧透一下，中国大陆高校师生均可薅羊毛，免费获得500小时使用时长。

新·通义听悟初体验

总的来看，通义听悟此次共上新了六大功能，下面我们就来逐一测试。

首先是开头提到的AI智能助手“小悟”，主打能对所有音视频内容进行全面“解剖”，播客、会议、学习、访谈各种视频均可对其多语言自由提问。

不仅可以针对单一记录向它提问，最长6小时、6G大小，还可以跨记录、让“小悟”扫描上百个音视频一起总结回答问题，目前“小悟”支持内容问答的音视频时长和文件数都是业界上限。

最基础也是最重要的，“小悟”回答的准确性、可靠性如何？

我们选择了一个大家都能看懂的时长在10分钟左右的中文视频来试试水。

视频内容与圆周率有关，从上传到转写完成用时不到1分钟。

直接询问“小悟”计算圆周率的方法有哪些。好家伙，没想到的是它不仅指出了视频中讲的几何近似和无穷级数法，还额外补充了一些方法。

我们点击时间戳定位到到原文对比，“小悟”对两种方法的表述无误，而且做了很好的精简和整合：

我们随即还提问了其他问题，“小悟”都能应对自如：

除了回答问题，让它帮忙整理大纲也很条理：

我们再用马斯克星舰第三次发射的视频来体验通义听悟处理更长音视频的表现。

视频全长1小时43分，上传到通义听悟转写，仅用了大概4分钟：

去年6月通义听悟刚刚发布时，我们也做了一波测试，当时时长10分钟左右的视频上传转写大概需要2分钟，1小时左右的视频大概用时5分钟。

不得不说，速度方面通义听悟这次也提升了不少。

针对“小悟”的提问这次再上难度，不仅直接在文件夹中跨记录提问，而且使用英文提问。

问题是马斯克星舰第三次测试的目的是什么？“小悟”这次的表现是酱婶儿的：

整个回答围绕着“收集对未来任务至关重要的数据”展开（好回答，肯定是没错的），并且点击时间戳成功定位到了正确视频。

除了“小悟”，通义听悟还上新了几大功能。

首先是一键AI改写功能，可以将音视频的口语化表达内容快速转换为更具逻辑性、规范性和可读性书面表达，同时保持原意。

这就非常适合用来整理会议记录、采访。

我们简单测试了一下，通过对比，可以清楚地看到“不妨来听听他们怎么说”等较口语化的内容都做了删减优化，语句表述书面化效果很明显：

还上新了思维导图生成功能，可谓有逻辑爱整理同学的福音。

最多支持五层脑图展示，能够将脑图导出为多种格式，如xmind、图片等，方便与他人分享和保存。

此外，升级后的通义听悟能自动识别音视频文件语种，无需手动选择。

目前支持的语种包括中、英、日、粤，据说即将支持韩语。

笔记整理方面也有实用设计，推出一键插入视频时间戳及截图功能，笔记整理效率再提升一大截。

还没完，升级后的通义听悟还支持上传更多格式的文件，单文件转写上限增至6小时，一次最多可上传50个文件。

视频更是支持最大6G文件的转写：

每个功能都可以用四个字总结：非常实用。

此外值得一提的是，在通义听悟界面的发现栏目中有诸多播客节目，点开后即可速览主要内容。

好家伙，以后听播客都可以先看主要内容筛选自己的喜欢的，然后再精听了。

只能说，升级后的通义听悟还有更多实用功能可挖掘，比如开组会随时听悟、备考同学还可以使用它两倍速学习网课资料……

“宝藏AI工具”

众所周知，过去一年大模型经历了一场狂飙，各种大模型层出不穷，令人眼花缭乱。

然鹅，对大多数人而言，大模型技术本身可能并没有那么重要，产品好不好用、能不能切实地帮到自己才是最重要的。

基于此，各种大模型应用也已经花式开卷，阿里也基于通义千问推出了一系列产品。

其中，通义听悟是自去年6月推出后，备受用户欢迎的产品之一，现已有上百万用户。

通义听悟接入通义千问大模型，能听、能看、能读，还能实现速览+精听，在学生、老师、白领、记者、律师、金融分析师…各类群体中都有忠实用户，被认为是用来学习和工作的一种新型方式。

举个例子——

一位电子工业出版社编辑，借助通义听悟整理了播客“三五环”的对谈精华内容，还用AI技术再加上人工编辑的方式完成了《大厂之外》一书的整理、编辑，而这本书也即将出版。

还有一位成都管理学在读博士生蔡同学，她在社交媒体上写道“通义听悟绝对是最强科研神器”，她会用通义听悟来分析网络视频进行学术研究，在日常学习工作中也会随时使用。

目前，她的使用时长已近7000小时，平均每天转写20小时以上。

所以问题是，为什么在AI大模型产品竞争如此激烈的情况下，阿里总能造出实用工具收获大批忠实粉丝呢？

原因大概就藏在产品的诸多细节中吧，比如我们上面未提到过但反复出现的一键“回到顶部”和“回到当前播放位置”按钮，面对超长视频，用户也无需一直滚动鼠标翻看转写内容：

此外，通义听悟还设置了多级文件夹管理，用户上传的文件也可以归类整理；上传阿里云盘中的音视频进行转写，不占用通义听悟存储空间；支持将单个记录的原文、译文、笔记、PPT一次性导出；支持自定义专有词汇，用户再也不怕专有名词翻译不准确了……

而这些细节处理，都是积极根据用户的需求做出的改进。

好好好，很是“宠粉”，且“宠粉”不止于此，通义听悟的福利大放送就没停过。

对比目前市面语音厂商9.9元每小时的音视频转录折扣价，大伙使用通义听悟几乎免费，每人每天只要登陆即可自动获得转写时长，阿里云官方微博、微信及各大平台社区还会发放大量20小时转写口令码，并且时长均可叠加，一年内有效。

咱就是说，短短几天，咱已经攒出了这么多“羊毛”，攒100小时简直洒洒水：

而且，伴随着这次通义听悟大升级，官方又发起了一波福利大放送！

推出“高校公益计划”，所有中国大陆高校师生通过后缀edu.cn的教育邮箱进行认证后，均可直接获赠500小时转写时长！

掐指一算，这没有不冲的理由吧。

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关推荐

百万token上下文窗口也杀不死向量数据库？CPU笑了

从简单中窥见高端，彻底搞懂任务可中断机制与任务插队机制

年初面试，真的不难……

缓存没预热，翻车了！

来挖转转漏洞啦！

老黄祭出新核弹B200！30倍H100单机可训15个GPT-4模型，AI迎新摩尔时代

建议！千万不要再无脑背八股文了！

恭喜了！全体程序员彻底狂欢吧！这个好消息来得太及时！

马斯克兑现承诺，Grok模型携3140亿参数强势开源，商业用途全免费！

陶大程团队联合港大等发布最新综述：374篇文献全面解析大模型知识蒸馏

黄仁勋在AI界春晚GTC2024的主旨演讲: 精华及全文（附视频）

CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型

CVPR最佳论文颁给自动驾驶大模型！LLM能突破行业技术“天花板”吗？

过去一年大模型有哪些突破性技术发展？

达观数据知识图谱增强的大模型应用实践

十分钟验证一个高性能车联网数据平台解决方案

作为技师，要求精通一门编程语言很合理吧

云原生消息流系统Apache RocketMQ在腾讯云的大规模生产实践

开源日报 | 微软AI程序员登场，马斯克开源Grok；Open-Sora全面开源

英伟达全新GPU架构Blackwell——“全球最强”、第二代Transformer引擎、计算性能提升1000倍