霉霉中文水平“开口跪”,背后国产AI火到国外

丰色 发自 凹非寺
量子位 | 公众号 QbitAI

这两天,霉霉说中文的视频着实火了。

在各个平台的点赞数量be like:

而真相,才不是霉霉学会了中文,纯纯是AI在“捣鬼”!

对比原片,AI不仅完成了语言翻译,连声线也完美模仿、口型相当逼真,实在是让人叹为观止。

吓得网友都喊妈了:



另一个霉霉说中文的视频(cr: Gorden_Sun)效果也很不错:

还有赫敏、憨豆以及蔡明通通都来了个“开口跪”:

有网友直接称这才是“没有译制片腔调的翻译”,表示真人配音都达不到这样的高度

嗯哼,甚至比真人配音还要省事“一万倍”:

如果你也想做,只需要上传你的视频、再选择要翻译的语言——就这么简单的两步,就可以了!

瞧瞧,连外国网友们也玩得不亦乐乎。


更令人称赞的是,这个火到国内外的🐂🍺神器,是国内诞生的产品,背后公司来自深圳

(注:除了黑色礼服的霉霉视频,其余均源自于@johnhuu教英语)

一键视频翻译AI火了

此工具名称为HeyGen

目前处于Beta测试阶段,在官网直接上传一段原视频即可。

其中:

文件支持3种类型:mp4、quicktime和webm;

文件大小最高支持1GB,时长不低于30s,不高于5分钟;

分辨率则需介于360x360到4096x4096之间。

为保证效果,HeyGen对视频内容本身也有两点要求:

1、尽量无背景音乐或噪音;

2、尽量避免多人

上传以后,就可以选择你要翻译的语言了。

目前支持输出包含中英文等在内的15种语言(输入语言支持18种)

除此之外,别的什么也不需要咱做。

当然,这个工具本身是付费的且不便宜(每月至少48美刀),免费试用只提供2分钟的视频翻译时长,且需要排队。

鉴于效果确实非常惊人,网友们也十分好奇HeyGen背后的技术。

结果也扒出来了:

基本是在开源方案基础上整合出来的(开源方案没有这么直接的一键效果)

具体而言,根据推特博主@Gorden_Sun的总结:

文本翻译用的是GPT;

语音转文字用的是whisper;

声音克隆+生成新音频用的是so-vits-svc;

最后的口型匹配用的是GeneFace++。

背后公司来自深圳,7个月收入超百万

让人眼前一亮的是,HeyGen的背后是一家来自深圳的AI公司。

名叫诗云(surreal)科技,主营AIGC,成立时间为2020年11月。

从官网看其产品除了视频翻译,也有数字头像生成、AI脚本生成等服务。

其联合创始人兼CEO为徐卓(Joshua Xu),他硕士毕业于CMU计算机专业,本科毕业于同济大学,此前在Snapchat工作了六年,是该司前100号员工。

另一位联创兼CPO为梁望,硕士毕业于CMU人机交互专业,本科也来自同济大学,曾任字节跳动北美设计Lead。

除了他俩,其他核心成员也均来自国内外互联网大厂。

据介绍,公司目前已获两轮百万美元融资

CEO在今年4月就发文透露:

HeyGen在7个月内实现了100万美元的ARR(年度经常性收入)。

而有推特网友(@MacroWang007)统计发现,就在今年9月,HeyGen还迎来了一波用户量的爆炸式增长(+91.77%)

前途可谓不可估量,接下来他们还即将推出商业版的视频翻译服务。

不过,值得注意的是,从推特官网的介绍来看,HeyGen目前的base似乎改到了美国加州,目前在招聘的两个岗位工作地点也是在那边。


最后,再聚焦到HeyGen工具本身。

网友对其潜力无比赞不绝口,有的担心这会让假消息更加泛滥。

也有人表示:又一部分人可能要面临失业了。

不过,它的不足之处也还是有的,比如有网友指出感情有些缺乏、翻译质量一般等等。

且看未来如何改进。

试玩地址: https://labs.heygen.com/video-translate

参考链接:
[1]
https://twitter.com/Gorden_Sun/status/1716075577117929841
[2]https://twitter.com/Gorden_Sun/status/1716271766891573692
[3]https://weibo.com/3725773862/NoAIfp93p
[4]https://twitter.com/HeyGen_Official

「量子位2023人工智能年度评选」开始啦!

今年,量子位2023人工智能年度评选从企业、人物、产品/解决方案三大维度设立了5类奖项!欢迎扫码报名 

MEET 2024大会已启动!点此了解详情


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

相关推荐

  • 讯飞星火:整体超越ChatGPT,医疗超越GPT4!一手实测在此
  • NeurIPS 2023 | RevCol V2: 当解耦学习遇上自监督训练,视觉预训练的思路
  • 北大提出RestGPT框架,通过RESTful API控制真实应用的Agent
  • 探索“数据菜谱”无限可能:首届Data-Juicer大模型数据竞赛
  • 别再瞎猜了!教你如何准确识别盒式交换机指示灯!
  • 10个容易被忽视的FastAPI实用功能
  • 认识 Wolfi:旨在缩小供应链的 Linux 发行版
  • YouTube 仅用 9 名工程师就能支持每天 1 亿次视频观看的 11 个原因
  • 谈谈node架构中的线程进程的应用场景、事件循环及任务队列
  • 卖奥特曼卡牌的公司要IPO了
  • 语雀,这波故障,放眼整个互联网也是炸裂般的存在。
  • OLAP数仓入门:基础篇
  • (待会删)付费搞来的,数据人请低调使用!
  • 致敬程序员用跳跃的代码敲出数字世界的诗意篇章
  • 百度Comate代码助手全新上线SaaS服务,适配百种开发语言,编码效率10倍提升!
  • ChatGPT 能拯救程序员吗?
  • 卷积神经网络中用1*1 卷积有什么作用或者好处呢?
  • 谷歌女高管状告谷歌性别歧视,获得100 万美元赔偿
  • 码住!花三个月亲测1000个AI智能工具,这10款最好用!
  • 深度学习优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)