AI让霉霉说中文,口音那叫一个地道!背后的中国初创公司7个月收入百万美元

转载自头部科技文 | Congerry、Blink162

起猛了,看到一个歪果仁说中文说得贼流利,那人还是霉霉。

定睛一看,好像是真的,连语调都一样,发出来让大家鉴别一下。


嘿,这口音这叫一个地道!这视频已经在网上迅速传播,有了上千万的播放。

这段看似是真的,但实则依然是我们的老朋友——AI在背后“作祟”。

霉霉也会说地道中文,口型、语调无可挑剔

从这段视频中可以发现,不仅是声音像,甚至连霉霉的口型也对的非常好。

X平台上另一位网友也复刻了霉霉的另一段采访。



看到这些视频之后,真爱党直呼和偶像的距离又近了一步。

有网友甚至觉得这是译制片配音的行业标杆。

也有人已经看到了AI带来的“失业危机”。

除了英文翻译成中文,也有网友将中文视频“出口”。



除了中英互译,还有人尝试将英语翻译成其他语言,效果同样很不错。



更有甚者直接尝试了6种语言。



在短视频时代,这无疑会为内容创作提供新的思路。

30人远程办公,7个月收入百万美元

视频效果如此之好,背后的技术是什么样的?

在推特上,一位网友就表示需要至少三步才能达到这种效果,Whisper识别、Tortoise-TTS合成带原始说话人音色的语音、Wav2lip换嘴型。

NoNoNo,实际上并没有如此复杂,只需要一个AI工具即可。名为HeyGen

这一AI工具来源于国内一个初创团队,公司名为诗云科技。

这家公司在国内并不算名气很大,但却在踏实挣钱。近日根据推特上一位分析师Will的统计显示,今年8-9月,各大文生图类AI网站的访问量均开始呈现下降趋势,但HeyGen的访问量却上升了92%,流量跃居各大独立AI网站之首。

诗云科技成立于2020年12月,公司成立之初,就以“用AI生成内容,让用户以更低成本完成内容创作”为愿景,已获得来自红杉中国、真格基金等风投们累计近千万投资。

据悉,HeyGen要做AI视频创作领域的Midjourney,目前HeyGen的团队只有大概30人,分布在全球各地,以远程办公形式进行合作。

HeyGen的产品正式上线后的一年不到,创始人Joshua Xu就发表博文表示:HeyGen在7个月内实现了100万美元的ARR(年度经常性收入),并保持连续9个月50%的月环比增长率。

2022年7月,诗云科技推出多模态内容生成引擎Surreal Engine,将内容生产分为Understanding(理解)、Framing(视框化)、Rendering(渲染)三个步骤。区别于市面上的两大3D内容创作巨头:Epic Game的Unreal Engine和Nvidia的Omniverse,Surreal Engine让普通人也可以轻松进行高维度、可交互的内容创作。

也正是得益于这个架构,HeyGen可以生成超逼真的虚拟人,当时创始人 Joshua Xu 亲自上阵示范。

目前,HeyGen 虽然可以免费试用,但需要等待很长时间,而且很可能因为视频中人脸幅度变化过快导致失败,失败=重新排队。

不想排队可以开通会员,但是这个价格......

对懂技术的小伙伴来说,也可以寻找开源替代方案,比如语音转文字 whisper、文字翻译 GPT、声音克隆 + 生成音频 so-vits-svc、生成符合音频的嘴型视频 GeneFace++。

除了价格贵,HeyGen还存在一些技术问题,比如生成的AI视频存在视频抖动、眨眼频率过高等。

但它的有光明的未来。

参考链接:

1、机器之心-《口型几乎完美、还能卡点,霉霉说地道中文的视频火了,背后AI工具原来是它》

2、https://twitter.com/search?q=HeyGen&src=typed_query&f=top

3、https://www.bilibili.com/video/BV1Yw411C7Mo/?spm_id_from=333.788.recommend_more_video.-1&vd_source=c6fb3ced3351da77f43c52db6b8955f4

72张PNG,图解机器学习

PyTorch从入门到项目实践

PyTorch那些事儿(二):PyTorch建模示例

PyTorch那些事儿(十三):深度学习模型训练过程

PyTorch那些事儿(十四):深度学习训练过程可视化

PyTorch那些事儿(十九):深度学习实战项目——垃圾分类

可能是全网最全的速查表:Python机器学习ChatGPT线性代数微积分概率统计


相关推荐

  • 国外Java工程师力证:GPT-4不能解决逻辑谜题,但确实具备推理能力
  • DALL·E 3=Midjourney+PS?OpenAI悄悄推出「种子」功能,生图之后还能精修
  • 多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
  • GPT-4超豪华套餐上线,全新32K模型遭泄密!文件上传分析,模型自动选择,绝杀千家AI公司
  • 刚刚,百川智能Baichuan2-192K发布,上下文窗口全球最长!一次读完《三体》,拿下7个SOTA
  • 美团面试:Redis 除了缓存还能做什么?可以做消息队列吗?
  • Node.js 21发布,升级V8引擎,带来稳定的WebSteams模块和Test Runner
  • 技术与实体加速融合,企业转型的新挑战和新机遇在哪?
  • 11 月 19-20 日,一场真正的金融科技峰会来了 | FCon
  • 是时候基于云重新设计 Kafka 了!AutoMQ 如何实现 Kafka 十倍的降本增效
  • 疯狂马斯克的“极限”计划居然成功了?!“下云”后成本降低 60%,部分功能代码精简 90%,30 天急速迁移服务器
  • 大模型工程与应用
  • 2023“数智杯”创新应用大赛,大数据人才竞技,引领产业创新
  • 抖音云原生向量数据库从“非主流”到“新常态”的演变
  • 写了个爬虫,赚了4w9!
  • 一张老截图,让我老泪纵横。。。
  • 高精地图 为什么从“小甜甜”变成了“牛夫人”?
  • 【深度学习】收藏 | 医学图像开源数据集汇总
  • 明目张胆!高校教授收到陌生邮件“我评审了你的论文,给我挂上名!”
  • 2024年,三维重建方向还能发顶会吗?(赠CV系列课程+书籍)