170000+视频被悄悄喂给AI训练,苹果英伟达等都在用,创作者毫不知情

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

AI侵权又来了……

最新消息,苹果、英伟达、Anthropic等大型AI公司被曝违规使用油管数据训练模型。

来自48000个频道的173536个视频的字幕,在博主不知情情况下,被喂给了世界上最先进的AI们。

范围波及可汗学院、MIT、华尔街日报、吉米秀以及大V博主等频道。

但是!

油管现在可能还没法直接起诉这些公司……

因为他们不是自己上手去扒数据,而是通过一个公开数据集

非营利组织Eleuther AI收集了这些数据,供AI研究和开发使用。

熟悉的感觉又来了——当初艺术家因不满自己的作品被用于AI模型训练,但数据集也不是AI公司自己上手扒的,而是来自非营利机构LAION。

有人就说,几乎所有模型都是在未经授权情况下使用数据训练的……这件事如果能让更多人意识到数据所有权的问题,那也算件好事。

目前,英伟达拒绝置评,苹果未予回应。

油管字幕数据是座“金矿”

这次被发现涉嫌违规使用油管数据的公司有:苹果、英伟达、Anthropic、Saleforeces、Databricks等。

发现这件事的机构是Proof News。

他们构建了一个工具,可以让博主自行搜索自己的视频是否被用于训练模型。

Anthropic方面已对此做出回应:

这个数据集确实包含油管上的一小部分字幕。但是油管的规定是直接使用会侵权,这和使用数据集不是一个性质,我们建议去询问数据集的作者。

Salesforce表示确实使用该数据集训练了用于学术研究目的的模型,并强调该数据集是公开可用的。

该数据集的提供方是Eleuther AI,他们曾推出了60亿参数的GPT-J,在当时被认为是最逼近于GPT-3的开源模型。

在2020年,他们发布了一个名为“Pile”的开源数据集,包含油管、维基百科等数据,供AI研究人员和开发者使用。如上几家公司提到的数据集,说的就是它。

目前Eleuther AI也未对此事做出回应。

一些发现被侵权的博主已经发声,表示这就是砸饭碗呀。

另外,这些被使用的数据也存在风险,Proof News表示油管上的字幕数据不少都包含脏话、偏见等。

但不可否认,油管上的数据是座“金矿”。

今年早些时候,OpenAI被曝使用语音模型转录了100万小时的油管视频来训练GPT-4。《纽约时报》说它们在2021年已经用完了所有可用数据,并讨论了把播客、油管视频等有声数据转成文字数据来使用。

网友:这也无解呀

实际上,AI侵权的类似案例已经不少了,比如之前艺术家不满Stability AI,情况几乎一模一样。

有人就觉得,这也不是大型公司在背后操控,现在似乎没有很好的解决办法。

对于更加直接的侵权事件,比如《纽约时报》指控OpenAI违规使用其作品训练模型,官司现在也还没有结果。

最新进展是,OpenAI要求《纽约时报》证明其作品的原创性,还要查看采访笔记等来证明每篇文章的原创性。《纽约时报》进行了反驳……

不过有意思的是,科技网站Ars Technica发现自己发在油管上的视频也被使用了。

但这些视频的文案内容是他们用AI写的。

Proof News也提到,被使用的油管数据里还包括鹦鹉学舌的视频。

也就是说,AI现在正在模仿人类、模仿英语、以及模仿其他AI……

参考链接:
[1]
https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/
[2]https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/
[3]https://www.proofnews.org/youtube-ai-search/

量子位年度AI主题策划正在征集中!

欢迎投稿专题 一千零一个AI应365行AI落地方案

或与我们分享你在寻找的AI产品,或发现的AI新动向


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

相关推荐

  • Mamba写代码真的超越Transformer!原始论文入选顶流新会议
  • 科研大模型来了!专为大学生打造,无需额外提示词,支持论文推荐/降重/润色等
  • 国内开店卷不动,换上AI出海试试
  • 300亿,排名第一的软饮卖了
  • Java 的双亲委派是什么?阿巴阿巴
  • 送一些程序员壁纸,最后一张有惊喜!
  • Java 面试常见问题总结(2024 最新版)
  • 面试官:你了解乐观锁和悲观锁吗?CAS 是如何实现的?
  • AI狙击配音行业!5000名澳大利亚配音演员饭碗不保,AI克隆配音取代真人角色?
  • 只要4.66MB,安卓版Claude今日起人人可下!AI应用版图已补全
  • 原作亲自下场!Mistral首款开源7B Mamba模型「埃及艳后」效果惊艳
  • AI大神Karpathy官宣创业,打造80亿人AI原生学校!首款课程GitHub斩获17k星
  • 「13.11>13.8」冲上热搜,一道题让人类AI集体降智?所有LLM致命缺点曝光
  • 大厂P7老公被裁,说以后房贷要靠我还
  • ICML 2024 | 具有O(L)训练存储和O(1)推理功耗的时间可逆脉冲神经网络
  • 招聘|快手算法工程师
  • 【报名中】阿里云 x StarRocks:极速湖仓第二季—上海站
  • 分布式 Data Warebase - 让数据涌现智能
  • 微软野心再现:对Excel和谷歌Sheet下手了!
  • 百度内容生态视频AIGC新探索