本文来自作者[缘喝援]投稿,不代表卓思号立场,如若转载,请注明出处:https://nc-sczs.cn/zhishi/202506-3420.html
本周,我们了解到,诸如Apple,Nvidia和Anthropic之类的庞大技术公司据称使用YouTube视频的字幕和笔录等信息来培训其AI模型。 这些视频的一些...
本周,我们了解到,诸如Apple ,Nvidia和Anthropic之类的庞大技术公司据称使用YouTube视频的字幕和笔录等信息来培训其AI模型。
这些视频的一些创建者对消息做出了反应,即他们的内容以这种方式使用了失望和沮丧,可以理解的是 。尽管他们同意YouTube的服务条款 ,其中可能包括隐含的协议,即可以以这样的方式使用内容,但他们将大量的作品投入了他们的视频中 ,并且继续使用,甚至在没有原始创作者看到薪酬甚至信誉的情况下就使用了内容。
不幸的是,我不认为这将是一个孤立的事件 - 相反 ,它使我成为了正在开发AI模型的技术公司的不言而喻的规则,并且作为在亚马逊的该领域工作的主管,据称是在这一领域工作的 ,据称是在这一领域,据称在这一领域告诉了前雇员,当时她忽略了她忽略潜在的与潜在的受版权问题的问题,“所有人”
你可能喜欢
Meta‘我的书训练它的ai–但是有一个更大的问题
AI版权难题
英国创意产业推出‘使其公平;反对AI内容盗窃的运动
(图片来源:Shutterstock/地面图片)
对培训数据的更为批判性
具有讽刺意味的是 ,几个月前,我唱了赞扬该公司在建立AI的同时,在其AI软件开发的核心方面的道德考虑的同时 ,他赞扬了该公司正在建立AI的方式。考虑到竞争对手AI模型(尤其是大型语言模型(LLM))如何使用可能未同意以这种方式使用的工作的人们的材料,对苹果采用这种方法的想法给我留下了深刻的印象 。
简而言之,开发LLM的一个重要方面是提供大量信息(称为培训数据) ,它们“学习 ”并改进,以产生连贯且令人信服的人类般的反应。它有助于将人类的言语(和写作)插入,以获得类似人类的言论。为了获得能够效仿写得很好 ,知情以及可能更有趣的响应的人类质量质量的反应,LLM开发人员输入了书面材料,例如书籍 ,网站内容和社交媒体帖子 - 其中很多受版权保护 。
(图片来源:Shutterstock/Motion Box)
导航培训数据的道德和法律复杂性
在我有关Apple&Rsquo的文章中,我详细介绍了《纽约时报》上安排的诉讼以及许多针对微软,OpenAI,Meta ,Alphabet(Google的母公司)等公司的著名作者,以及其他有关可能的版权侵权的人面临的诉讼。
对这种做法的批评者说,如果这些科技公司尚未获得各自的版权持有人或其法律代表的明确同意 ,则可以将其视为侵犯版权。但是,这些疑虑并不会阻止消费者AI产品的行业领导者,例如OpenAI(Chatgpt背后的公司) 。该公司发言人写了以下关于该问题的文章 ,作为证据的一部分,这些证据已提交给英国上议院通讯和数字委员会,如《电讯报》报道:
获得每日洞察力 ,灵感和收件箱中的交易
报名报名,以获取新闻,评论 ,意见,顶尖的技术交易等等。与我联系我的新闻和其他品牌的新闻和要约,代表我们值得信赖的合作伙伴或赞助人,或赞助您同意您同意条款 ,条件和隐私政策的信息,并享年16岁。
“因为今天的版权几乎涵盖了各种人类表达方式;包括博客文章,照片 ,论坛帖子,软件代码的废料以及政府文件的废料,以及今天不可能在不使用版权材料的情况下培训的领先的AI模型 。”
OpenAI的发言人继续指出 ,该公司在培训其AI模型中使用受版权保护的材料时遵守所有版权法,并认为“合法版权法不禁止培训”。
有关YouTube视频材料使用的报告来自有线和证明新闻,他们声称使用此材料未经创建者的许可违反了YouTube的规则。该材料是名为The Pile的数据集的一部分 ,该数据集由非营利性研究实验室Eleutherai建造,该实验室声称想要降低AI开发的障碍。
苹果公司已经前进,澄清一下 ,它使用桩数据来培训其研究模型,包括OpenElm,以了解有关LLM的最终目标,而不是训练Apple Intelligence(Apple&Rsquo os ai是专门用于苹果产品的) 。
这意味着 ,如果YouTube的规则被违反了,它们被Eleutherai打破了,Eleutherai将面临任何相关诉讼。我不知道这是否完全弥补了使用撕裂YouTube数据的科技公司 ,但它证明了这种做法的道德和法律后果的复杂程度,并且将变得非常迅速;这只是一个特定的实例。
(图片来源:Shutterstock/TADA图像)
随着AI迅速发展,道德和法律会随之发展吗?
“如果您不为此付费 ,那么您不是客户;您是要出售的产品 。 ”
自1970年代以来,这种情绪就一直存在,但是上述版本是作为一篇文章的评论 ,该文章在2010年讨论新闻集合者网站Digg,并且在谈论许多数字和互联网产品时,经常(或至少释义)经常重复(或至少释义)。在有关有线和证明撰写的文章的reddit线程中 ,这是一种普遍的情绪。
我并不是说我同意我的意见,就个人而言,我落在那些认为这是侵犯版权的人的身边,但是公司(不仅仅是科技公司)热爱新技术 ,这意味着他们可以为人类劳动支付较少的费用,同时继续增加产出和收入 。此外,许多政府和监管机构在制定新兴技术可能存在的新法规和法律框架时 ,通常会在吸收范围内放缓。
因此,我们可能会像我们想要的那样对此感到负面影响,但是我不认为这会阻止科技公司继续这种做法。坦率地说 ,我认为他们希望他们的产品在我们的生活中变得如此根深蒂固,即使道德或法律考虑赶上了他们,我们还是希望继续使用它们 。
我知道我听起来很愤世嫉俗 - 而且我也没有一个功能性的水晶球。也许情绪会转过;也许AI技术将为世界带来很多好处 ,以至于它超过了负面因素。也许,也许,也许&Hellip;我们必须继续观察AI的发展方式 。我能充满信心地说 ,AI的存在将在我们的生活中变得越来越重要,并且可能会产生意想不到的后果。正面和负面。因此,有时候我们将必须真正地和主动地理解和解决这些后果,但是我认为我们“我们还达到了这一点。
您可能也喜欢...
Slack正在对您的聊天行为进行培训其机器学习;除非您选择通过EmailPrivacy Parrevacy人工智能退出:对加密DataOH的培训Great–现在 ,Facebook和Instagram希望您的私人数据训练Meta的最新AI Pipe Dream
赞 (23)
评论列表(4条)
我是卓思号的签约作者“缘喝援”!
希望本篇文章《Big Tech的不言而喻的规则:使用在线内容和受版权保护的培训AI似乎是常态 - 看起来并不像即将改变的那样》能对你有所帮助!
本站[卓思号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育
本文概览: 本周,我们了解到,诸如Apple,Nvidia和Anthropic之类的庞大技术公司据称使用YouTube视频的字幕和笔录等信息来培训其AI模型。 这些视频的一些...