ChatGPT即将面临一些“Memori后版权问题

伯克利加利福尼亚大学的研究人员已经发现,OpenAI ChatGPT和GPT-4语言模型训练的受版权保护的书。

这项研究发表在一篇论文题为“说话,记忆:一个考古的书知道ChatGPT / GPT-4”发现,模型已经记住了范围广泛的受版权保护的材料的识记与网上书章节出现的频率。模型的书籍列表记忆包括流行标题,如《魔戒》、《哈利波特》,饥饿游戏。

研究人员指出,科幻小说和幻想标题主导列表,它们属性的普及这些标题在网络上。然而,这导致了模型表现出更少的知识在其他体裁的作品。

研究也强调了机器学习中负责数据管理的重要性,作者提倡使用公共培训数据增加模型的透明度。

研究人员进行了一项“填充”测试来预测一个名字在未来保持一段令牌没有其他命名实体。通过测试表明,模型具有记忆相关的文本。然而,作者解释说,“(书)是否真正的问题存在于这些模型的训练数据是不负责。”

作为该研究的合著者大卫Bamman解释说,“外卖:开放模型是好的;流行的文本可能是不好的晴雨表模型性能;偏向于科幻/幻想,我们应该思考的叙事经验在这些模型编码,以及它如何影响其他行为。”

根据泰勒奥乔亚,圣克拉拉大学法律教授,有三个主要AI-generated文本相关的版权问题。第一个问题的担忧是否复制大量的文本或图像模型训练属于合理使用。奥乔亚认为,很可能被视为合理使用。

第二个问题是AI-generated输出是否也类似于输入数据,本文称之为“记忆。“奥乔亚断言这样的相似性可能构成侵权。最后,第三个问题属于AI-generated文本是否不是一份现有的工作是受版权保护。

在美国,奥乔亚指出,人类的创造力是目前版权保护所必需的。然而,活动,如修改和安排人工智能模型输出能使版权保护更为合理。

奥乔亚认为起诉OpenAI和谷歌等公司产生大的语言模型,生成文本,可能会在未来出现。

“到目前为止,我们已经看到了诉讼问题1和3,”奥查娅说。”一位诉讼问题迄今为止涉及人工智能image-generating模型,但是起诉AI text-generating模型是不可避免的。我们还没有看到任何诉讼涉及到两个问题。本文表明,这种相似性是可能的,在我看来,出现这种情况时,会有诉讼,它几乎肯定会构成侵权。”

随着AI-generated文本变得更普遍,AI-generated内容版权问题将变得越来越重要。研究强调需要模型行为的透明度,并注意文档的数据推动机器学习数据管理负责。