May 2025

生成式AI著作权诉讼,RAG技术再度成为焦点:新闻出版商联合提告Cohere

2025年2月,包括富比士、卫报和洛杉矶时报等在内的十多家知名新闻、杂志和数位出版商,于纽约南区联邦地方法院对生成式AI新创公司Cohere提起诉讼,指控其涉及侵害其原告的著作权及商标权 1 。原告主张,Cohere以提供「可信赖的、可验证的答案」为卖点,实际上是使用「检索增强生成」(Retrieval-Augmented Generation, RAG)技术,在未经授权的情况下,利用出版商的受著作权保护内容进行资料库构建及生成式输出。

RAG技术由Patrick Lewis等人在2020年提出 2 ,目的在解决大型语言模型中常见的幻想(hallucination)、知识过时(outdated Knowledge)及不透明(non-transparent)等问题。值得一提的是,RAG技术的主要发明者之一Patrick Lewis,目前正在Cohere担任研究员,持续投入相关技术的研发,该技术一经推出,便获得广泛应用,包括微软、谷歌、亚马逊及辉达等公司均已采用 3

原告主张,Cohere有下列著作权侵害行为:

1. 用于 AI 模型训练(Training):Cohere 大规模地从网路上抓取 (scrape)文本,包括原告的著作,用来建立训练数据集,以训练其名为「Command Family」的大型语言模型。此外,Cohere 用了包含大量原告内容的第三方数据集,例如 Common Crawl 的 C4,然而此第三方数据集并未取得原告等授权。

2. 用于即时回应生成 (Real-time Use / RAG):Cohere 的服务(特别是透过 Chat 介面)使用RAG功能,使得模型能够即时从外部来源(包括原告的网站)抓取内容,以生成回应。原告主张,Cohere 即使面对付费墙或网站的 robots.txt 指令(禁止抓取内容的指令),仍会进行内容复制。

3. 输出侵权内容 (Outputs):Cohere 的服务在回应使用者查询时,会提供原告著作的副本、实质性节录或替代性摘要.。原告提供 Cohere Chat 输出的范例,显示其「Under the Hood」面板会显示从原告网站复制的完整或部分文章内容。原告认为,这些输出(无论是逐字复制或摘要)直接取代使用者访问原始文章的需求,损害原告依赖的数位订阅和广告收入。

4. 未经同意改作(Unauthorized Adaptation):除了在「Under the Hood」面板下显示原告著作的全部或一部,Cohere还对原告著作提供简述或摘要,但是这类简述或摘要的详尽程度,几乎已经达到取代原著作的效果,而不仅是合理限度内的引用。

虽然原告主张Cohere的行为已经构成直接侵害(direct copyright infringement),原告同时也主张Cohere 应对其使用者透过 Cohere 服务进行的直接侵权行为(重制、展示、散布原告作品)负间接侵权责任(secondary copyright infringement),以免Cohere将侵害的责任归咎于使用者行为(因为使用者输入提示词后,Cohere的产品才会生成答案)。

除了上述著作权侵害之主张外,原告也主张Cohere标注资料来源的做法,对其构成商标权侵害,包括未经许可的情况下使用原告的知名商标,或者使其与AI生成的错误内容相连结,导致原告商标信誉受损,以及识别性降低。

本件是继2024年10月在美国首宗针对RAG架构AI服务的著作权诉讼后,第二件聚焦于RAG架构的案件。这凸显了随着RAG架构在AI服务中的普及,相关的著作权争议正日益浮现,并势必成为未来AI著作权法领域的重要议题。
 
1.  Advance Local Media LLC et al, v. Cohere Inc., No. 25-cv-01305 (S.D.N.Y. Feb. 13, 2025).
2.  Patrick Lewis et al, Retrieved-Augmented Generation for Knowledge-Intensive NLP Tasks, ARXIV (Apr. 12, 2021), https://arxiv.org/abs/2005.11401.
3.  Harry Booth, Patrick Lewis, Director of Machine Learning, Cohere, TIME (Sept. 5, 2024, 7:10 AM EDT), https://time.com/7012883/patrick-lewis/.

本网站上所有资料内容(「内容」)均属理慈国际科技法律事务所所有。本所保留所有权利,除非获得本所事前许可外,均不得以任何形式或以任何方式重制、下载、散布、发行或移转本网站上之内容。

所有内容仅供作参考且非为特定议题或具体个案之法律或专业建议。所有内容未必为最新法律及法规之发展,本所及其编辑群不保证内容之正确性,并明示声明不须对任何人就信赖使用本网站上全部或部分之内容,而据此所为或经许可而为或略而未为之结果负担任何及全部之责任。撰稿作者之观点不代表本所之立场。如有任何建议或疑义,请与本所联系。

作者