May 2025

生成式AI著作權訴訟,RAG技術再度成為焦點:新聞出版商聯合提告Cohere

2025年2月,包括富比士、衛報和洛杉磯時報等在內的十多家知名新聞、雜誌和數位出版商,於紐約南區聯邦地方法院對生成式AI新創公司Cohere提起訴訟,指控其涉及侵害其原告的著作權及商標權 1 。原告主張,Cohere以提供「可信賴的、可驗證的答案」為賣點,實際上是使用「檢索增強生成」(Retrieval-Augmented Generation, RAG)技術,在未經授權的情況下,利用出版商的受著作權保護內容進行資料庫構建及生成式輸出。

RAG技術由Patrick Lewis等人在2020年提出 2 ,目的在解決大型語言模型中常見的幻想(hallucination)、知識過時(outdated Knowledge)及不透明(non-transparent)等問題。值得一提的是,RAG技術的主要發明者之一Patrick Lewis,目前正在Cohere擔任研究員,持續投入相關技術的研發,該技術一經推出,便獲得廣泛應用,包括微軟、谷歌、亞馬遜及輝達等公司均已採用 3

原告主張,Cohere有下列著作權侵害行為:

1. 用於 AI 模型訓練(Training):Cohere 大規模地從網路上抓取 (scrape)文本,包括原告的著作,用來建立訓練數據集,以訓練其名為「Command Family」的大型語言模型。此外,Cohere 用了包含大量原告內容的第三方數據集,例如 Common Crawl 的 C4,然而此第三方數據集並未取得原告等授權。

2. 用於即時回應生成 (Real-time Use / RAG):Cohere 的服務(特別是透過 Chat 介面)使用RAG功能,使得模型能夠即時從外部來源(包括原告的網站)抓取內容,以生成回應。原告主張,Cohere 即使面對付費牆或網站的 robots.txt 指令(禁止抓取內容的指令),仍會進行內容複製。

3. 輸出侵權內容 (Outputs):Cohere 的服務在回應使用者查詢時,會提供原告著作的副本、實質性節錄或替代性摘要.。原告提供 Cohere Chat 輸出的範例,顯示其「Under the Hood」面板會顯示從原告網站複製的完整或部分文章內容。原告認為,這些輸出(無論是逐字複製或摘要)直接取代使用者訪問原始文章的需求,損害原告依賴的數位訂閱和廣告收入。

4. 未經同意改作(Unauthorized Adaptation):除了在「Under the Hood」面板下顯示原告著作的全部或一部,Cohere還對原告著作提供簡述或摘要,但是這類簡述或摘要的詳盡程度,幾乎已經達到取代原著作的效果,而不僅是合理限度內的引用。

雖然原告主張Cohere的行為已經構成直接侵害(direct copyright infringement),原告同時也主張Cohere 應對其使用者透過 Cohere 服務進行的直接侵權行為(重製、展示、散布原告作品)負間接侵權責任(secondary copyright infringement),以免Cohere將侵害的責任歸咎於使用者行為(因為使用者輸入提示詞後,Cohere的產品才會生成答案)。

除了上述著作權侵害之主張外,原告也主張Cohere標註資料來源的做法,對其構成商標權侵害,包括未經許可的情況下使用原告的知名商標,或者使其與AI生成的錯誤內容相連結,導致原告商標信譽受損,以及識別性降低。

本件是繼2024年10月在美國首宗針對RAG架構AI服務的著作權訴訟後,第二件聚焦於RAG架構的案件。這凸顯了隨著RAG架構在AI服務中的普及,相關的著作權爭議正日益浮現,並勢必成為未來AI著作權法領域的重要議題。
 
1.  Advance Local Media LLC et al, v. Cohere Inc., No. 25-cv-01305 (S.D.N.Y. Feb. 13, 2025).
2.  Patrick Lewis et al, Retrieved-Augmented Generation for Knowledge-Intensive NLP Tasks, ARXIV (Apr. 12, 2021), https://arxiv.org/abs/2005.11401.
3. Harry Booth, Patrick Lewis, Director of Machine Learning, Cohere, TIME (Sept. 5, 2024, 7:10 AM EDT), https://time.com/7012883/patrick-lewis/.

本網站上所有資料內容(「內容」)均屬理慈國際科技法律事務所所有。本所保留所有權利,除非獲得本所事前許可外,均不得以任何形式或以任何方式重製、下載、散布、發行或移轉本網站上之內容。

所有內容僅供作參考且非為特定議題或具體個案之法律或專業建議。所有內容未必為最新法律及法規之發展,本所及其編輯群不保證內容之正確性,並明示聲明不須對任何人就信賴使用本網站上全部或部分之內容,而據此所為或經許可而為或略而未為之結果負擔任何及全部之責任。撰稿作者之觀點不代表本所之立場。如有任何建議或疑義,請與本所聯繫。

作者