May 2025

生成式AI著作權訴訟，RAG技術再度成為焦點：新聞出版商聯合提告Cohere

蔡毓貞

合夥律師

2025年2月，包括富比士、衛報和洛杉磯時報等在內的十多家知名新聞、雜誌和數位出版商，於紐約南區聯邦地方法院對生成式AI新創公司Cohere提起訴訟，指控其涉及侵害其原告的著作權及商標權¹ 。原告主張，Cohere以提供「可信賴的、可驗證的答案」為賣點，實際上是使用「檢索增強生成」（Retrieval-Augmented Generation, RAG）技術，在未經授權的情況下，利用出版商的受著作權保護內容進行資料庫構建及生成式輸出。

RAG技術由Patrick Lewis等人在2020年提出² ，目的在解決大型語言模型中常見的幻想（hallucination）、知識過時（outdated Knowledge）及不透明（non-transparent）等問題。值得一提的是，RAG技術的主要發明者之一Patrick Lewis，目前正在Cohere擔任研究員，持續投入相關技術的研發，該技術一經推出，便獲得廣泛應用，包括微軟、谷歌、亞馬遜及輝達等公司均已採用³ 。

原告主張，Cohere有下列著作權侵害行為：

1. 用於 AI 模型訓練（Training）：Cohere 大規模地從網路上抓取（scrape）文本，包括原告的著作，用來建立訓練數據集，以訓練其名為「Command Family」的大型語言模型。此外，Cohere 用了包含大量原告內容的第三方數據集，例如 Common Crawl 的 C4，然而此第三方數據集並未取得原告等授權。

2. 用於即時回應生成（Real-time Use / RAG）：Cohere 的服務（特別是透過 Chat 介面）使用RAG功能，使得模型能夠即時從外部來源（包括原告的網站）抓取內容，以生成回應。原告主張，Cohere 即使面對付費牆或網站的 robots.txt 指令（禁止抓取內容的指令），仍會進行內容複製。

3. 輸出侵權內容（Outputs）：Cohere 的服務在回應使用者查詢時，會提供原告著作的副本、實質性節錄或替代性摘要.。原告提供 Cohere Chat 輸出的範例，顯示其「Under the Hood」面板會顯示從原告網站複製的完整或部分文章內容。原告認為，這些輸出（無論是逐字複製或摘要）直接取代使用者訪問原始文章的需求，損害原告依賴的數位訂閱和廣告收入。

4. 未經同意改作（Unauthorized Adaptation）：除了在「Under the Hood」面板下顯示原告著作的全部或一部，Cohere還對原告著作提供簡述或摘要，但是這類簡述或摘要的詳盡程度，幾乎已經達到取代原著作的效果，而不僅是合理限度內的引用。

雖然原告主張Cohere的行為已經構成直接侵害（direct copyright infringement），原告同時也主張Cohere 應對其使用者透過 Cohere 服務進行的直接侵權行為（重製、展示、散布原告作品）負間接侵權責任（secondary copyright infringement），以免Cohere將侵害的責任歸咎於使用者行為（因為使用者輸入提示詞後，Cohere的產品才會生成答案）。

除了上述著作權侵害之主張外，原告也主張Cohere標註資料來源的做法，對其構成商標權侵害，包括未經許可的情況下使用原告的知名商標，或者使其與AI生成的錯誤內容相連結，導致原告商標信譽受損，以及識別性降低。

本件是繼2024年10月在美國首宗針對RAG架構AI服務的著作權訴訟後，第二件聚焦於RAG架構的案件。這凸顯了隨著RAG架構在AI服務中的普及，相關的著作權爭議正日益浮現，並勢必成為未來AI著作權法領域的重要議題。

1. Advance Local Media LLC et al, v. Cohere Inc., No. 25-cv-01305 (S.D.N.Y. Feb. 13, 2025).
2. Patrick Lewis et al, Retrieved-Augmented Generation for Knowledge-Intensive NLP Tasks, ARXIV (Apr. 12, 2021), https://arxiv.org/abs/2005.11401.
3. Harry Booth, Patrick Lewis, Director of Machine Learning, Cohere, TIME (Sept. 5, 2024, 7:10 AM EDT), https://time.com/7012883/patrick-lewis/.

本網站上所有資料內容（「內容」）均屬理慈國際科技法律事務所所有。本所保留所有權利，除非獲得本所事前許可外，均不得以任何形式或以任何方式重製、下載、散布、發行或移轉本網站上之內容。

所有內容僅供作參考且非為特定議題或具體個案之法律或專業建議。所有內容未必為最新法律及法規之發展，本所及其編輯群不保證內容之正確性，並明示聲明不須對任何人就信賴使用本網站上全部或部分之內容，而據此所為或經許可而為或略而未為之結果負擔任何及全部之責任。撰稿作者之觀點不代表本所之立場。如有任何建議或疑義，請與本所聯繫。