September 2025

美国著作权局关于「著作权与AI」报告三部曲
第三部分:生成式AI的训练

美国著作权局(U.S. Copyright Office)于2025年5月发布关于「著作权与AI」报告三部曲的第三部分,探讨「生成式AI的训练」(Generative AI Training)」议题。这份报告是基于美国著作权局先前于 2023 年 8 月发布的征询意见书(Notice of Inquiry, NOI)与需各方回复所汇编而成。NOI广泛征集意见后,引发了业界、学界与创作者之间一场深刻且意见分岐的辩论。这场辩论的核心,体现了两大重要价值的权衡拉锯,如天秤的两端,一端是「技术创新的迫切求」,另一端则是「创作者的著作权保障」。 本所前已介绍第一部分与第二部分报告,本文将接续介绍第三部分报告之内容与建议,并提出对我国之启示。
 
一、技术背景概述:生成式 AI 模型如何训练?
在进一步探讨著作权与AI模型训练的议题前,需要先了解生成式AI模型训练的基础技术原理:

1. 机器学习与神经网路
生成式 AI 模型并非透过人类制定的程式规则来运作,而是透过机器学习的过程,从海量训练资料中「学习」出统计模式与关系。此过程由神经网路完成,神经网路是一种复杂的数学函数,由数十亿个「参数」或「权重」组成。在训练阶段,这些权重会持续反复调整,以提升模型效能。最终形成的模型,其本质就是由这些从资料中「学习」到的模式权重。

2. 训练资料
生成式 AI 的表现优劣,高度取决于训练资料的数量、品质与用途。首先,在数量上,模型通常需要数以百万或数十亿笔作品作为基础,资料的规模与模型表现能力有直接相关。资料常见来源包括网路公开资料、授权资料、或开发者自有的使用者资料。需注意的是,「公开可得」并不等同于「授权合法」,这是引发著作权争议的关键点之一。无论原始资料来源为何,通常都需经过编纂(curation),以利于训练。「编纂」包括资料的过滤、清理与汇整。这些步骤不仅影响模型最终效能,也涉及高度的著作权与授权争议。

3. 训练过程
部分NOI回复意见将训练阶段区分成「前训练阶段」(pre-training)与「后训练阶段」(post-training)。前者是生成式 AI 展现其核心进阶能力的关键,在此阶段,模型会接触大量的文本或其他资料,并学习预测下一个「token」(词元)。透过对数十亿个范例的重复学习,模型最终学会语言、图像或声音等背后的潜在模式。

4. 记忆与部署
生成式 AI 在训练过程中可能出现「记忆化」现象,即模型输出与训练资料高度相似,甚至逐字重现。业者如 OpenAI等开发商主张模型内部仅存有统计参数与权重,不包含原始资料的「副本」。不过,部分NOI回复意见指出质疑,主张若模型确实能生成与原作高度相似的内容,其实质效果等同于对特定作品的「记忆」。学界则折衷地认为,模型学到的模式可以抽象也可以具体。当学习到的模式达到高度具体时,则可能产生「记忆化」现象。虽然记忆化可能有助于提升模型的实用性,但由于输出的内容可能与训练资料极为相似,从而引发实质的侵权疑虑。
 
二、构成「形式侵权」之探讨
美国著作权法赋予著作权人重制、发行、公开表演、公开展示及制作衍生作品等多项专属权利。要构成形式侵权(prima facie infringement),必须满足两个要件:一是权利人拥有有效著作权,二是发生对于著作中原创性要素的复制。生成式 AI 的开发与使用若涉及受著作权保护之作品,即可能在下列核心环节中构成形式侵权:

1. 资料搜集与编纂:
AI训练的第一步,是获取和准备资料。这个过程的必要行为,如资料的下载、在不同储存媒介间的转移等,直接涉及对著作权人「重制权」的侵害。多数意见认为,在这个资料取得与编纂阶段所进行的复制行为,确实构成重制权的侵害。

2. 训练过程:
AI模型的训练过程涉及对资料的多次复制与处理,结果可能导致模型权重中含有训练资料的复制品。因此,即使后续复制模型权重的人并未参与训练,也可能构成「形式侵权」。如前所述,模型可能会有「记忆」训练范例的现象,若模型能在未经外部提示的情况下,生成实质相似的训练范例,则表示该表达形式已以某种方式存在于模型权重中。

法院对于模型权重是否侵权的案件有不同见解。在Andersen v. Stability AI [1] 案中,即使被告仅下载而未参与模型之训练,法院仍以「该模型中已保留了复制品或受保护的要素」,而认为本件构成著作权之侵害。美国著作权局同意该法院之见解,并指出:欲判断模型之权重是否涉及著作权之侵害,需视该模型是否保留或记住原作品中「实质受保护」的表达。

3. RAG(检索增强生成;Retrieval-Augmented Generation):
RAG是一种能即时检索外部资料并将其纳入回应的技术。在复制或撷取外部来源资料的过程中,可能涉及重制权之侵害。

4. 输出行为:
当生成式 AI 输出的内容与原作品实质相似或几乎相同时,即可能涉及重制权的侵害。若输出是对原作进行修改或演绎,则可能侵害改作权,甚至依使用情境,还可能涉及公开展示权或公开演出权。

有鉴于上述AI模型训练的各环节都可能构成著作权的形式侵害,主要的法律争点便集中于这些行为是否适用「合理使用(Fair Use)」原则的豁免范畴。
 
三、从合理使用的角度分析 AI 模型训练行为
合理使用是美国著作权法中的一项核心衡平原则,允许在特定情况下,未经授权使用受著作权法保护的作品。在美国著作权法下,法院会透过四个法定要件的综合评估来判断使用行为是否符合合理使用:
1. 使用的目的和性质(Purpose and Character of the Use;
2. 受著作权保护作品的性质(Nature of the Copyrighted Work);
3. 所使用的程度,以及其在整体著作中所占的重要性(Amount and Substantiality of the Portion Used);
4. 使用对于该类著作的潜在市场或价值所造成的影响(Effect of the Use upon the Potential Market)。

(一)  要件一:使用的目的和性质:
法院在此要件下,主要衡量转化性(Transformativeness)与商业性(Commerciality)两大因素。
 
1.「转化性」:
转化性的核心在于新作品是否仅取代原作,还是添加新内容而改变原作既有的表达、内涵或欲传递之讯息。转化的程度越高,越可能被认为属于合理使用。

美国著作权局认为,将大型且多样化的资料集用于训练生成式 AI 基础模型,通常具有「转化性」,不过个别案例中转化性程度不一。由于生成式 AI 模型的目的可能同时具备转化性与非转化性,开发者在训练与部署时若能入若干限制(例如拒绝生成特定著作权片段)将会对此要件的评估产生正面影响。
 
2.「商业性」:
此因素探讨未支付费用使用受保护作品来获取经济利益是否公允。美国著作权局指出,判断标准并非仅取决于营利与否,而应视该使用是否实质服务于商业目的。
 
(二)要件二:受著作权保护之作品性质 
此要件旨在区分不同类型著作受保护的程度。事实或功能性作品(如新闻报导)被认定为「合理使用」的可能性较高,而高度创意作品(如小说、歌曲或绘画)被认定为合理使用的可能性较低。
 
(三)要件三:所使用的程度,以及其在整体著作中所占的重要性
美国法院在衡量此因素时,并非单纯计算数量,更会考量所使用内容的品质与重要性。即便仅复制著作一小部分,若该部分是作品的「核心」,也可能被认定为非合理使用。

在 Sony v. Connectix [2] 和 Sega v. Accolade [3] 等经典案例中,美国法院曾将「向公众提供的资讯量」视为重要考量。法院认为,尽管为了满足功能性需求而完整复制游戏机系统,但因被告「最终提供给大众的产品并没有包含受著作权保护的内容」,因此使用程度的重要性被降低。
 
(四)要件四:对潜在市场的影响
此要件通常被认为是合理使用判断中最重要的因素,主要包括下列三种损失:

1. 销量损失:
若 AI 模型能产出与原作品几乎相同或高度相似的内容,并在市场上流通,消费者可能选择不再购买原版作品,直接导致著作权人的销量损失。

2. 市场稀释:
「市场稀释」意指即使AI产出的内容不直接复制特定作品,但其庞大的生成量与相似风格会对该作品的市场形成竞争。举例而言,当大量AI生成的言情小说或音乐涌入市场,将与人类创作之作品形成竞争,稀释销量与授权金,降低创作者的创作诱因,对同类型作品的市场危害甚巨。

3. 授权机会之损失:
实际或潜在授权市场中的收益损失,也构成市场损害。许多产业主张,为AI训练提供授权是可行的商业模式,新闻媒体和音乐产业均已有实际的授权案例。然而,现有的授权模式可能无法满足AI所需的大量数据,且成本过高、所有权分散等问题,将导致全面授权难以实现。 

美国著作权局折衷地认为,当授权市场确实存在或有发展可能时,未经授权的使用倾向被认为属「非合理使用」;惟若授权障碍无法克服而导致授权市场无法运作,因作品本身并无授权管道,则即使属未经授权的使用,也可能被认为「属于合理使用」。
 
4. 公共利益:
许多NOI回复意见认为,未经授权的生成式 AI 训练能促进公共利益,如OpenAI主张生成式 AI能促进人类的创造力,Meta更于诉讼中指出,在 Llama 基础上开发的平台能将「拯救生命的服务与技术推向市场」。惟美国著作权局认为,对于 AI 训练的益处,并无法带来足以改变合理使用界线的决定性优势。
 
四、AI 模型训练「授权」的可行性
若 AI 训练过程中,使用受著作权保护作品被认定非属合理使用,开发者即须向著作权人取得授权。以下将探讨 AI 训练内容授权的可行性、挑战以及不同授权模式。

模式 內容分析
自愿授权 1. 直接授权:由个别著作权人与使用者(如AI开发者)之间,直接协商并授权 1. 自愿授权的可行性:
代表科技产业之评论者认为,要为 AI 训练取得海量且多样化的版权内容,成本高昂且行政上极为困难;惟,代表创作者的评论者主张,授权费用是必要的商业成本,以「太昂贵」为借口规避授权并不合理。

2. 是否能提供实质的补偿能力:
代表科技产业之评论者认为,由于AI训练数据量极大,即使总版权费用高昂,分摊到每个创作者身上的授权金仍微不足道,不符合成本效益;代表创作者的评论者则主张,虽单笔授权金额不高,但能藉此激发创作者创作新作品,且AI公司可透过未来收益分成之方式取代传统授权金。

3. 集体授权可能之法律上障碍:
部分评论者指出,著作权人联合协商集体授权,可能引发反托拉斯(反垄断)问题。为避免后续疑虑,有认为应针对「AI训练之集体授权问题」于反托拉斯法中提供豁免制度。
2. 集体授权:透过第三方组织(通常称为「集体管理组织」)来进行的授权模式。著作权人将其作品的授权权利交由这些组织管理,由组织代表多位权利人与使用者(如 AI 开发者)进行协商与授权。
法定授權 1. 强制授权:由法律建立的授权制度,允许使用者无须征得著作权人之同意即可使用其作品,但必须遵循监管要求并支付法定授权金。 1. 优点:
免除个别磋商之需求,可解决高额交易成本之问题。

2. 缺点:
(1) 削弱著作权人控制其作品使用与发布的权利:此制度可能剥夺著作权人选择合作伙伴、决定作品如何使用以及协商报酬的自由。

(2) 高昂的行政成本:虽此制度能减低交易成本,惟建立此架构需庞大之行政体系,须付出高昂成本。

(3) 无法跟上技术发展:此制度趋于僵化,难以跟上生成式 AI 技术的快速发展,最终可能同时伤害著作权人与 AI 开发者。
2. 扩张性集体授权:由集体管理组织代表,在自由市场就特定类别全部受著作权保护之作品,针对特定用途进行授权与外部协商。为取得此类授权,集体管理组织通常须证明其代表该类作品中相当数量的著作权人。 1. 优点:
结合自愿授权的灵活性以及强制授权的广泛性,能降低交易成本。

2. 缺点:
部分评论者认为此制度存在与强制授权相类似之缺点,且因规模过大而产生执行上的困难。

美国著作权局针对当前局面提出建议:政府应暂时不干预,允许并鼓励自愿授权市场持续发展。尽管在特定领域,对于AI训练的自愿授权仍存在所有权分散、议价成本高等执行上的困境,但是报告指出乐观趋势,即直接与集体的自愿授权协议在过去几年间已积极发展并不断完善。这个发展证明,透过市场机制达成 AI 训练所需的授权,是可行且具潜力的解决方案。因此,著作权局认为应给予市场足够空间,让其自我调节,而非过早祭出政府强制介入措施。
 
五、美国著作权局之态度
美国著作权局在全面分析生成式AI的技术原理、现行法律适用与市场动态后,对AI的著作权议题采取下列立场及建议:

1. 现行法律框架具备足够弹性:
美国著作权局认为,美国现行的法律框架,尤其是「合理使用」这项具备高度弹性的原则,已足够因应当前 AI 模型训练带来的法律挑战,现阶段不及于进行大规模立法修订。
 
2. AI 训练的合法性应采取「个案判断」模式:
美国著作权局强调,AI 训练是否合法,必须采取个案判断模式,不能一概而论。是否构成合理使用,取决于多项因素的综合评估:具有强大输出控制机制的非商业研究模型,较可能属于合理使用;而以盗版内容训练,进而产生与原著作竞争的商业模型,则较可能构成侵权。判断的关键因素包括AI开发者使用了哪些作品、资料来源为何、训练目的为何,以及对于最终输出内容的控制程度。
 
3. 支持市场导向的「自愿授权」解决方案:
美国著作权局明确倾向于市场化解决方案,建议应让自愿授权市场成熟,并认为近来不断增加的直接与集体授权交易,正是市场有能力运作且能有效解决训练资料需求与著作权保护间矛盾的有力佐证。

此份报告清晰地反映美国著作权局谨慎观察、鼓励市场调节,并坚持既有合理使用原则的核心态度。


[1] Andersen v. Stability AI Ltd., 744 F. Supp. 3d 956, 982–84 (N.D. Cal. 2024).
[2] Sony Comput. Entm’t v. Connectix, 203 F.3d 596, 606 (9th Cir. 2000)
[3] Sega v. Accolade, 977 F.2d 1510, 1526–27 (9th Cir. 1992)

相关文章


本网站上所有资料内容(「内容」)均属理慈国际科技法律事务所所有。本所保留所有权利,除非获得本所事前许可外,均不得以任何形式或以任何方式重制、下载、散布、发行或移转本网站上之内容。

所有内容仅供作参考且非为特定议题或具体个案之法律或专业建议。所有内容未必为最新法律及法规之发展,本所及其编辑群不保证内容之正确性,并明示声明不须对任何人就信赖使用本网站上全部或部分之内容,而据此所为或经许可而为或略而未为之结果负担任何及全部之责任。撰稿作者之观点不代表本所之立场。如有任何建议或疑义,请与本所联系。