AI应如何“合理”运用他人作品

来源：中国新闻出版广电报2024-03-21 19:39

　　随着人工智能技术的快速发展与广泛应用，其引发的法律风险也正逐步暴露在大众视野中。其中，AI 开发者未经版权人同意而擅自使用其作品用于训练模型行为的法律性质，已经成为目前颇受关注的核心焦点之一。

　　以去年年初美国3名艺术家与全球知名图片运营商盖蒂图片分别对Stability AI公司提起诉讼为开端，到年末的美国《纽约时报》起诉微软和Open AI公司，以及近日3位作家集体起诉知名芯片制造商英伟达擅自使用其拥有版权的书籍来训练人工智能……与之相关大小诉讼已多达数起，由此引发的法律争议正愈演愈烈。

　　从技术角度而言，AI模型的开发一般要经历数据输入与数据输出两大阶段。数据依据应用目的的不同可以包括多种模态，如文本、图片与音频等，其中不乏受版权保护的文字作品、美术作品、摄影作品与音乐作品等。相较于输出端的AI生成物的可版权性问题，输入端的未经许可使用他人作品用于数据训练行为的法律性质讨论更具紧迫性，因为后者是关系AI产业能否正常发展的前提性问题，对技术的进一步研发存在直接影响。

　　通常情况下，训练数据的获取方式包括通过爬虫协议抓取、通过破译等技术手段直接复制、将非电子出版物进行数字化再现以及在用户服务协议中设置强制许可条款四种。为了构建数据集，通过上述手段获取的数据必将以一定的形式储存并固定在服务器中，形成某种形态的副本，以供后续模型学习分析。此种通过大量复制、存储并形成复制件的行为，符合《著作权法》中对于复制的内容和方式的规定，存在复制权侵权的风险。国外的Stability AI、Open AI和Meta（均为业内头部AI公司），以及国内的行吟信息科技（上海）有限公司（社交平台“小红书”的主体公司）均因此被告上法庭。以后者为例，小红书旗下的AI绘画产品Trik未经授权使用了画师的原创作品作为训练数据，并生成了与原作高度相似的图片，因而被画师们以著作权侵权为由告上法庭。

　　此外，在AI模型数据集的构建及后续的模型训练中，可能还会对数据予以翻译、标记、汇总与分析——应当如何评价这些行为的法律性质，目前尚存在较大争议。

　　有观点认为，这些行为存在翻译权、改编权、汇编权侵权风险；也有观点认为，其可能落入“应当由著作权人享有的其他权利”，即兜底权利的范畴；还有观点认为，这些行为都是模型的内部活动，并不受《著作权法》控制。

　　擅自使用作品训练AI模型较难纳入合理使用的范畴

　　2023年5月，美国国会就“人工智能和知识产权”召开听证会，讨论了版权保护作品在生成式人工智能模型训练中的使用等话题。

　　其中，就输入端数据训练行为引发的侵权风险，以Stability AI为代表的人工智能公司主张其行为构成合理使用，声称“培训这些模型是对现有内容的一种可接受的、变革性的和有益于社会的使用，受合理使用原则的保护”。

　　2023年12月27日，《纽约时报》宣布在纽约州曼哈顿联邦法院向Open AI及微软提起诉讼，指控这两家公司非法使用《纽约时报》的数百万篇文章以训练他们的聊天机器人。而后在Open AI发布的官方回应中，其亦将“训练行为构成合理使用”作为关键性的反驳理由之一。

　　所谓合理使用，是指在符合法定情形的条件下，可以不经著作权人许可并不向其支付报酬而使用其作品。在美国，在认定是否构成合理使用时一般采取“四要素判断法”，其中“使用行为会对作品潜在市场或价值的影响”是关键考虑要素之一。以美国作家协会与Open AI公司之间的集体诉讼为例，被告利用网站爬取等方式复制了大量原告作家们的畅销小说用于训练ChatGPT模型，用户可以通过ChatGPT获取小说的内容，这将导致原作的市场价值受到极大减损。就这一点而言，AI公司的合理使用抗辩难以成立。

　　我国《著作权法》第24条规定了13种合理使用的情形。就AI模型的数据训练行为而言，与之相关的情形包括“为个人学习研究目的使用”与“为科学研究目的的使用”两种。然而，一方面，人工智能产品的开发一般是由大型科技公司组织，主体为公司而非自然人，不符合出于“个人学习研究”情形下的主体条件。另一方面，为了使模型生成的结果更加接近人类创作，其需要通过分析大量数据以不断调整更新模型参数，此亦不符合“为科学研究目的”情形下对于“少量”使用作品的要求。

　　与此同时，大多数模型的训练目的在于通过最终AI产品的推广与应用实现商业盈利而非学习或科研，很难将其纳入合理使用的范畴中。

　　传统授权许可模式难以适应人工智能产业特点

　　在“未经许可使用他人作品训练AI模型”的行为难以纳入著作权合理使用的范畴之内的前提下，传统的“授权许可”模式在适用上也存在一定的困境。

　　由上可知，目前对于AI大模型的训练行为是否侵犯著作权、侵犯何种著作权尚未形成统一的认知，即所谓的“授权的基础”仍处于一个模糊且不稳定的状态。更重要的是，用于AI模型训练的数据集内往往包含了成千上亿份数据，即包括公有领域的资源与尚在著作权保护期内的作品。面对如此庞大的数据量，若要求人工智能开发者联系每部作品的著作权人并与其一一签订授权许可协议，则会严重滞缓训练数据集的搭建，从而导致整个人工智能产业直接夭折。

　　对此，有观点提出可以利用著作权集体管理组织解决授权难题。著作权集体管理是指依据著作权人的授权，由特定的组织对著作权进行的集中管理。该组织是为著作权人的利益依法设立，根据其许可对著作权及其邻接权予以统一管理的特定组织机构，我国目前已有音乐、音像、文字、摄影和电影5个著作权集体管理组织。

　　为了解决上述授权难的问题，人工智能开发者可以通过著作权集体管理组织获得某一领域的作品授权，以此降低训练前的搜索与沟通成本，同时也能降低数据来源的合法性风险。

　　此外，亦有学者创新提出借鉴计算机领域的开源许可模式以建立开放授权机制，即著作权人通过声明作品使用者的权利和义务的方式，事前将授权予以任何满足条件的主体，以此打破一对一的低效授权困境。

　　但是，上述观点目前均处于理论论证阶段，是否能够解决AI训练数据来源的合法性问题仍有待立法与实践的进一步探索。

　　实现技术与艺术、法律良性互动与协同发展

　　目前，如何以法律手段维持人工智能产业发展与人类艺术创新之间的平衡，已成为世界各国未来立法与监管的重点方向之一。

　　就未经许可擅自使用他人作品训练AI模型的行为定性，在日前欧盟公布的最终版《人工智能法案》中，对类似ChatGPT的生成式AI研发者给予了“发布用于训练数据的受版权保护的数据摘要”的说明义务。

　　同样，英国在今年2月初发布的《大型语言模型和生成式AI》报告中指出，科技公司未经许可或补偿就将权利人的数据用于商业目的，并在此过程中获得巨额经济回报是不公平的；开发者应明确说明其网络爬虫是用于获取数据进行人工智能生成训练还是用于其他目的。此外，意大利政府也表示其正在制定一项人工智能监管法律，旨在确定一些原则与规则作为对《人工智能法案》的补充。其总理梅洛尼强调，人工智能技术只有在以“人类的权利和需求”为中心的道德规则范围内发展，才能释放出它所有的积极潜力。

　　今年两会期间，人工智能是与会代表委员们热议的一个重要话题。我国去年7月发布的《生成式人工智能服务管理暂行办法》从价值规范、行为规制和过程监管等方面对生成式人工智能加强了治理，尤其是规定用于AI训练的数据须具有合法来源，不得侵犯他人依法享有的知识产权。然而，随着技术的广泛应用和不断演进，人工智能服务的开发者、提供者、使用者、监管者在未来实践中都还将面临不少的法律挑战，上述指导性规范并不足以解决现实中的争议与难题。因此，有两会代表提出要加强人工智能领域的著作权保护，明确人工智能领域版权保护的原则性问题；也有代表建议应推动建立人工智能大数据开放创新平台，支持开展专门的数据标注、清洗等预处理工作，为训练大模型提供优质数据来源。

　　对此，我国应秉持《著作权法》鼓励创新的立法宗旨，坚持“以人为本”理念，在确保作者的权利得到充分保障的前提下，促进人工智能产业发展。一方面，人工智能技术开发者应当推动建立“选择退出”或“选择加入”机制，给予著作权人充分的选择决定是否将其作品用于人工智能训练。这既能转变人工智能开发者因权利人“不知情同意”授权而一劳永逸的行为，也可以从源头上保证数据获取的合法性，有利于人工智能后续的开发与应用。另一方面，政府部门也可以推动建立人工智能开发者与著作权人的良性对话机制，鼓励企业、研究机构与著作权集体管理组织共同探索建设符合法律法规要求的正版高质量数据库，以此实现著作权人的利益保障与人工智能企业的合规发展。

　　在全球竞相发展人工智能技术的时代背景下，我国首次将“人工智能+”写入2024年政府工作报告中，这标志着我国将进一步加强人工智能领域的顶层设计，并加快其与其他行业领域的多维度深度融合。

　　但是，人工智能发展的前提离不开法律与政策的规范与指引，坚持“以人为本”的治理原则，实现技术与艺术、法律良性互动与协同发展，是加快打造人工智能治理的中国模式和国际样板的关键。

　　（作者于波系华东政法大学知识产权学院副院长；应雨晴系华东政法大学知识产权学院2022级硕士研究生；程得琳系北京师范大学法学院研究生）

[ 责编：李飞 ]

阅读剩余全文（）