专业观点

人工智能系列:守正出奇 行稳致远—研发和运营生成式人工智能的合规风险和实务建议

导览

1、输入端:训练数据/模型来源合规

1. 训练数据来源合法

2. 避免训练数据侵犯知识产权

3. 训练模型来源合法

2、输出端:AI生成内容(AIGC)合规

1. 内容标识义务

2. 避免侵犯知识产权

3. 减少幻觉和确保安全性

导言

近年来,人工智能(Artificial Intelligence,“AI”)技术呈现出爆发式发展,特别是在自然语言处理、图像生成、代码自动化等领域取得了显著突破。其中,基于Transformer架构的生成式AI模型(Generative Artificial Intelligence,“GAI”)脱颖而出,以来自美国OpenAI的GPT系列、谷歌的Gemini等为代表,通过用户指令可以快速生成文本、音频、视频等多种内容,经过海量数据的长时间训练,逐渐展现出了令人惊异的性能,并被广泛应用于新闻撰写、辅助决策、教育培训、商业文案、音视频制作等多样化的场景,推动了知识生产方式与内容生成效率的根本性变革。2025年年初,来自中国的生成式AI开源模型——DeepSeek横空出世,其出圈和火爆验证了通过算法蒸馏降低训练成本的方式训练顶尖AI模型的路径是行之有效的,这无疑为生成式AI的蓝海市场打入了一针强心剂,或将使得越来越多的中小企业加入到这场声势浩大的AI竞赛中。

而另一方面,在技术大跃迁的同时,伴随而来的是前所未有的法律挑战,尤其是在合规层面,其复杂性和风险程度正日益凸显。在生成式AI的研发与运营过程中,训练数据/模型的采集、使用与处理贯穿始终,对于希望研发和运营生成式AI,提供AI服务的企业而言,如何确保训练数据的来源合法、模型训练不侵犯法律权利,以及如何合规使用算法蒸馏等技术手段,是在当前抢占AI技术制高点的激烈百米冲刺中无法回避的重要问题。与此同时,AI生成内容也可能引发新的法律风险,如因AI幻觉导致生成虚假信息造成公众混淆,侵犯第三方知识产权等,这些问题不仅考验着企业的合规管理能力,也挑战着现有法律体系的适应性与回应机制。

正因为此,自2022年末ChatGPT面向公众开放使用以来,全球的AI立法和监管呈现出逐渐规范化的态势,我国也先后出台了《生成式人工智能服务管理暂行办法》《人工智能生成合成内容标识办法》等多部相关法规,监管趋严,司法实践中亦陆续产生了相关案例。在此背景下,本文将聚焦企业研发和运营生成式AI视角,以输入端的训练数据/模型来源合规以及输出端的AI生成内容合规作为主轴,剖析近两年来我国AI研发和运营中的合规风险的重点问题,并提出实务建议,以期为已经或准备提供AI服务的企业提供决策支持与实践参考。

一、输入端:训练数据/模型来源合规

1. 训练数据来源合法

《生成式人工智能服务管理暂行办法》规定,AI服务提供者在训练中应使用具有合法来源的数据;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;应当遵守《网络安全法》、《数据安全法》、《个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求[1]。

为确保训练数据来源合法,我们建议AI服务提供者重点对照以下四类不同的训练数据来源,进行合规风险的排查和对应:

(1)基于爬虫工具爬取的互联网数据集

实践中通过编程等方式自动实现对互联网目标站点和目标信息的批量获取,即所谓通过“爬虫技术”采集训练数据的情形非常常见。使用爬虫技术爬取互联网数据用于训练时,应当:

尽量爬取已合法公开数据,不应避开或突破被访问网站的反爬取技术防护措施对数据进行爬取[2],不得干扰网络服务的正常运行[3];

在用于模型训练前对数据进行数据清洗,涉及爬取个人信息的应对个人信息进行匿名化处理[4];

遵循网站设置的Robots协议(Robots Exclusion Protocol),在Robots协议已明确限制对相关数据进行爬取的情况下不进行爬取[5];

确保对爬取数据的利用不对原网站/系统产生实质性替代,影响原网站/系统服务的正常运营。

(2)基于合作方的数据集

从合作方的数据供应商处间接收集数据用于训练时,应确保合作方数据来源合法,具体而言:

与合作方签订协议[6],要求合作方承诺提供的数据具有合法来源及证明(包括但不限于就该等数据的使用已取得数据主体的授权),确保不侵犯个人隐私和第三方的合法权益[7];

自身对数据集的使用应严格限定在合作方已取得授权的范围内,不得超出授权范围使用[8];

尽量通过数据交易所等采购具有确权合规存证的数据集[9]。

(3)基于第三方的开源数据集

使用互联网第三方自主上传的开源数据集也是常见的训练数据来源之一。开源数据集通常包含原始网页、元数据和文本等语料提取数据。使用开源数据集进行训练,应:

识别数据集中是否包含个人信息、商业秘密等可能涉及第三方权益的数据;

尽量在训练前对上述数据进行匿名化处理或剔除,否则应当进一步确认相关开源协议或数据集发布方的说明,辨明开源数据集的提供方是否已取得个人的授权以及授权的范围。

(4)基于人机交互的数据集

人机交互数据,是指用户在使用AI过程中,向AI输入的提示词以及针对AI回答作出反馈的内容。使用人机交互数据集进行训练,应:

确保已针对AI服务设置用户协议或服务条款规范用户的输入行为[10];

重点识别用户提交的数据中是否包含个人信息、商业秘密等可能涉及第三方权益的数据,对于可能涉及的个人信息,应进一步结合机器过滤机制和人工审核机制进行识别,制定、完善细化个人信息识别规则,加强个人信息保护方面的培训等方式,以提高识别准确性;

尽量在训练前对上述数据进行匿名化处理或剔除,确需处理未经匿名化处理的个人信息时,应事前在隐私政策等个人信息处理规则中告知用户个人信息的处理情况(例如用于训练AI模型),并取得同意。

2. 避免训练数据侵犯知识产权

作为确保数据来源合法的重要一环,《生成式人工智能服务管理暂行办法》中特别强调,AI服务提供者在训练中不得侵害他人依法享有的知识产权[11]。现阶段的AI训练场景下,将版权作品作为训练数据训练AI模型的事例屡见不鲜,并往往伴随着巨大争议。

以现有的法律规定为前提,从法理上而言,如果训练AI模型能够被认定为版权法上的“合理使用”,则即便使用版权作品,也不构成侵权。2023年12月,我国首例“AI绘画大模型训练著作权侵权案”正式立案,该案中,四位插画师作为原告指控被告未经其许可使用了其版权作品用于训练生成式AI绘画工具,导致其可以生成与版权作品高度相似的图片,构成著作权侵权。在案件审理过程中,被告虽承认使用了部分原告的版权作品用于训练该模型,但是辩称其构成合理使用且尽到了提示义务,不构成侵权[12]。目前该案仍在审理中,其判决结果或将在未来成为我国认定使用版权作品训练构成侵权的参照标准。

该案中,认定侵权与否的关键——版权的“合理使用”(Fair use)制度起源于美国版权法[13],在我国主要体现在《著作权法》第24条[14]。参照世界各国版权法对“合理使用”的外延和内涵,结合我国《人工智能法(学者建议稿)》[15]以及最高人民法院印发《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》的通知[16]中的观点,利用版权作品训练AI模型,需要满足“与版权作品原本的使用目的或功能不同”“不影响版权作品的正常使用”,以及“没有不合理地损害著作权人的合法权益”方能构成合理使用,上述三要件可以进一步拆解为以下问题:

使用的目的和性质:是否构成将版权作品用于与原始使用目的不同的“转换性使用”[17];

使用的特征:是否使用了版权作品中具体的独创性表达而非思想或风格;

使用数量和重要性:使用版权作品的程度和数量是否合理[18];

对版权作品价值的影响:是否会导致AI生成的内容与原始作品竞争,而影响版权作品的潜在市场或价值。

但是,尽管有上述分析,鉴于合理使用的判断一直以来都是版权法上极为棘手的问题,世界各国的学术界和实务界目前尚未达成一致观点,我国虽然也尚未出现任何正式立法或生效判决予以回应,但包括《著作权法实施条例》修订在内的相关立法工作正在紧锣密鼓地进行当中[19]。对于AI服务提供者,我们仍建议在缺乏明确法律依据的情况下,尽量避免使用版权作品进行训练,或取得版权人的授权,以最大程度降低知识产权侵权的法律风险,并密切关注相关领域的立法动态和司法实践。

3. 训练模型来源合法

《生成式人工智能服务管理暂行办法》规定,AI服务提供者在训练中应使用具有合法来源的基础模型。[20]

商业实践中,AI模型的开发是漫长的过程,特别是训练基于Transformer架构的大语言模型,其技术特性决定了如果不借助第三方AI模型,将会伴随着一般企业难以支付的高昂的成本。因此,在已有的第三方开源基础模型上训练得到衍生模型是实践中更加普遍的路径。此外,近年来算法蒸馏技术也引起了广泛关注,其中的经典案例即为2025年初火爆全球的DeepSeek模型。以下我们就两种路径分别论述训练模型来源合法性的要件:

(1)在开源模型的基础上训练衍

在开源模型的基础上训练衍生模型优势在于可以通过相对较低的成本部署AI模型,总体而言,我们倾向于认为在开源模型基础上进行衍生模型的训练、使用或后续商业利用风险通常是可控的,这得益于开源模型的作者对开源模型的使用设置限制较少,通常用户仅需遵循开源许可证(“开源协议”)即可。例如,由于DeepSeek采用了较为友好的MIT开源许可证,个人和企业均可自由从互联网下载开源模型DeepSeek的源代码进行本地部署,并在此基础上按照自身需求进行二次训练获得定制化的衍生AI模型, 同时仅需在软件及其副本中保留版权声明和许可声明。

尽管目前市面上各类常见的开源协议通常允许对修改后的衍生模型进行复制、商业使用、分发和修改的权利,但考虑到不同开源协议在用户义务方面规定不尽相同,且在法律性质上,开源协议属于开源软件原作者和使用者之间签署的“著作权许可合同”,企业在使用开源模型前应仔细阅读开源协议并确保严格遵守,以避免发生著作权侵权或违约风险。通常而言,需要重点关注开源许可证的类型,并关注可能限制衍生模型后续使用的条款,包括但不限于:

是否要求公开修改后的衍生模型的源代码[21]

是否要求在衍生模型发布时注明来源

是否限制修改开源模型的代码

此外,如果开源模型是从开源平台下载,除模型本身的开源协议外,企业还需要进一步确认平台的用户协议和服务条款,以及模型发布者在平台内发布的声明,关注可能限制衍生模型后续使用的条款和下载模型的责任,包括但不限于:

平台用户协议和服务条款是否要求模型发布者承诺上传、发布的模型来源合法并承担相应责任

模型发布者在平台内发布的声明是否限制衍生模型的后续使用(例如限制商用等)

模型发布者是否主张对模型的权利

对于模型发布者在平台内声明中明确限制商用的模型,如果确需商用,应需要事先联系模型发布者取得其授权许可。

(2)使用闭源模型作为教师模型进行算法蒸馏

AI训练中的算法蒸馏技术(Distillation),是一种将大型复杂模型(教师模型)的知识转移到更小、更高效的模型(学生模型)中的技术,学生模型通过软标签知识传递(Soft Label Transfer)的方式,学习教师模型的思考方式,例如对于某一个特定问题的解题过程以及各个回答的概率分布,这个学习过程更接近和类似于人类自然学习过程。[22]正因为这是一种“取巧”的学习方式,模型训练者理论上无需投入大量数据和算力即可快速使得学生模型的能力接近教师模型。例如,在DeepSeek的训练过程中,正式因为算法蒸馏发挥了重要作用,才使得其训练成本得以大幅缩减,并以极快的速度追赶上了业内顶尖大模型的性能[23]。

通常而言,为了保证蒸馏效果,教师模型往往会选择性能较高的成熟AI模型,而实践中这些成熟的模型(例如OpenAI的GPT-3及以上的模型)通常是闭源的。由于无法像使用开源模型那样自由获取源代码并进行本地部署,使用闭源模型通常需通过模型服务提供者的API接口远程访问模型服务,并按照使用模型输入和输出Token的数量付费[24]。为避免算法蒸馏过程中对闭源教师模型的使用被认定为侵权行为,AI服务提供者在使用闭源模型进行蒸馏时应注意:

①遵守闭源模型的使用要求:使用闭源模型进行算法蒸馏前应仔细阅读闭源模型服务提供者发布的服务协议或用户条款,确认相关使用限制,重点关注协议以下条款:

是否限制通过API接口调取模型服务生成回答的次数或Token数量

模型服务提供者是否赋予用户对模型输出内容的完整权利

模型服务提供者是否对输出内容主张任何权利

输出内容二次利用的场景,例如是否允许对输出内容进行商业化使用或开发竞争性产品

②生成内容过滤:确保学生模型不会输出教师模型训练数据中涉及第三方权益的信息,例如用户的个人隐私信息;

③合理注意义务:训练过程中关注对学生模型的生成内容,确保学生模型的生成内容不会与教师模型的生成内容构成实质性相似,并在发生相关情况时及时排查,以避免学生模型的生成内容侵犯在先知识产权的风险(详见下文二、2的分析)。

此外,关于使用闭源模型进行算法蒸馏是否构成知识产权侵权这一问题,在我国缺乏专门立法的情况下,考虑到闭源模型本身大概率构成版权法意义上的作品,其分析要点仍在于判断是否构成合理使用,请参见我们在本文一、2小节中关于使用版权作品训练AI模型的分析,此处不再赘述。

二、输出端:AI生成内容(AIGC)合规

AI生成内容(Artificial Intelligence Generated Content,以下简称“AIGC”)是指由AI模型根据用户输入的提示词(prompt)以及其他材料,自动生成的文本、图像、音频等内容。对于AIGC合规,重点应关注内容标识义务、知识产权侵权以及AI幻觉和安全性,以下分别论述。

1. 内容标识义务

尽管对于通过AIGC以假乱真模仿人类的作品,从十年前开始就一直是老生常谈的问题,但随着如今基于Transformer架构的生成式AI性能大幅提高,公众无法分别人类创作内容和AIGC已是普遍现象,在此背景下,基于AI幻觉产生的虚假和错误信息,以及不法分子故意利用AIGC进行的欺诈等AIGC恶意利用将导致巨大的社会风险。针对这一问题,同时加强监管溯源的可追责性,我国早在2023年发布的《生成式人工智能服务管理暂行办法》中即明确规定应当对AIGC进行标识[25],但彼时并未就如何进行标识提供更进一步指引,企业在合规实践中也存在一定困惑。2025年3月,在借鉴欧美相关立法[26]的基础上,我国正式出台《人工智能生成合成内容标识办法》,该规定将于2025年9月生效,其对生成内容透明层面的合规提出了新要求,着重强调了AIGC形成、传输过程中,AI服务提供者,传播服务提供者、以及用户等各类主体关于添加、识别显示标识和隐式标识的义务。

根据《人工智能生成合成内容标识办法》,AIGC标识分为隐式标识和显式标识:

①隐式标识:是指采取技术措施在生成合成内容文件数据中添加的,不易被用户明显感知到的标识[27]。隐式标识适用于所有的AIGC,且必须由AI服务提供者在生成合成内容的文件元数据中添加,包含生成合成内容属性信息、服务提供者名称或者编码、内容编号等制作要素信息[28]。通过提供溯源手段,隐式标识尝试解决的是AIGC可追责性的问题,它要求每一个AI生成内容都能通过一个难以删除且可被检测的标识,定位到具体的AI服务提供者。

②显式标识:是指在生成合成内容或者交互场景界面中添加的,以文字、声音、图形等方式呈现并可以被用户明显感知到的标识[29]。相较于隐式标识,显式标识在用户可感知的触点提供标识,尝试解决的是公众无法准确识别AIGC和人类创作内容的问题,以防止深度伪造(Deep Fake)或其他虚假、非法的AIGC造成社会公众的人身或财产损失。不同于隐式标识,仅属于深度合成服务[30]的情形下,AI服务提供者才需要添加显示标识[31]。

除上述AI服务提供者需进行的标识外,在AIGC的传输链条中,可能提供传播服务的服务提供者(例如UGC视频平台、问答平台、音乐平台等)以及互联网应用程序分发平台(例如各移动APP应用商店)也负有相应的标识义务。传播服务提供者对于上传的用户生成内容(User-Generated Content,UGC),除需要主动核验文件元数据中的隐式标识,还应主动检测显式标识或者其他生成合成痕迹,并应对疑似AI生成内容添加提示标识。[32]

2. 避免侵犯知识产权

关于AIGC是否侵犯第三方权益,目前的难点以及学术界和实务界探讨最多的是知识产权侵权问题。要判断AIGC是否侵犯第三方知识产权,必须回答两个问题:

①AIGC是否具有可版权性,即AIGC是否属于受版权法保护的作品?

②如果AIGC具有可版权性,AIGC的权利/责任主体应如何确定,特别是在用户使用第三方AI服务的情况下?

对于上述问题,世界各国目前尚未形成统一的观点,尽管我国正在积极推进相关立法,但目前尚未有相关法律条文直接对上述问题予以回应,大量实务中对于AIGC知识产权侵权与否的判断均由法院在个案审理中完成。以下我们将通过司法案例分别展开介绍。

(1)AIGC在体现人类独创性智力投入前提下构成版权作品/用户是AIGC的权利主体

2023年11月,我国“AI文生图著作权侵权第一案”一审宣判,该案中,原告李某使用AI图片生成软件“Stable Diffusion”通过输入提示词的方式生成涉案图片,当增加提示词、调整生成参数,还会生成新的图片[33]。被告未经原告许可,通过百家号账号发布的文章配图使用了涉案图片,原告主张被告的行为构成侵害作品署名权和信息网络传播权。北京市互联网法院在一审判决中认为:人工智能能模型本身无法成为我国著作权法上的作者,涉案图片是基于原告的智力投入直接产生,具体而言,原告对于人物及其呈现方式等画面元素通过提示词进行了设计,对于画面布局构图等通过参数进行了设置,体现了原告的选择和安排。因此,可以认定涉案图片由原告独立完成,体现出了原告的个性化表达,具备“独创性”要件,故原告是涉案图片的作者,享有涉案图片的著作权。[34]

上述判决表明,我国司法实践已存在承认在体现人类独创性的前提下,AIGC具有可版权性的先例,同时,在没有合同相反约定的情况下,版权应归属于投入了独创性智力劳动的自然人用户。与之相对,如果用户利用AI时输入过于简单的指令例如“画一只猫”,仅仅表达了一种思想或创意意图,指令结果主要由AI算法控制,不能体现人类智力投入或体现极少,则难以构成人类的独创性表达,不能构成版权法上的作品[35]。

AIGC的权利主体同时也构成责任主体,在AIGC侵犯第三方知识产权时,作为AIGC权利人的用户应当承担侵权责任。

(2)AI服务提供者(平台)满足一定条件也可能侵犯知识产权

在“AI文生图著作权侵权第一案”中,用户使用的是本地部署的开源AI模型Stable Diffusion,并未涉及到使用平台AI服务,因此该案并未解决在涉及用户使用第三方AI服务时的责任划分问题。时隔一年有余,2025年2月,杭州互联网法院和广州互联网法院在“生成式AI服务提供者著作权侵权第一案”的“奥特曼案”生效判决中,一方面延续了对AIGC可版权性以及用户承担AIGC侵权责任的肯定态度,另一方面进一步明确了在AIGC可能侵犯第三方版权时,提供AI服务的平台虽然不构成直接侵权,但仍可能构成帮助侵权并承担连带责任[36]。“奥特曼案”中,用户可通过使用被告(平台)提供的AI服务生成与受版权保护的“奥特曼”形象高度相似的图片,法院认定:虽然被告未直接实施侵权行为,但未尽合理注意义务,构成著作权帮助侵权,具体考虑因素如下:

▶满足著作权侵权要件:

使用平台AI服务生成结果的形象与具有高知名度的IP形象构成实质性相似;

平台基于通过AI定向生成的内容获益[37]而不构成合理使用的抗辩条件;

▶平台未尽到合理注意义务:

平台对生成结果具有技术可干预性;

平台未积极采取有效预防措施防止侵权。

从上述案例的裁判观点可以看出,尽管AIGC的权利归属于用户,但对AI服务提供者而言并非没有任何风险,在AIGC已构成知识产权侵权的前提下,AI服务提供者如未尽到合理注意义务,同样应承担侵权责任。

综上所述,对AI服务提供者而言,我们建议满足以下要求以避免承担AIGC知识产权侵权的风险:

①确保训练数据来源合规(详见本文第一章的分析),避免将可能侵犯第三方权益的语料作为训练数据使用;

②在用户协议或服务条款中,规定如下事项:

AI服务提供者不对AIGC主张权利[38]

对用户使用AIGC的范围作出严格限定,明确超出范围的使用由用户自担风险

要求用户应确保其输入的提示词和上传到平台的内容来源合法

③根据自身对AIGC的可干预程度,采取与之匹配的技术措施,包括但不限于使用人工或算法的方式审核用户上传内容和提示词,屏蔽/过滤AIGC中可能侵犯知识产权的内容。

3. 减少幻觉和确保安全性

AI的“幻觉”是指AI模型生成了与事实不符或根本不存在的信息,例如虚构信息(如编造人物、事件或引用)、逻辑不一致、忽略上下文等。除了Transformer架构的技术特性天然会导致幻觉[39]外,幻觉的产生主要源于以下几个方面:

训练数据质量欠缺,可能含有错误或不合逻辑的信息;

生成式模型缺乏事实核查机制;

用户输入的提示词过于模糊或开放。

AI幻觉是AIGC中出现虚假、违法内容的直接原因,也是阻碍AI可靠性发展的重要因素。《生成式人工智能服务管理暂行办法》规定,AI服务提供者应当采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性[40];基于服务类型特点,采取有效措施,提升生成式人工智能服务的透明度,提高生成内容的准确性和可靠性[41]。虽然Transformer架构的技术特性导致了客观上无法完全消除幻觉,但AI服务提供者仍可以从训练数据和监督机制等方面入手,在研发和运营生成式AI过程中主动采取相关技术措施提高生成内容的准确性和可靠性,减少AI幻觉,例如:

更新模型训练机制,增加人工干预[42]

增强模型对自然语言的理解能力以更准确理解用户的意图

将模型与可靠的外部数据库集成使其能够实时访问准确的信息并进行校验[43]

选择高质量的训练数据,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视[44]

在数据标注时确保标注规则合法合规、标注内容准确等,制定合法、清晰、具体、可操作的标注规则[45]

此外,为确保AI模型的安全性和可追责性,我国法律还进一步规定了AI服务提供者对算法/模型应履行安全评估和备案义务,包括:

①开展算法安全评估:具有舆论属性或者社会动员能力的算法推荐服务[46]、生成式人工智能服务、深度合成服务[47]均应按照国家有关规定开展算法安全评估。实践中,对于评估内容、评估流程等,企业可参照《信息安全技术 机器学习算法安全评估规范(GB/T 42888-2023)》《生成式人工智能服务安全基本要求(TC260-003)》等相关规范性文件或国家标准,履行安全评估义务,确保AI模型算法的安全性;

②进行算法/大模型备案:涉及具有舆论属性或社会动员能力的算法推荐服务[48]、深度合成服务[49]、生成式AI服务的,应当按照相关法规的要求完成算法备案;特别地,提供生成式AI服务的,还需要另行完成生成式AI大模型备案[50]。

结语

随着人类进入信息时代,技术的进步往往会引发关于个体权利和社会公共福祉平衡的讨论,在立法的预见性远远落后于AI技术发展的今天,可以预想到未来围绕AI合规问题的争议仍将长久持续。面对生成式AI所引发的复杂法律风险,全球主要司法管辖区纷纷启动了监管制度的重构与政策调整。例如,欧盟《人工智能法案》(Artificial Intelligence Act)作为全世界首部综合性人工智能监管法律,于2024年正式生效并实施;美国在近两年来加速人工智能立法,仅在生成内容标识方面,就在联邦和州层面先后出台了《2023 年 AI 标识法案》(AI Labeling Act of 2023)以及加州《人工智能透明度法案》(California AI Transparency Act);此外,美国科罗拉多州《关于人工智能消费者保护法案》(Colorado AI Act - SB 24-205)借鉴了欧盟《人工智能法案》,是美国首个在州一级对人工智能及其应用提出具体要求的综合性监管立法,专注于防止算法歧视的人工智能消费者保护。我国的AI立法和监管也在积极行进中,企业在创新发展的同时,需要守正出奇,才能行稳致远。

注释

[1] 《生成式人工智能服务管理暂行办法》第7条第(1)(3)(5)项

[2] 《刑法》第285条:【非法获取计算机信息系统数据、非法控制计算机信息系统罪】违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

[3] 《网络反不正当竞争暂行规定》第19条:经营者不得利用技术手段,非法获取、使用其他经营者合法持有的数据,妨碍、破坏其他经营者合法提供的网络产品或者服务的正常运行,扰乱市场公平竞争秩序。

[4] 《个人信息保护法》第73条第(4)项:匿名化,是指个人信息经过处理无法识别特定自然人且不能复原的过程。

[5] 参照(2013)高民终字第2352号“百度在线网络技术(北京)有限公司等与北京奇虎科技有限公司等不正当竞争纠纷案”中北京市高级人民法院作出的生效判决,在司法实践中,Robots协议已经被法院认定构成搜索引擎行业内公认的、应当被遵守的商业道德。因此,不遵循Robots协议而随意抓取网站内容的行为将涉嫌《反不正当竞争法》第2条违反诚实信用原则和商业道德。

[6] 《网络数据安全管理条例》第12条:网络数据处理者向其他网络数据处理者提供、委托处理个人信息和重要数据的,应当通过合同等与网络数据接收方约定处理目的、方式、范围以及安全保护义务等,并对网络数据接收方履行义务的情况进行监督。向其他网络数据处理者提供、委托处理个人信息和重要数据的处理情况记录,应当至少保存3年。

[7] 《数据安全法》第32条:任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。法律、行政法规对收集、使用数据的目的、范围有规定的,应当在法律、行政法规规定的目的和范围内收集、使用数据。

[8] 针对个人信息的间接收集,《信息安全技术 个人信息安全规范(GB/T 35273-2020)》第5.4条e项规定:间接获取个人信息时:1) 应要求个人信息提供方说明个人信息来源,并对其个人信息来源的合法性进行确认;2) 应了解个人信息提供方已获得的个人信息处理的授权同意范围,包括使用目的,个人信息主体是否授权同意转让、共享、公开披露、删除等;3) 如开展业务所需进行的个人信息处理活动超出已获得的授权同意范围的,应在获取个人信息后的合理期限内或处理个人信息前,征得个人信息主体的明示同意,或通过个人信息提供方征得个人信息主体的明示同意。

[9] 根据《数据安全法》第33条,“从事数据交易中介服务的机构提供服务,应当要求数据提供方说明数据来源,审核交易双方的身份,并留存审核、交易记录”。通过数据交易所采购数据集,对于企业而言在来源合法性上会多一重保障,能有效降低后续风险。

[10] 《生成式人工智能服务管理暂行办法》第9条第2款:提供者应当与注册其服务的生成式人工智能服务使用者(以下称使用者)签订服务协议,明确双方权利义务。

[11] 《生成式人工智能服务管理暂行办法》第7条第(二)项

[12] 北京互联网法院:北京互联网法院开庭审理全国首例涉及AI绘画大模型训练著作权侵权案,2024年6月20日发布于微信公众号。链接:https://mp.weixin.qq.com/s/cyskAz1cASBaNIYQpGpGsA。2025年5月9日访问。

[13] 参照《美国版权法》17 U.S.C. § 107 – Limitations on exclusive rights: Fair use:判断是否构成合理使用,应考虑以下四个因素:①使用目的和性质(是否属于商业用途,或为教育、研究、评论等非盈利目的);②作品本身的性质(如是高度原创性还是偏事实性内容);③所使用的数量和重要性(使用内容在原作品中所占比例及其核心程度);④对市场或作品价值的影响(是否会影响原作的销售或经济利益)。

[14] 《著作权法》第24条第1款:在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;(二)为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品;(三)为报道新闻,在报纸、期刊、广播电台、电视台等媒体中不可避免地再现或者引用已经发表的作品;(四)报纸、期刊、广播电台、电视台等媒体刊登或者播放其他报纸、期刊、广播电台、电视台等媒体已经发表的关于政治、经济、宗教问题的时事性文章,但著作权人声明不许刊登、播放的除外;(五)报纸、期刊、广播电台、电视台等媒体刊登或者播放在公众集会上发表的讲话,但作者声明不许刊登、播放的除外;(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行;(七)国家机关为执行公务在合理范围内使用已经发表的作品;(八)图书馆、档案馆、纪念馆、博物馆、美术馆、文化馆等为陈列或者保存版本的需要,复制本馆收藏的作品;(九)免费表演已经发表的作品,该表演未向公众收取费用,也未向表演者支付报酬,且不以营利为目的;(十)对设置或者陈列在公共场所的艺术作品进行临摹、绘画、摄影、录像;(十一)将中国公民、法人或者非法人组织已经发表的以国家通用语言文字创作的作品翻译成少数民族语言文字作品在国内出版发行;(十二)以阅读障碍者能够感知的无障碍方式向其提供已经发表的作品;(十三)法律、行政法规规定的其他情形。

[15] 《人工智能法(学者建议稿)》第24条“数据合理使用”:人工智能开发者使用他人享有著作权的数据进行模型训练时,如果该使用行为与数据原本的使用目的或功能不同,并且不影响该数据的正常使用,也没有不合理地损害数据权利人的合法权益,则该使用行为属于数据合理使用。

[16] 《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第2条第8款:妥当运用著作权的限制和例外规定,正确判定被诉侵权行为的合法性,促进商业和技术创新,充分保障人民基本文化权益。正确认定合理使用和法定许可行为,依法保护作品的正当利用和传播。在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。对设置或者陈列在室外社会公共场所的艺术作品进行临摹、绘画、摄影或者录像,并对其成果以合理的方式和范围再行使用,无论该使用行为是否具有商业目的,均可认定为合理使用。

[17] 例如,利用版权作品进行AI训练的目的是生成与版权作品相似的材料,或再现版权作品的独创性表达,都应认为构成对版权作品的实质性复制而不具备这种转换性。

[18] 参考GORDON GAO and Yao Xiaoyi (Sherry):Navigating Copyright Challenges in AI Model Training: A Cross-Border Perspective,2025年3月24日发布,链接:https://www.kwm.com/cn/en/insights/latest-thinking/navigating-copyright-challenges-in-ai-model-training-a-cross-border-perspective.html。该文章观点认为,从技术角度,AI训练场景下的训练数据仅会短暂存储在设备内存(RAM)中形成临时副本,并且每个临时副本会在很短的时间内被后续的训练数据自动覆盖,如果这些被临时存储的作品不具备独立的经济价值,则该等“临时性存储”不构成中国《著作权法》上的“复制”。

[19] 国家知识产权局:国家知识产权强国建设工作部际联席会议办公室关于印发《2025年知识产权强国建设推进计划》的通知,2025年4月29日发布,链接:https://www.cnipa.gov.cn/art/2025/5/7/art_542_199524.html?xxgkhide=1。2025年5月9日访问。

[20] 《生成式人工智能服务管理暂行办法》第7条第(1)项

[21] 开源协议的传染性,换言之,是否允许将衍生模型作为闭源模型发布和商业使用。例如,GPL(GNU General Public License,GNU通用公共许可协议)和LGPL开源许可证使用限制较为严格,不允许修改后的衍生代码作为闭源商业软件进行发布和销售;但DeepSeek采用的MIT(Massachusetts Institute of Technology, MIT)开源许可证则对此未作限制。

[22] See Geoffrey Hinton, Oriol Vinyals, Jeff Dean: Distilling the Knowledge in a Neural Network, arXiv, 2025-3-9, link: https://arxiv.org/pdf/1503.02531 https://arxiv.org/pdf/1503.02531.

[23] Slientsakke:知识蒸馏新高度!DeepSeek突破性技术重塑AI产业格局,载CSDN,2025年2月10日发布。链接:https://blog.csdn.net/weixin_49627776/article/details/145548879?utm_source=chatgpt.com,2025年5月9日访问。

[24] 参考王飞、贺梦琳:以Deep Seek为例分析AIGC大模型开源与闭源的法律异同,载中伦研究,2025年2月24日发布。链接:https://www.zhonglun.com/research/articles/54229.html。2025年5月9日访问。

[25] 《生成式人工智能服务管理暂行办法》第12条:提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。

[26] 包括但不限于欧盟人工智能法案、美国联邦《2023 年 AI 标识法案》(AI Labeling Act of 2023)以及美国加州《人工智能透明度法案》(California AI Transparency Act)等。

[27] 《人工智能生成合成内容标识办法》第3条第4款

[28] 《人工智能生成合成内容标识办法》第5条

[29] 《人工智能生成合成内容标识办法》第3条第3款

[30] 《互联网信息服务深度合成管理规定》第17条第1款:深度合成服务提供者提供以下深度合成服务,可能导致公众混淆或者误认的,应当在生成或者编辑的信息内容的合理位置、区域进行显著标识,向公众提示深度合成情况:(一)智能对话、智能写作等模拟自然人进行文本的生成或者编辑服务;(二)合成人声、仿声等语音生成或者显著改变个人身份特征的编辑服务;(三)人脸生成、人脸替换、人脸操控、姿态操控等人物图像、视频生成或者显著改变个人身份特征的编辑服务;(四)沉浸式拟真场景等生成或者编辑服务;(五)其他具有生成或者显著改变信息内容功能的服务。

[31] 《人工智能生成合成内容标识办法》第4条

[32] 《人工智能生成合成内容标识办法》第6条、第7条

[33] 根据该案判决书,涉案图片的生成过程大致为:对AI图片生成软件输入多个正向提示词(如彩色照片、外景、完美的皮肤、梦幻般的黑眼睛、红褐色的辫子、害羞、软对焦、镜头光晕等)和反向提示词(如绘画、素描、卡通、畸形、模糊、丑陋等),并设置生成参数(如采样方法、清晰度、引导系数、长宽比等),软件可以根据用户输入的指令,自动生成图片。

[34] (2023)京0491 民初11279 号

[35] 最高人民检察院:AI创作的权利边界在哪里?2025年4月25日发布。链接: https://login.12309.gov.cn:8443/spp/zdgz/202504/t20250425_694112.shtml,https://newspaper.jcrb.com/2025/20250425/20250425_004/news-zgjcb-10876-20250425-m-004-300.pdf。2025年5月9日访问。

[36] 在杭州互联网法院审理的奥特曼案件中,原告上海新创华文化发展有限公司(奥特曼系列形象的中国独占被授权方)起诉杭州某AI平台运营商,指控其平台用户通过上传奥特曼图片训练LoRA模型并生成侵权图片,平台未采取必要措施制止,侵害了原告的信息网络传播权;无独有偶,在广州互联网法院审理的“奥特曼”案件中,原告同样为新创华公司,被告为某AI绘画平台,用户在该平台输入“生成戴拿奥特曼”等指令后,平台输出与对应奥特曼极为相似的图片,原告主张被告侵犯复制权、改编权及信息网络传播权。

[37] 从“商业性使用”的认定规则来看,此处的“获益”应理解为既包括获取直接经济利益(例如要求用户向平台充值以使用AIGC服务),也包括获取间接利益(例如利用AIGC推广平台的品牌或其他特定形象)。

[38] 通常而言,主张权利意味着自愿成为AIGC的责任主体,一旦后续AIGC侵权,责任主体需要承担相应责任。

[39] 参考阿里巴巴人工智能治理与可持续发展研究中心:《生成式人工智能治理与实践白皮书》第三章: 生成式人工智能风险产生原因的分析,载智源社区,2023年11月17 日发布。链接:https://hub.baai.ac.cn/view/32668?utm_source=chatgpt.com,2025年5月9日访问。本质上,基于Transformer架构的生成式AI模型是概率模型,它们的目标是生成在统计上看起来合理的文本,而不是保证事实的准确性,因而导致模型更容易生成看似合理但实际上不正确的内容。

[40] 《生成式人工智能服务管理暂行办法》第7条第(4)项

[41] 《生成式人工智能服务管理暂行办法》第4条第(5)项

[42]  例如,使用人类反馈的强化学习模型RLHF, 完成人类价值观的对齐,使语言大模型的生成内容更符合人类预期。

[43]  例如,利用的RAG检索增强生成技术,结合引用训练数据来源之外的真实世界数据或权威数据库数据来增强模型输出的可靠性。

[44] 《生成式人工智能服务管理暂行办法》第4条第(2)项

[45] 《生成式人工智能服务管理暂行办法》第8条

[46] 《互联网信息服务算法推荐管理规定》第27条:具有舆论属性或者社会动员能力的算法推荐服务提供者应当按照国家有关规定开展安全评估。

[47] 《互联网信息服务深度合成管理规定》第15条:深度合成服务提供者和技术支持者应当加强技术管理,定期审核、评估、验证生成合成类算法机制机理。深度合成服务提供者和技术支持者提供具有以下功能的模型、模板等工具的,应当依法自行或者委托专业机构开展安全评估:(一)生成或者编辑人脸、人声等生物识别信息的;(二)生成或者编辑可能涉及国家安全、国家形象、国家利益和社会公共利益的特殊物体、场景等非生物识别信息的。

[48]《互联网信息服务算法推荐管理规定》第24条:具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。算法推荐服务提供者的备案信息发生变更的,应当在变更之日起十个工作日内办理变更手续。算法推荐服务提供者终止服务的,应当在终止服务之日起二十个工作日内办理注销备案手续,并作出妥善安排。

[49] 《互联网信息服务深度合成管理规定》第19条:具有舆论属性或者社会动员能力的深度合成服务提供者,应当按照《互联网信息服务算法推荐管理规定》履行备案和变更、注销备案手续。深度合成服务技术支持者应当参照前款规定履行备案和变更、注销备案手续。完成备案的深度合成服务提供者和技术支持者应当在其对外提供服务的网站、应用程序等的显著位置标明其备案编号并提供公示信息链接。

[50] 《生成式人工智能服务管理暂行办法》第17条:提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。