随着“Sora”等多模态高性能生成式人工智能的相继出现,全球范围内针对生成式人工智能服务安全的监管呼声也日渐高涨。2023年7月,国家互联网信息办公室,国家发展和改革委员会等七部门联合颁布《生成式人工智能服务管理暂行办法》(“《AIGC暂行办法》”),在延续《互联网信息服务算法推荐管理规定》、《互联网信息服务深度合成管理规定》所规定的算法备案的基础上,另行确立了针对生成式人工智能大模型的安全评估备案(“大模型备案”)。但是,《AIGC暂行办法》对于大模型备案所关注的生成式人工智能服务安全的具体要求、评估参数、评估标准等并未进行细化解释。
2023年10月11日,全国网络安全标准化技术委员会颁布了《生成式人工智能服务安全基本要求(征求意见稿)》(“征求意见稿”),并于2024年3月1日正式颁布了《生成式人工智能服务安全基本要求(TC260-003)》(“正式文件”)。《生成式人工智能服务安全基本要求》(“《AIGC安全要求》”)作为国家专业标准化技术委员会发布的技术文件,在生成式人工智能服务安全的原则性要求方面提供了细化指引,为包括大模型备案在内的人工智能安全监管制度提供了评价工具,为各类生成式人工智能服务提供者开展安全评估、提高安全水平提供了参考。
本文将就《AIGC安全要求》的正式文件相较于征求意见稿的重点修订内容进行梳理分析,并对生成式人工智能服务提供者为符合《AIGC安全要求》的规定可以考虑设立的合规制度提出基础建议。
一、 《生成式人工智能服务安全基本要求》正式文件与征求意见稿主要内容的对比与总结
1. 第3条(术语和定义)
1.1 第3.1条(生成式人工智能服务 generative artificial intelligence service,“生成式人工智能服务”)
| 征求意见稿 |
正式文件 |
| 第3.1条(生成式人工智能服务 generative artificial intelligence service,“生成式人工智能服务”):基于数据、算法、模型、规则,能够根据使用者提示生成文本、图片、音频、视频等内容的人工智能服务。 |
第3.1条(生成式人工智能服务 generative artificial intelligence service,“生成式人工智能服务”):利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务。 |
本定义照应了《AIGC暂行办法》第二条对“生成式人工智能服务”的定义。 [1] 正式文件在对“生成式人工智能服务”的定义中删除了征求意见稿中“基于数据、算法、模型、规则”的表达,增加“利用生成式人工智能技术向中华人民共和国境内公众提供”,使得《AIGC安全要求》中“生成式人工智能服务”这一概念的定义与《AIGC暂行办法》中的定义保持统一。
根据本定义,结合《AIGC暂行办法》第二条规定可知,目前我国针对生成式人工智能行业的监管侧重于针对面向中华人民共和国境内的公众提供生成式人工智能服务的组织或个人。对生成式人工智能技术进行单纯的内部研发和应用,不涉及向境内公众提供服务的行业组织、企业、教育和科研机构、公共文化机构等专业机构,并非本轮监管重点关注的对象。但是,该等企业仍需根据具体情况遵循《中华人民共和国数据安全法》(“《数据安全法》”)、《中华人民共和国网络安全法》(“《网络安全法》”)等法律法规,并且可以在一定程度上参考《AIGC暂行办法》以及《AIGC安全要求》对于生成式人工智能服务安全的要求,以应对未来的合规动态。
1.2 第3.2条(提供者 service provider,“服务提供者”)
| 征求意见稿 |
正式文件 |
| 第3.2条(提供者 service provider,“服务提供者”):以交互界面、可编程接口等形式面向我国境内公众提供生成式人工智能服务的组织或个人。 |
第3.2条(提供者 service provider,“服务提供者”):以交互界面、可编程接口等形式提供生成式人工智能服务的组织或个人。 |
本定义照应了《AIGC暂行办法》第二十二条对“生成式人工智能服务提供者”的定义。 [2] 结合本文第1.1条的分析可知,正式文件对“提供者”的定义与《AIGC暂行办法》中对“生成式人工智能服务提供者”的定义亦基本相同。实践中,API、SDK等接口服务以及网页、移动应用、小程序等交互界面为目前B端及C端用户调用生成式人工智能的主流方式,故《AIGC安全要求》在服务提供方式的列举中增加了“以交互界面”的方式提供生成式人工智能服务的情况,随着人工智能行业的高速发展,不排除未来可能出现新的调用方式。
1.3 第3.5条(基础模型 foundation model)
| 征求意见稿 |
正式文件 |
| 无该条款。 |
第3.5条(基础模型 foundation model):在大量数据上训练的,用于普适性目标、可优化适配多种下游任务的深度神经网络模型。 |
在征求意见稿及正式文件中,均在第6条(模型安全要求)中使用了“基础模型”这一概念,本定义是对“基础模型”这一概念的进一步解释,明确了需要经过主管部门备案后方可用于提供生成式人工智能服务的基础模型,区别于普通的计算机模型,是指具备深度神经网络结构的、经过优化和训练能够适配多种下游任务的通用大模型。
本定义在一定程度上照应了《AIGC暂行办法》第七条对生成式人工智能服务提供者开展训练数据处理活动时使用合规基础模型的要求。 [3] 实践中,国内生成式人工智能服务行业对基础模型的调用通常分为三种类型:
| 类别 |
特点 |
示例 |
| 纯自研的基础模型 |
能够全面掌握基础模型背后的核心算法和运行规则,并独立负责处理数据训练、生成内容标记、模型优化等所有技术性事项 |
智谱AI发布的GLM-4国产全自研大模型 [4] 、腾讯发布的自研混元大模型 [5] |
| 半自研的基础模型 |
在第三方基础模型的基础上进行二次训练、精确调优,形成适配于自身产品的基础模型,其仅能独立掌握自身研发的增量部分 |
华东理工大学·X-D Lab(心动实验室)基于开源的通义千问开源模型开发了心理健康大模型MindChat(漫谈)、医疗健康大模型Sunsimiao(孙思邈)、教育/考试大模型GradChat(锦鲤)等 [6] |
| 完全调用第三方基础模型(不做任何调优) |
对于基础模型本身无法进行任何干涉,亦无法参与任何实质的技术事项 |
百度千帆大模型平台操作台中的“模型仓库”存在多个第三方模型可以直接供企业和开发者调用、部署 [7] |
在这三种情况下,相应的服务提供者在《AIGC暂行办法》以及《AIGC安全要求》下所需要履行的义务轻重亦有所不同,需要根据具体情况进一步分析。
2. 第4条(总则)
| 征求意见稿 |
正式文件 |
| 第4条(总则):本文件支撑《生成式人工智能服务管理暂行办法》,提出了提供者需遵循的安全基本要求。提供者在向相关主管部门提出生成式人工智能服务上线的备案申请前,应按照本文件中各项要求逐条进行安全性评估,并将评估结果以及证明材料在备案时提交。
除本文件提出的基本要求外,提供者还应自行按照我国法律法规以及国家标准相关要求做好网络安全、数据安全、个人信息保护等方面的其他安全工作。 |
第4条(总则):本文件支撑《生成式人工智能服务管理暂行办法》,提出了服务提供者需遵循的安全基本要求。服务提供者在按照有关要求履行备案手续时,按照本文件第9章要求进行安全评估,并提交评估报告。
除本文件提出的基本要求外,服务提供者应自行按照我国法律法规以及国家标准相关要求做好网络安全、数据安全、个人信息保护等方面的其他安全工作。服务提供者应紧密注意生成式人工智能可能带来的长期风险,谨慎对待可能具备欺骗人类、自我复制、自我改造能力的人工智能,并重点关注生成式人工智能可能被用于编写恶意软件、制造生物武器或化学武器等安全风险。 |
正式文件中增加了对生成式人工智能长期风险、伦理风险的警示内容,体现对目前全球范围内针对生成式人工智能对人类社会可能造成的潜在风险(包括网络安全和生物技术等领域的风险,放大虚假信息风险、伦理风险等)的高度关切。
3. 第5条(语料安全要求)
3.1 第5.1条(语料来源安全要求)
(1) 第5.1条a)(语料来源管理方面)
| 征求意见稿 |
正式文件 |
| 第5.1条(语料来源安全要求)a)(语料来源管理方面):1)应建立语料来源黑名单,不使用黑名单来源的数据进行训练;2)应对各来源语料进行安全评估,单一来源语料内容中含违法不良信息超过5%的应将该来源加入黑名单。 |
第5.1条(语料来源安全要求)a)(语料来源管理方面):1)面向特定语料来源进行采集前,应对该来源语料进行安全评估,语料内容中含违法不良信息超过5%的,不应采集该来源语料;2)面向特定语料来源进行采集后,应对所采集的该来源语料进行核验,含违法不良信息情况超过5%的,不应使用该来源语料进行训练。 |
正式文件中删除了“语料来源黑名单”制度,而修改为对来源语料本身进行安全评估的制度。我们理解,在实践中,同一语料来源项下可能存在大批量的语料,因其中某一批语料产生了安全问题而舍弃某一语料来源会造成较大的语料损失。在当下基础模型行业已经开始出现语料紧缺、训练数据不足的风险的情况下,“语料来源黑名单”制度并不利于优化生成式人工智能服务。正式文件进一步将来源语料安全制度细分为“采集前”和“采集后+训练前”两个阶段,要求服务提供者对语料进行双重安全评估,确保语料来源安全。
(2) 第5.1条c)(语料来源可追溯方面)
| 征求意见稿 |
正式文件 |
| 第5.1条(语料来源安全要求)c)(语料来源可追溯方面):2)使用自采语料时,应具有采集记录,不应采集他人已明确声明不可采集的语料; 注2:自采语料包括自行生产的语料以及从互联网采集的语料。 注3:声明不可采集的方式包括但不限于robots协议等。 3)使用商业语料时: ——应有具备法律效力的交易合同、合作协议等; ——交易方或合作方不能提供语料合法性证明材料时,不应使用该语料。 |
第5.1条(语料来源安全要求)c)(语料来源可追溯方面):2)使用自采语料时,应具有采集记录,不应采集他人已明确不可采集的语料; 注2:自采语料包括自行生产的语料以及从互联网采集的语料。 注3:明确不可采集的语料,例如已通过robots协议或其他限制采集的技术手段明确表明不可采集的网页数据,或个人已拒绝授权采集的个人信息等。 3)使用商业语料时: ——应有具备法律效力的交易合同、合作协议等; ——交易方或合作方不能提供语料来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该语料; ——应对交易方或合作方所提供语料、承诺、材料进行审核。 |
本条系对语料来源合规性追溯的规定。语料的来源分为自采语料与商业语料。所谓自采语料,是指自行生产以及从互联网采集的语料。《AIGC安全要求》规定服务提供者应当采取措施从源头追溯并确保自采语料合规性,包括(1)保存采集记录;(2)不采集他人已明确不可采集的语料,包括(a)通过robots协议等技术手段标明不可采集的网页数据,以及(b)正式文件增加的“个人已拒绝授权采集的个人信息”。我们理解,正式文件中将个人拒绝授权采集的个人信息明确列举于不得采集的语料中,系对《AIGC暂行办法》第七条的进一步细化。 [8]
关于商业语料,我们理解主要指并非由服务提供者自行采集,而是通过与第三方语料提供方进行交易获得的语料。《AIGC安全要求》规定服务提供者应当采取措施,确保商业语料的合规性,包括(1)与语料提供方签署有效的交易文件;(2)要求语料提供方提供语料来源、质量、安全等承诺以及相关证明材料并进行审核。本条在一定程度上明确了商业语料交易所需遵循的合规性要求,但仍遗留了一些问题,有待进一步在实践中摸索出答案,例如,语料接收方对语料提供方所提供的承诺以及证明材料需尽到何种程度的审核义务,才能够被认定为适当地履行了合规要求等。
3.2 第5.2条(语料内容安全要求)
(1) 第5.2条b)(知识产权方面)
| 征求意见稿 |
正式文件 |
| 第5.2条(语料内容安全要求)b)(知识产权方面):2)语料用于训练前,知识产权相关负责人等应对语料中的知识产权侵权情况进行识别,提供者不应使用有侵权问题的语料进行训练: ——训练语料包含文学、艺术、科学作品的,应重点识别训练语料以及生成内容中的著作权侵权问题; ——对训练语料中的商业语料以及使用者输入信息,应重点识别侵犯商业秘密的问题; |
第5.2条(语料内容安全要求)b)(知识产权方面):2)语料用于训练前,应对语料中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关语料进行训练;例如,语料中包含文学、艺术、科学作品的,应重点识别语料以及生成内容中的著作权侵权问题; |
正式文件删除了对“侵犯商业秘密”的重点识别要求,我们理解,一方面,对于泄露他人商业秘密这一语料安全风险,正式文件中已经于附录A中进行了明确;另一方面,商业秘密的识别是一项难度和成本较高的任务,可能会对人工智能产业的初期发展带来较大的压力。
(2) 第5.2条c)(个人信息方面)
| 征求意见稿 |
正式文件 |
| 第5.2条(语料内容安全要求)c)(个人信息方面):1)应使用包含个人信息的语料时,获得对应个人信息主体的授权同意,或满足其他合法使用该个人信息的条件; 2)应使用包含敏感个人信息的语料时,获得对应个人信息主体的单独授权同意,或满足其他合法使用该敏感个人信息的条件; 3)应使用包含人脸等生物特征信息的语料时,获得对应个人信息主体的书面授权同意,或满足其他合法使用该生物特征信息的条件。 |
第5.2条(语料内容安全要求c)(个人信息方面):1)在使用包含个人信息的语料前,应取得对应个人同意或者符合法律、行政法规规定的其他情形; 2)在使用包含敏感个人信息的语料前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。 |
本条照应了《AIGC暂行办法》中第七条对生成式人工智能服务提供者开展训练数据处理活动时使用个人信息的合规要求。 [9] 正式文件较征求意见稿而言,主要有以下几点调整:
首先,正式文件将“使用时”的表述修改为“使用前”。我们理解,一方面,该等修改符合《中华人民共和国个人信息保护法》(“《个保法》”) 关于个人信息处理者在处理个人信息前的告知义务的规定。 [10] 而根据《个保法》第四条规定,个人信息的使用即属于个人信息的处理的一种情形。 [11] 因此,从遵循《个保法》规定的角度看,服务提供者应当在使用包含个人信息的语料之前,而非之时,即取得对应的个人同意或者符合法律、行政法规规定的其他情形。另一方面,服务提供者对语料的使用往往是多次、同时、大批量的使用,因此,要求其在使用的同时开始履行合规要求并不具备实操性,而是应当在使用乃至获取语料之前即获得个人同意,或者确保其符合法律法规的要求。
其次,正式文件删去了“应使用包含人脸等生物特征信息的语料时,获得对应个人信息主体的书面授权同意,或满足其他合法使用该生物特征信息的条件。”根据《个保法》第二十八条规定,敏感个人信息包含生物识别信息。 [12] 因此,即使正式文件中删去本条,由于上述第2)条的“敏感个人信息”在《个保法》的定义中已经包括了生物识别信息,因此并不会减轻服务提供者处理个人信息时需要履行的义务。
第三,正式文件将“或满足其他合法使用该个人信息的条件”的表述一律调整为“应取得对应个人同意或者符合法律、行政法规规定的其他情形”。我们理解,这一调整主要是为了与《AIGC暂行办法》第七条的表述保持一致。
3.3 第5.3条(语料标注安全要求)
(1) 第5.3条a)(标注人员方面)
| 征求意见稿 |
正式文件 |
| 第5.3条(语料标注安全要求)a)(标注人员方面):1)应自行对标注人员进行考核,给予合格者标注资质,并有定期重新培训考核以及必要时暂停或取消标注资质的机制; |
第5.3条(语料标注安全要求)a)(标注人员方面):1)应自行组织对于标注人员的安全培训,培训内容应包括标注任务规则、标注工具使用方法、标注内容质量核验方法、标注数据安全管理要求等; 2)应自行对标注人员进行考核,给予合格者标注上岗资格,并有定期重新培训考核以及必要时暂停或取消标注上岗资格的机制,考核内容应包括标注规则理解能力、标注工具使用能力、安全风险判定能力、数据安全管理能力等; |
本条内容照应了《AIGC暂行办法》第八条中对生成式人工智能服务提供者在技术研发过程中进行数据标注的要求,并对该等要求进行了细化和进一步拓展。 [13] 正式文件相较于征求意见稿,增加了对于标注人员的安全培训以及具体培训内容的要求,并进一步明确了标注人员的考核机制。
4. 第6条(模型安全要求)(对服务提供者的要求)
4.1 第6条b)(模型生成内容安全方面)
| 征求意见稿 |
正式文件 |
| 第6条b)模型生成内容安全方面: 1)在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一; 2)在每次对话中,应对使用者输入信息进行安全性检测,引导模型生成积极正向内容; 3)对提供服务过程中以及定期检测时发现的安全问题,应通过针对性的指令微调、强化学习等方式优化模型。 注:模型生成内容是指模型直接输出的、未经其他处理的原生内容。 |
第6条b)模型生成内容安全方面: 1)在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一; 2)在每次对话中,应对使用者输入信息进行安全性检测,引导模型生成积极正向内容; 3)应建立常态化监测测评手段,对监测测评发现的提供服务过程中的安全问题,及时处置并通过针对性的指令微调、强化学习等方式优化模型。 注:模型生成内容是指模型直接输出的、未经其他处理的原生内容。 |
正式文件将征求意见稿中对模型生成内容的“定期检测”要求具象化为要求服务提供者建立常态化监测测评手段,强调监测测评是持续进行的过程,进一步确保提供服务全过程的安全性。另外,正式文件中增加了及时处置安全问题的表述,对服务提供者提出问题处理的时效性要求,防止安全问题扩大带来进一步影响。
4.2 第6条c)(生成内容准确性方面) d)(生成内容可靠性方面)
| 征求意见稿 |
正式文件 |
| 第6条 d)生成内容准确性方面:生成内容应准确响应使用者输入意图,所包含的数据及表述应符合科学常识或主流认知、不含错误内容。 e)生成内容可靠性方面:服务按照使用者指令给出的回复,应格式框架合理、有效内容含量高,应能够有效帮助使用者解答问题。 |
第6条 c)生成内容准确性方面:应采取技术措施提高生成内容响应使用者输入意图的能力,提高生成内容中数据及表述与科学常识及主流认知的符合程度,减少其中的错误内容。 d)生成内容可靠性方面:应采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用。 |
正式文件改变了征求意见稿中对生成内容的安全性的绝对要求,转变为要求服务提供者采取操作保障内容安全,即要求服务提供者采取技术措施实现生成内容准确性和可靠性的提高。本条的增删在一定程度上体现了监管部门对于生成式人工智能具有不可控性这一客观事实的理解,进而将监管的侧重点从单一的“结果安全”转变为兼顾“结果安全”与“程序安全”,降低了各类生成式人工智能服务提供者的合规压力。
5. 第7条(安全措施要求)(对服务提供者的要求)
5.1 第7条a)(模型适用人群、场合、用途方面)
| 征求意见稿 |
正式文件 |
| 第7条a)模型适用人群、场合、用途方面: 1)应充分论证在服务范围内各领域应用生成式人工智能的必要性、适用性以及安全性; 2)服务用于关键信息基础设施、自动控制、医疗信息服务、心理咨询等重要场合的,应具备与风险程度以及场景相适应的保护措施; 3)服务适用未成年人的,应: ——允许监护人设定未成年人防沉迷措施,并通过密码保护; ——限制未成年人单日对话次数与时长,若超过使用次数或时长需输入管理密码; ——需经过监护人确认后未成年人方可进行消费; ——为未成年人过滤少儿不宜内容,展示有益身心健康的内容。 4)服务不适用未成年人的,应采取技术或管理措施防止未成年人使用。 |
第7条a)模型适用人群、场合、用途方面: 1)应充分论证在服务范围内各领域应用生成式人工智能的必要性、适用性以及安全性; 2)服务用于关键信息基础设施,以及如自动控制、医疗信息服务、心理咨询、金融信息服务等重要场合的,应具备与风险程度以及场景相适应的保护措施; 3)服务适用未成年人的: ——应允许监护人设定未成年人防沉迷措施; ——不应向未成年人提供与其民事行为能力不符的付费服务; ——应积极展示有益未成年人身心健康的内容。 4)服务不适用未成年人的,应采取技术或管理措施防止未成年人使用。 |
一方面,正式文件增加了金融信息服务作为重要场合之一,进行明确列举,要求服务提供者将服务用于金融信息服务时,也需要具备与风险程度以及场景相适应的保护措施。金融安全是国家安全的重要组成部分,本条的修改照应了《金融信息服务管理规定》中对金融信息服务提供者应当履行主体责任、建立信息安全保障等服务规范的要求, [14] 体现了我国监管部门对于生成式人工智能服务应用于金融行业所可能构成的潜在风险的特别关注。
另一方面,本条也照应了《AIGC暂行办法》对未成年人保护的要求,并对实现该等要求所应采取的措施进行了细化。 [15] 正式文件在适用未成年人服务方面,删除了密码管理形式及单日对话次数与时长的限制,避免过度限制未成年人自由,体现《中华人民共和国未成年人保护法》保护未成年人隐私权的原则。 [16]
此外,正式文件在规范未成年人付费服务方面,由要求未成年人的监护人确认付费服务内容改为要求服务提供者负责不向未成年人提供与其民事行为能力不符的付费服务,并要求服务提供者谨慎开放面向未成年人的付费服务。
5.2 第7条b)(服务透明度方面)
| 征求意见稿 |
正式文件 |
| 第6条c)服务透明度方面: 1)以交互界面提供服务的,应在网站首页等显著位置向社会公开以下信息: ——服务适用的人群、场合、用途等信息; ——第三方基础模型使用情况。 2)以交互界面提供服务的,应在网站首页、服务协议等便于查看的位置向使用者公开以下信息: ——服务的局限性; ——所使用的模型架构、训练框架等有助于使用者了解服务机制机理的概要信息。 3)以可编程接口形式提供服务的,应在说明文档中公开1)和2)中的信息。 |
第7条b)服务透明度方面: 1)以交互界面提供服务的,应在网站首页等显著位置向社会公开服务适用的人群、场合、用途等信息,宜同时公开基础模型使用情况; 2)以交互界面提供服务的,应在网站首页、服务协议等便于查看的位置向使用者公开以下信息: ——服务的局限性; ——所使用的模型、算法等方面的概要信息; ——所采集的个人信息及其在服务中的用途。 3)以可编程接口形式提供服务的,应在说明文档中公开1)和2)中的信息。 |
本条照应了《AIGC暂行办法》第十条针对生成式人工智能服务透明度的要求。 [17] 正式文件在公开信息方面取消强制公开基础模型使用情况,此改动平衡了提升生成式人工智能服务对用户的透明度与保护商业秘密这两项需求。另外,正式文件中还增加了要求服务提供者在显著位置公开采集个人信息及其在服务中的用途的规定,与《个保法》中个人信息处理规则保持一致, [18] 体现对个人信息保护的重视。
5.3 第7条c)(收集使用者输入信息用于训练方面)
| 征求意见稿 |
正式文件 |
| 第7条c)收集使用者输入信息用于训练方面: 1)应事前与使用者约定能否将使用者输入信息用于训练; 2)应设置关闭使用者输入信息用于训练的选项; 3)使用者从服务主界面开始到达该选项所需操作不应超过4次点击; 4)应将收集使用者输入的状态,以及(2)中的关闭方式显著告知使用者。 |
第7条c)收集使用者输入信息用于训练方面: 1)应为使用者提供关闭其输入信息用于训练的方式,例如为使用者提供选项或语音控制指令;关闭方式应便捷,例如采用选项方式时使用者从服务主界面开始到达该选项所需操作不超过4次点击; 2)应将收集使用者输入的状态,以及(1)中的关闭方式显著告知使用者。 |
本条照应了《AIGC暂行办法》第九条的规定。 [19] 正式文件中删除了服务提供者“应事前与使用者约定能否将使用者输入信息用于训练”这一要求,而仅保留了“服务提供者显著告知+允许使用者便捷关闭”的同意机制。针对收集输入信息用于训练事项,建议服务提供者在与使用者的用户协议中明确规定、向使用者发送站内信或通过其他方式提示使用者其输入信息将用于训练,并根据正式文件的要求对向使用者明确提供简便快捷的关闭输入信息用于训练的方式。
5.4 第7条d)(图片、视频等内容标识方面)
| 征求意见稿 |
正式文件 |
| 第7条d)图片、视频等内容标识方面,应按TC260-PG-20233A《网络安全标准实践指南—生成式人工智能服务内容标识方法》进行以下标识: 1)显示区域标识; 2)图片、视频的提示文字标识; 3)图片、视频、音频的隐藏水印标识; 4)文件元数据标识; 5)特殊服务场景的标识。 |
第7条d)图片、视频等内容标识方面,应满足国家相关规定以及国家标准要求。 |
本条照应了《AIGC暂行办法》中第十二条关于生成内容标识的规定。 [20] 正式文件中删去了内容标识的特定依据,我们理解,服务提供者对于生成内容标识的规定应当遵循包括《互联网信息服务深度合成管理规定》、TC260-PG-20233A《网络安全标准实践指南—生成式人工智能服务内容标识方法》在内的现有以及未来可能出现的相关国家标准、行业标准的规定。
5.5 第7条e)(训练、推理所采用的计算系统方面)
| 征求意见稿 |
正式文件 |
| 无该条款。 |
第7条e)训练、推理所采用的计算系统方面: 1)应评估系统所采用芯片、软件、工具、算力等方面的供应链安全,侧重评估供应持续性、稳定性等方面; 2)所采用芯片宜支持基于硬件的安全启动、可信启动流程及安全性验证,保障生成式人工智能系统运行在安全可信环境中。 |
本条照应了《AIGC暂行办法》第六条的规定。 [21] 正式文件中增加了对训练和推理所采用的计算系统方面的安全要求,提出计算系统供应链安全评估要求,并对芯片安全程度提出支持标准,从软件硬件两方面出发保障计算系统的安全运行,也与《中华人民共和国计算机信息系统安全保护条例》中计算机信息系统的使用单位应当建立健全安全管理制度的要求相适应。 [22]
5.6 第7条g)(向使用者提供服务方面)
| 征求意见稿 |
正式文件 |
| 第7条f)向使用者提供服务方面: 1)对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答; 2)应设置监看人员,及时根据国家政策以及第三方投诉情况提高生成内容质量,监看人员数量应与服务规模相匹配。 |
第7条g)向使用者提供服务方面: 1)应采取关键词、分类模型等方式对使用者输入信息进行检测,使用者连续三次或一天内累计五次输入违法不良信息或明显诱导生成违法不良信息的,应依法依约采取暂停提供服务等处置措施; 2)对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答; 3)应设置监看人员,并及时根据监看情况提高生成内容质量及安全,监看人员数量应与服务规模相匹配。 注:监看人员的职责包括及时跟踪国家政策、收集分析第三方投诉情况等。 |
本条照应了《AIGC暂行办法》第十四条中对服务提供者就违法内容采取处置措施的要求。 [23] 正式文件增加了对使用者输入信息的检测及相应处置要求,加强对使用者输入信息的监管,并要求服务提供者根据监看情况而非仅根据国家政策以及第三方投诉情况来进行内容优化。总体而言,本条向服务提供者提供了生成内容监控制度的设立要点,分别包括(1)在输入阶段,检测输入信息、对多次输入违法信息的用户采取处置措施;(2)在内容生成阶段,对诱导性问题设立拒绝回答的机制;(3)设置人员监控制度,根据监控情况及时调整基础模型,提高生成内容质量及安全。
5.7 第7条h)(模型更新、升级方面)
| 征求意见稿 |
正式文件 |
| 第7条g)模型更新、升级方面: 1)应制定在模型更新、升级时的安全管理策略; 2)应形成管理机制,在模型重要更新、升级后,再次进行安全评估,并按规定向主管部门重新备案。 |
第7条h)模型更新、升级方面: 1)应制定在模型更新、升级时的安全管理策略; 2)应形成管理机制,在模型重要更新、升级后,再次自行组织安全评估。 |
正式文件删除了在模型重要更新、升级后须重新备案的要求,修改为由服务提供者自行组织安全评估。这一修改与《具有舆论属性或社会动员能力的互联网信息服务安全评估规定》(“《互联网信息服务安全评估规定》”)中互联网信息服务提供者应当在使用新技术新应用导致重大变更等情形下自行开展安全评估的规定相适应。 [24] 根据《互联网信息服务安全评估规定》第七条规定 [25] ,如该等模型重要更新、升级属于使用新技术新应用导致重大变更情形,服务提供者完成该等安全评估后需要将该等安全评估报告提交至网信部门等主管部门。如服务提供者涉及提供互联网新闻信息服务的,还需根据《互联网新闻信息服务新技术新应用安全评估管理规定》规定 [26] 报请国家或者省、自治区、直辖市互联网信息办公室组织开展安全评估。
5.8 第7条i)(服务稳定、持续方面)
| 征求意见稿 |
正式文件 |
| 无该条款。 |
第7条i)服务稳定、持续方面: 1)应将训练环境与推理环境隔离,避免数据泄露和不当访问; 2)应对模型输入内容持续监测,防范恶意输入攻击,例如DDoS、XSS、注入攻击等; 3)应定期对所使用的开发框架、代码等进行安全审计,关注开源框架安全及漏洞相关问题,识别和修复潜在的安全漏洞; 4)应建立数据、模型、框架、工具等的备份机制以及恢复策略,重点确保业务连续性。 |
本条照应了《AIGC暂行办法》第十三条对生成式人工智能服务稳定性与持续性的要求。 [27] 正式文件单独增加了本条款,既遵循了《AIGC暂行办法》的要求,也与目前全球各主要国家和地区对人工智能服务鲁棒性(robustness)的普遍关注态度一致。正式文件中明确了保障稳定性与可持续性须注意的技术要点,包括隔离训练环境与推理环境、持续监测模型输入内容、定期安全审计、建立备份机制和恢复策略等。
6. 第9条(安全评估要求,原第8条)
6.1 第9.1条(评估方法,原8.1条)
| 征求意见稿 |
正式文件 |
| 第8.1条(评估方法) 对提供者的要求如下。 a)应在服务上线前以及重大变更时开展安全评估,评估可自行开展安全评估,也可委托第三方评估机构开展。 b)安全评估应覆盖本文件所有条款,每个条款应形成单独的评估结论,评估结论应为符合、不符合或不适用: 1)结论为符合的,应具有充分的证明材料; 2)结论为不符合的,应说明不符合的原因,采用与本文件不一致的技术或管理措施,但能达到同样安全效果的,应详细说明并提供措施有效性的证明; 3)结论为不适用的,应说明不适用理由。 c)应将本文件各条款的评估结论以及相关证明、支撑材料写入评估报告: 1)评估报告应符合开展评估时主管部门要求; 2)撰写评估报告过程中,因报告格式原因,本文件中部分条款的评估结论和相关情况无法写入评估报告正文的,应统一写入附件。 d)自行开展安全评估的,评估报告应至少具有三名负责人共同签字: 1)单位法人; 2)整体负责安全评估工作的负责人,应为单位主要管理者或网络安全负责人; 3)安全评估工作中合法性评估部分的负责人,应为单位主要管理者或法务负责人。 |
第9.1条(评估方法) 要求如下。 a)按照本文件自行组织的安全评估,可由提供方自行开展,也可委托第三方评估机构开展。 b)安全评估应覆盖本文件第5章至第8章中所有条款,每个条款应形成单独的评估结果,评估结果应为符合、不符合或不适用: 1)结果为符合的,应具有充分的证明材料; 2)结果为不符合的,应说明不符合的原因,有以下特殊情况的应补充说明: 采用与本文件不一致的技术或管理措施,但能达到同样安全效果的,应详细说明并提供措施有效性的证明; 已采取技术或管理措施但尚未满足要求的,应详细说明采取的措施和后续满足要求的计划。 3)结果为不适用的,应说明不适用理由。 c)应将本文件第5章至第8章中各条款的评估结果以及相关证明、支撑材料写入评估报告: 1)评估报告应符合履行备案手续时的相关要求; 2)撰写评估报告过程中,因报告格式原因,本文件中部分条款的评估结果和相关情况无法写入评估报告正文的,应统一写入附件。 d)应在评估报告中形成整体评估结论: 1)各条款的评估结果均为符合或不适用时,整体评估结论为全部符合要求; 2)部分条款评估结果为不符合时,整体评估结论为部分符合要求; 3)全部条款均为不符合时,整体评估结论为全部不符合要求; 4)第5章至第8章中推荐性条款的评估结果不影响整体评估结论。 e)自行开展安全评估的,评估报告应至少具有三名负责人共同签字: 1)单位法定代表人; 2)整体负责安全评估工作的负责人,应为单位主要管理者或网络安全负责人; 3)安全评估工作中合法性评估部分的负责人,应为单位主要管理者或法务负责人。 |
正式文件中对安全评估结果为不符合的特殊情况做出了进一步规范,要求服务提供者对已经采取技术或管理措施但未符合《AIGC安全要求》项下强制性安全措施要求的部分进行详细说明,阐明采取的措施以及后续满足要求的计划。另外,正式文件中还新增了要求安全评估报告形成整体评估结论的内容,并明确了该结论的评估标准,进一步提高了安全评估报告的完整性与科学性。
二、 生成式人工智能服务安全制度的修订要点与合规制度建议
1. 修订要点
整体而言,正式文件较征求意见稿的修订大致分为三个方面:其一,将各类定义与条款表述与《个保法》、《AIGC暂行办法》等法律规定拉齐,保证规范概念体系的一致性;其二,从可行性的角度对部分生成式人工智能服务的安全要求进行了删繁就简、灵活处理,平衡了包括用户知情权、内容安全在内的合规需求与发展需求;其三,在语料采集、语料标注、内容安全监测、服务稳定性等方面为服务提供者提供了更为明确、详细、与当前发展水平相适应的制度设立的指引。
2. 安全合规制度建议
在归纳梳理了《AIGC安全要求》正式文件中对服务提供者的各项服务安全评估要求后,我们建议服务提供者可考虑采取下述制度,以保障自身所提供的生成式人工智能服务的安全性。
2.1 设立语料来源安全管理制度
(1) 设立语料采集前及采集后安全评估制度,结合《AIGC安全要求》附录A中针对语料安全风险信息的分类,对风险语料设立分级分类识别、关键词识别等识别机制。
(2) 设立语料来源追溯制度。将采集的语料根据《AIGC安全要求》分为自采语料 [28] 与商业语料,并针对不同类型的语料,通过内部培训、协议条款约定、交易审核流程等环节建立起语料追溯制度。
2.2 设立语料内容安全管理制度,包括:
(1) 语料内容过滤制度。服务提供者可以通过多种机制确保语料内容的合法性和适宜性,包括但不限于:关键词过滤、分类模型、人工抽检等;
(2) 知识产权管理制度。服务提供者可以确立针对生成式人工智能的知识产权管理制度,包括但不限于:设立知识产权负责人和管理策略、设立知识产权风险识别制度、建立用户易于访问的投诉举报渠道以及知识产权侵权问题报告渠道等。
2.3 建立语料标注规范,包括:
(1) 标注人员管理制度,包括但不限于:安全培训制度、考核制度、职能划分等;
(2) 标注规则,包括但不限于:
(a) 确立规则基本内容,制定包含标注目标、数据格式、方法和质量指标的标注规则;
(b) 确立功能性与安全性标注规则,分别对功能性和安全性标注制定规则,至少覆盖数据标注和审核环节;
(3) 标注内容抽检审核制度,包括但不限于:
(a) 功能性标注抽检制度,对每批标注语料进行人工抽检,不准确的内容需重新标注,包含违法不良信息的批次应废弃;
(b) 安全性标注审核制度,确保每条安全性标注语料至少需经一名审核人员审核通过;
(4) 设立数据隔离存储制度,对安全性标注数据进行隔离存储,以保障数据的安全性和完整性。
2.4 设立模型生成内容安全制度,包括但不限于:
(1) 安全性评价规则,在模型训练过程中,将生成内容的安全性作为评估生成结果好坏的主要指标;
(2) 输入信息安全性检测制度,对用户输入进行安全性检测,引导模型生成积极正向的内容;
(3) 常态化监测与优化机制,建立常态化的监测评估机制,对服务过程中检测到的安全问题进行及时处理,并通过指令微调或强化学习等技术手段优化模型。
2.5 其他综合管理制度
(1) 模型适用性和安全性制度,包括但不限于:
(a) 特殊场合的保护措施:为关键信息基础设施领域,或者如自动控制、医疗信息服务等重要场景提供服务时,结合《网络安全法》、《数据安全法》、《关键信息基础设施安全保护条例》、《信息安全技术 关键信息基础设施安全保护要求》等规范制定与风险相适应的保护措施;
(b) 未成年人保护制度:结合《未成年人网络保护条例》等未成年人保护相关法律法规设立未成年人使用规则,允许监护人设定防沉迷措施,展示有益内容,防止未成年人接触不适用服务。
(2) 内容监管与质量控制制度,设置关键词和分类模型监管制度以及人员监看制度:对用户输入进行监管,对违法不良信息采取处置措施,并根据监看情况提高内容质量及安全,监看人员数量应与服务规模匹配。
(3) 环境隔离与安全审计制度,隔离训练与推理环境,定期进行安全审计。设立持续监测与备份恢复制度,持续监测输入内容,建立数据和模型的备份及恢复策略。
结语
《生成式人工智能服务安全基本要求》正式文件的出台,不仅为企业提供了更明确的合规指导,也体现了我国在促进技术创新的同时,对于保障网络安全、个人隐私以及社会公共利益的坚定立场。面对快速发展的生成式人工智能技术,建立和完善相应的合规制度,不仅符合当前的法规要求,更使其在不断变化的法律环境中保持灵活性和前瞻性,确保技术创新的同时,能够有效管理风险,保护用户权益。我们将持续关注,为企业保驾护航。
[1] 《AIGC暂行办法》第二条规定,“生成式人工智能服务”是指“利用生成式人工智能技术向中华人民共和国境内公众提供生成文本、图片、音频、视频等内容的服务”。
[2] 《AIGC暂行办法》第二十二条规定,“生成式人工智能服务提供者,是指利用生成式人工时能技术提供生成式人工智能服务(包括通过提供可编程接口等方式提供生成式人工智能服务)的组织、个人”。
[3] 《AIGC暂行办法》第七条规定,“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;……”
[4] https://www.ceweekly.cn/company/2024/0116/434891.html。
[5] https://www.tencent.com/zh-cn/articles/2201685.html。
[6] https://news.sciencenet.cn/htmlnews/2023/12/513458.shtm
[7] https://developer.baidu.com/article/detail.html?id=1099866
[8] 《AIGC暂行办法》第七条规定,“生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:……(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;……(五)《中华人民共和国网络安全法》、《中华人民共和国数据安全法》、《中华人民共和国个人信息保护法》等法律、行政法规的其他有关规定和有关主管部门的相关监管要求。”
[9] 《AIGC暂行办法》第七条规定,“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:……(三)涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;……。”
[10] 《个保法》第十七条规定,“个人信息处理者在处理个人信息前,应当以显著方式、清晰易懂的语言真实、准确、完整地向个人告知下列事项:(一)个人信息处理者的名称或者姓名和联系方式;(二)个人信息的处理目的、处理方式,处理的个人信息种类、保存期限;(三)个人行使本法规定权利的方式和程序;(四)法律、行政法规规定应当告知的其他事项。前款规定事项发生变更的,应当将变更部分告知个人。”
[11] 《个保法》第四条规定,“个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。个人信息的处理包括个人信息的收集、存储、使用、加工、传输、提供、公开、删除等。”
[12] 《个保法》第二十八条规定,“敏感个人信息是一旦泄露或者非法使用,容易导致自然人的人格尊严受到侵害或者人身、财产安全受到危害的个人信息,包括生物识别……等信息。”
[13] 《AIGC暂行办法》第八条的规定,“在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。”
[14] 《金融信息服务管理规定》第五条规定,“金融信息服务提供者应当履行主体责任,配备与服务规模相适应的管理人员,建立信息内容审核、信息数据保存、信息安全保障、个人信息保护、知识产权保护等服务规范。”
[15] 《AIGC暂行办法》第十条规定,“提供者应当……指导使用者科学理性认识和依法使用生成式人工智能技术,采取有效措施防范未成年人用户过度依赖或者沉迷生成式人工智能服务。”
[16] 《中华人民共和国未成年人保护法》第四条规定,“保护未成年人,应当坚持最有利于未成年人的原则。处理涉及未成年人事项,应当符合下列要求:……(三)保护未成年人隐私权和个人信息;……。”
[17] 《AIGC暂行办法》第十条规定,“提供者应当明确并公开其服务的适用人群、场合、用途”。
[18] 《个保法》第十七条规定,“个人信息处理者在处理个人信息前,应当以显著方式、清晰易懂的语言真实、准确、完整地向个人告知下列事项:……(二)个人信息的处理目的、处理方式,处理的个人信息种类、保存期限;……。
个人信息处理者通过制定个人信息处理规则的方式告知第一款规定事项的,处理规则应当公开,并且便于查阅和保存。”
[19] 《AIGC暂行办法》第九条规定,“提供者应当与注册其服务的生成式人工智能服务使用者(以下称使用者)签订服务协议,明确双方权利义务。”
[20] 《AIGC暂行办法》第十二条规定,“提供者应当按照《互联网信息服务深度合成管理规定》对图片、视频等生成内容进行标识。”
[21] 《AIGC暂行办法》第六条规定,“促进算力资源协同共享,提升算力资源利用效能。推动公共数据分类分级有序开放,扩展高质量的公共训练数据资源。鼓励采用安全可信的芯片、软件、工具、算力和数据资源。”
[22] 《中华人民共和国计算机信息系统安全保护条例》第十三条规定,“计算机信息系统的使用单位应当建立健全安全管理制度,负责本单位计算机信息系统的安全保护工作。”
[23] 《AIGC暂行办法》第十四条规定,“提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。提供者发现使用者利用生成式人工智能服务从事违法活动的,应当依法依约采取警示、限制功能、暂停或者终止向其提供服务等处置措施,保存有关记录,并向有关主管部门报告。”
[24] 《互联网信息服务安全评估规定》第三条规定,“互联网信息服务提供者具有下列情形之一的,应当依照本规定自行开展安全评估,并对评估结果负责:……(二)使用新技术新应用,使信息服务的功能属性、技术实现方式、基础资源配置等发生重大变更,导致舆论属性或者社会动员能力发生重大变化的;……。”
[25] 《互联网信息服务安全评估规定》第七条规定,“互联网信息服务提供者应当将安全评估报告通过全国互联网安全管理服务平台提交所在地地市级以上网信部门和公安机关。具有本规定第三条第一项、第二项情形的,互联网信息服务提供者应当在信息服务、新技术新应用上线或者功能增设前提交安全评估报告;具有本规定第三条第三、四、五项情形的,应当自相关情形发生之日起30个工作日内提交安全评估报告。”
[26] 《互联网新闻信息服务新技术新应用安全评估管理规定》第七条规定,“有下列情形之一的,互联网新闻信息服务提供者应当自行组织开展新技术新应用安全评估,编制书面安全评估报告,并对评估结果负责:(一)应用新技术、调整增设具有新闻舆论属性或社会动员能力的应用功能的;(二)新技术、新应用功能在用户规模、功能属性、技术实现方式、基础资源配置等方面的改变导致新闻舆论属性或社会动员能力发生重大变化的。国家互联网信息办公室适时发布新技术新应用安全评估目录,供互联网新闻信息服务提供者自行组织开展安全评估参考。”
《互联网新闻信息服务新技术新应用安全评估管理规定》第八条规定,“互联网新闻信息服务提供者按照本规定第七条自行组织开展新技术新应用安全评估,发现存在安全风险的,应当及时整改,直至消除相关安全风险。按照本规定第七条规定自行组织开展安全评估的,应当在应用新技术、调整增设应用功能前完成评估。”
《互联网新闻信息服务新技术新应用安全评估管理规定》第九条规定,“互联网新闻信息服务提供者按照本规定第八条自行组织开展新技术新应用安全评估后,应当自安全评估完成之日起10个工作日内报请国家或者省、自治区、直辖市互联网信息办公室组织开展安全评估。”
[27] 《AIGC暂行办法》第十三条规定,“提供者应当在其服务过程中,提供安全、稳定、持续的服务,保障用户正常使用。”
[28] 《AIGC安全要求》正式文件规定,对于汇聚了网络地址、数据链接等能够指向或生成其他数据的情况,如果需要使用这些被指向或生成的内容作为语料,应将其视同于自采语料。





沪公网安备 31010402007129号