商务服务
中国发布《生成式AI安全基本要求》,涵盖训练数据、生成内容等
2024-06-09 19:41

声明:本文来自于微信公众号 AIGC开放社区(ID:AIGCOPEN),作者:AIGC开放社区,授权站长之家转载发布。

中国发布《生成式AI安全基本要求》,涵盖训练数据、生成内容等

全国网络安全标准化技术..在官网发布了,国家标准《网络安全技术 生成式人工智能服务安全基本要求》征求意见稿。

该意见稿一共分为《网络安全技术 生成式人工智能服务安全基本要求-标准文本》、意见汇总处理表和编制说明三大块。

其中,标准文本涵盖训练数据安全要求、模型安全要求等,主要是为了加强生成式人工智能的开发、应用落地的安全性。如果你对该标准有任何意见,可以在2024年7月22日前反馈给国家网安标委秘书处。

2023年7月,国家网信办等七部门发布了《生成式人工智能服务管理暂行办法》,从政策法规层面为我国生成式人工智能健康发展保驾护航,为有序开展相关管理工作明确了方向。

而本次发布的标准要求是对《办法》中的安全要求进行细化,规定了生成式人工智能服务在安全方面的基本要求,针对当前生成式人工智能服务研发过程中的网络安全、数据安全、个人信息保护,以及面向服务过程中的应用场景安全风险、软硬件环境安全风险、生成内容安全风险、权益保障安全风险等方面,提出细化安全要求。

下面「AIGC开放社区」将为大家介绍该标准的主要内容

数据来源安全

对服务提供者的要求如下。

a)采集来源管理:

1)面向特定数据来源进行采集前,应对该来源数据进行安全评估,数据内容中含违法不良信息超过5%的,不应采集该来源数据;

2)面向特定数据来源进行采集后,应对所采集的该来源数据进行核验,含违法不良信息情况超过5%的,不应使用该来源数据进行训练。

b)不同来源训练数据搭配:

1)应提高训练数据来源的多样性,对每一种语言的训练数据,如中文、英文等,以及每一种类型的训练数据,如文本、图片、音频、视频等,均应有多个训练数据来源;

2)如需使用境外来源训练数据,应与境内来源训练数据进行合理搭配。

c)训练数据来源可追溯:

1)使用开源训练数据时,应具有该数据来源的开源许可协议或相关授权文件;

2)使用自采训练数据时,应具有采集记录,不应采集他人已明确不可采集的数据;不可采集的网页数据,或个人已拒绝授权采集的个人信息等。

3)使用商业训练数据时:

应有具备法律效力的交易合同、合作协议等;

交易方或合作方不能提供数据来源、质量、安全等方面的承诺以及相关证明材料时,不应使用该训练数据;

应对交易方或合作方所提供训练数据、承诺、材料进行审核。

4)将使用者输入信息当作训练数据时,应具有使用者授权记录。

数据内容安全

a)训练数据内容过滤:对于每一种类型的训练数据,如文本、图片、音频、视频等,应在将数据用于训练前,对全部训练数据进行过滤,过滤方法包括但不限于关键词、分类模型、人工抽检等,去除数据中的违法不良信息。

b)知识产权:

1)应有训练数据知识产权管理策略,并明确负责人;

2)数据用于训练前,应对数据中的主要知识产权侵权风险进行识别,发现存在知识产权侵权等问题的,服务提供者不应使用相关数据进行训练;

注:训练数据中包含文学、艺术、科学作品的,需要重点识别训练数据以及生成内容中著作权侵权问题。

3)应建立针对知识产权问题的投诉举报渠道;

4)应在用户服务协议中,向使用者告知使用生成内容的知识产权相关风险,并与使用者约定相

关责任与义务;

5)应及时根据国家政策以及第三方投诉情况更新知识产权相关策略;

6)宜具备以下知识产权措施:

公开训练数据中涉及知识产权部分的摘要信息;在投诉举报渠道中支持第三方就训练数据使用情况以及相关知识产权情况进行查询。

c)个人信息方面:

1)在使用包含个人信息的训练数据前,应取得对应个人同意或者符合法律、行政法规规定的其他情形;

2)在使用包含敏感个人信息的训练数据前,应取得对应个人单独同意或者符合法律、行政法规规定的其他情形。

模型安全要求

对服务提供者的要求如下。

a)模型训练方面:

1)在训练过程中,应将生成内容安全性作为评价生成结果优劣的主要考虑指标之一;

注:模型生成内容是指模型直接输出的、未经其他处理的原生内容。

2)应定期对所使用的开发框架、代码等进行安全审计,关注开源框架安全及漏洞相关问题,识别和修复安全漏洞。

b)模型输出方面:

1)生成内容准确性方面,应采取技术措施提高生成内容响应使用者输入意图的能力,提高生成内容中数据及表述与科学常识及主流认知的符合程度,减少其中的错误内容;

2)生成内容可靠性方面,应采取技术措施提高生成内容格式框架的合理性以及有效内容的含量,提高生成内容对使用者的帮助作用;

3)问题拒答方面,对明显偏激以及明显诱导生成违法不良信息的问题,应拒绝回答;对其他问题,应均能正常回答;

4)图片、视频等生成内容标识方面,应满足国家相关规定以及标准文件要求。

c)模型监测方面:

1)应对模型输入内容持续监测,防范恶意输入攻击,例如注入攻击、后门攻击、数据窃取、对抗攻击等;

2)应建立常态化监测测评手段以及模型应急管理措施,对监测测评发现的提供服务过程中的安全问题,及时处置并通过针对性的指令微调、强化学习等方式优化模型。

d)模型更新、升级方面:

1)应制定在模型更新、升级时的安全管理策略;

2)应形成管理机制,在模型重要更新、升级后,再次自行组织安全评估。

e)软硬件环境方面:

1)模型训练、推理所采用的计算系统方面:

应评估系统所采用芯片、软件、工具、算力等方面的供应链安全,侧重评估供应持续性、稳定性等方面;

所采用芯片宜支持基于硬件的安全启动、可信启动流程及安全性验证。

2)应将模型训练环境与推理环境隔离,避免数据泄露、不当访问等安全事件,隔离方式包括物理隔离与逻辑隔离。

上面只是部分内容,整个安全标准书是非常详细的,有兴趣的可以去官网查看全部内容。

我国也是全球为数不多在生成式人工智能领域连续出台安全管理条例的国家,一方面展示了国家对创新变革技术的重视程度,另外保证了生成式人工智能的场景化落地和应用安全。

文章转载自:业界 非本站原创

    以上就是本篇文章【中国发布《生成式AI安全基本要求》,涵盖训练数据、生成内容等】的全部内容了,欢迎阅览 ! 文章地址:http://sicmodule.glev.cn/news/6278.html 
     资讯      企业新闻      行情      企业黄页      同类资讯      首页      网站地图      返回首页 歌乐夫资讯移动站 http://sicmodule.glev.cn/mobile/ , 查看更多   
最新新闻
美团点评的无边界陷“四面楚歌”?
出 品 | 异观财经作 者 | 炫夜白雪美团无边界拓展业务线的同时,势必会与携程、京东、拼多多等流量巨头狭路相逢,陷入“四面楚歌
预售仅5.7万,五一档票房垫底,古天乐新片卖不动,问题在哪?
今年五一档不出意外的话,算是提前宣告凉凉了。作为一个长达五天的黄金档期,截止4月27号17点,档期预售总票房竟然只有2253万,
从题分邦第三课桌到未来:沉浸式 AI 自习室,让学习效率飙升 30%!
回首学生时代,那场景依旧历历在目:小小的课桌上,堆积如山的课本几乎将视线完全遮挡,像一座座难以逾越的山丘。午后的阳光毫无
待你学AI智习室:专注力升级,自习效果倍增
在信息爆炸的时代,学习已成为一种随时随地可能进行的活动。然而,面对纷繁复杂的干扰,如何保持高效专注,让自习效果倍增,成为
《悬疑风暴席卷而来:四部年度巨制,你的心跳准备好了吗?》
序章:迷雾深处,悬疑剧热潮再起航在这个充满无限可能的时代,影视作品如同璀璨繁星,照亮了我们的视听世界。而其中,悬疑剧以其
悬疑剧《借命而生》官宣演员阵容!秦昊主演,还有三大实力派坐镇
秦昊在悬疑剧这个领域真的可以说是一骑绝尘了!从最开始的《隐秘的角落》,到去年的超级大爆款《漫长的季节》。秦昊可以说不出手
央八开播!12集警匪大剧来袭!秦昊主演,4位实力派助阵,能火
森林中迷雾笼罩,在押犯徐文国(韩庚饰)、姚斌彬(史彭元饰)拼命向森林深处跑。夜色中,杜湘东(秦昊饰)等看守以手电照明,在
“五一”假期出游指南:畅享假期,理性消费
2025年“五一”假期临近,旅游市场热度持续攀升。根据携程发布的《“五一”旅游出行预测报告》显示,今年“五一”旅游消费呈现长
泉城“五一”热门打卡地发布,这个假期来济南!一站式将快乐拉满
  生活不止眼前,这一站来济南。欢迎五湖四海的老师儿们,这个假期来济南,一站式将快乐拉满!
价值观 VS 算法:刘强东与王兴的商业哲学对决
    作者 | 韩勇执行总编,20 年 TOP100 企业高管,战略运营专家。来源  |   管理智慧 AI+咨询合作 | 王老师:13801295388