全球最新：如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型安全与隐私白皮书》

发布时间：2023-06-07 22:19:11 来源：ZAKER科技

机器之心发布

作者：之江实验室

当前，生成式大模型已经为学术研究甚至是社会生活带来了深刻的变革，以 ChatGPT 为代表，生成式大模型的能力已经显示了迈向通用人工智能的可能性。但同时，研究者们也开始意识到 ChatGPT 等生成式大模型面临着数据和模型方面的安全隐患。

(资料图片)

今年 5 月初，美国白宫与谷歌、微软、OpenAI、Anthropic 等 AI 公司的 CEO 们召开集体会议，针对 AI 生成技术的爆发，讨论技术背后隐藏的风险、如何负责任地开发人工智能系统，以及制定有效的监管措施。国内的生成式大模型技术也正在发展之中，但是同时也需要先对安全问题进行相应的分析以便双管齐下，避免生成式大模型这把双刃剑带来的隐藏危害。

为此，之江实验室基础理论研究院人工智能与安全团队首次全面总结了 ChatGPT 为代表的生成式大模型的安全与隐私问题白皮书，希望能够为从事安全问题研究的技术人员指明方向，同时也为 AI 相关政策的制定者提供依据。

白皮书链接： https://github.com/xiaogang00/white-paper-for-large-model-security-and-privacy

生成式大模型的发展与重要应用

这份白皮书首先总结了 ChatGPT 与 GPT4 等生成式大模型的发展历程，以及其带来的各种令人惊叹的能力和社会变革、社会应用等。作者列举了 ChatGPT 和 GPT4 出现之前的 GPT-1、GPT-2、GPT-3、Google Bert 等模型的特点以及缺点，这些缺点与 ChatGPT 和 GPT4 的强大能力形成了对比；并且，ChatGPT 和 GPT4 之后又涌现了一大批的模型，包括 LLaMa、Alpaca、文心一言、通义千问等，它们的出现使得在人机交互、资源管理、科学研究、内容创作等应用领域出现了新的、强有力的工具。但同时也出现了包括数据安全，使用规范、可信伦理、知识产权以及模型安全方面的问题。

数据安全问题

白皮书提出，数据的安全和隐私是 ChatGPT 及 GPT4 等生成式大模型使用和研发过程中一个极为重要的问题，并从「显式」和「隐式」两个方面对其进行了分析。

在显式的信息泄漏中，首先，ChatGPT 等生成式大模型的训练数据在不经意间被转换成了生成内容，其中就包括了敏感和隐私的个人信息如银行卡账号、病例信息等。此外，ChatGPT 的数据安全和隐私隐患还体现在它对于对话框内容的存储，当用户在和 ChatGPT 互动时，他们的信息会以某些形式被记录和存储下来。

白皮书还提出了之前被大家忽略的隐式信息泄漏问题。首先，ChatGPT 体现出的数据安全和隐私的隐患是它可能通过对对话框数据的收集进行广告推荐，以及收集对话框数据进行推荐或者其他的下游机器学习任务，且 ChatGPT 有时候可能也会生成虚假的信息，以此来诱导用户泄漏一系列的数据。

使用规范问题

在白皮书中，作者提到 ChatGPT 和 GPT4 等生成式大模型强大的理解和生成能力虽然为我们的生活和生产带来了很多的便利，但是同时也存在更多的机会被恶意使用。在没有规范约束的情况下，恶意使用将带来很多的社会性问题。

其一，ChatGPT 和 GPT-4 等模型的强大能力使得某些别有用心的人想要将其作为违法活动的工具。例如用户可以利用 ChatGPT 来编写诈骗短信和钓鱼邮件，甚至开发代码，按需生成恶意软件和勒索软件等，而无需任何编码知识和犯罪经验。

其二，ChatGPT 和 GPT4 等生成式大模型没有把不同地区的法律规范考虑在内，在使用和输出的过程中可能会违反当地法律法规，因此需要一个强而有力的当地监管系统来检测其使用是否与当地法律法规相冲突。

其三，对于一些游离于安全和危险之间的灰色地带，ChatGPT 等生成式大模型的安全能力还没有得到增强。例如 ChatGPT 可能会输出一些诱导性的语句，包括跟抑郁症患者沟通时候可能会输出某些语句导致其产生轻生的心态。

可信伦理问题

ChatGPT 等生成式大模型以问答形态存在于社会层面，但其回复往往存在不可信，或者无法判断其正确的问题，会有似是而非的错误答案，甚至对现有社会伦理产生冲击。

白皮书指出，首先 ChatGPT 等生成式大模型的回复可能是在一本正经地胡说八道，语句通畅貌似合理，但其实完全大相径庭，目前模型还不能提供合理的证据进行可信性的验证。例如，ChatGPT 可能会对一些历史、科学、文化等方面的问题回答错误或者与事实相悖，甚至可能会造成误导或者误解，需要用户有自己的鉴别能力。

ChatGPT 等生成式大模型的伦理问题也在白皮书中被详细讨论。即使 OpenAI 等研发机构已经使用 ChatGPT 本身生成了他们的道德准则，但其中的道德准则是否符合我国国情的基本价值观原则，尚未有定论。作者提出其中存在传播有害意识形态、传播偏见和仇恨、影响政治正确、破坏教育公平、影响国际社会公平、加剧机器取代人类的进程、形成信息茧房阻碍正确价值观形成等问题。

知识产权问题

ChatGPT 等生成式大模型凭借强大的语言处理能力和低廉使用成本给社会方方面面带来便利的同时，也存在侵权的问题，对现存版权法体系带来冲击。例如 ChatGPT 生成的作品可能存在著作权争议：ChatGPT 虽然有着出色的语言处理能力，但是即使生成的作品符合知识产权的全部形式要求，ChatGPT 也无法成为著作权的主体，这是因为著作权主体享有权利的同时也要承担对应的社会责任，而 ChatGPT 只能作为用户强大的辅助生产力工具，它无法自主创作，更不要谈享有权利、履行义务的主体要求。

而且 ChatGPT 等生成式大模型仍无法独立创作，更没有自主思维和独立思考的能力，因而，ChatGPT 根据用户的输入生成的内容不符合作品「独创性」的要求。ChatGPT 用于模型训练的数据来自于互联网，不论多么高级的模型训练算法必然涉及到对现有智力成果的引用、分析、处理等，必然存在对他人合法知识产权的侵犯问题。

模型安全问题

从攻防技术角度来看，ChatGPT 等生成式大模型也存在着模型安全的问题。ChatGPT 本质上是基于深度学习的一个大型生成模型，也面临着人工智能安全方面的诸多威胁，包括模型窃取以及各种攻击引起输出的错误（例如包括对抗攻击、后门攻击、prompt 攻击、数据投毒等）。

例如，模型窃取指的是攻击者依靠有限次数的模型询问，从而得到一个和目标模型的功能和效果一致的本地模型。而 ChatGPT 已经开放了 API 的使用，这更为模型窃取提供了询问入口。又比如，ChatGPT 和 GPT4 作为一个分布式计算的系统，需要处理来自各方的输入数据，并且经过权威机构验证，这些数据将会被持续用于训练。那么 ChatGPT 和 GPT4 也面临着更大的数据投毒风险。攻击者可以在与 ChatGPT 和 GPT4 交互的时候，强行给 ChatGPT 和 GPT4 灌输错误的数据，或者是通过用户反馈的形式去给 ChatGPT 和 GPT4 进行错误的反馈，从而降低 ChatGPT 和 GPT4 的能力，或者给其加入特殊的后门攻击。

安全与隐私建议

最后，白皮书中对于安全和隐私等问题都进行了相应的建议，可作为之后技术研究者们的方向和政策制定者们的参考依据。

在保护隐私建议方面，白皮书提出要在增强原始数据中高敏感隐私信息的辨别和传播限制；在数据收集过程中利用差分隐私等技术进行隐私保护；对于训练数据的存储进行数据加密形式的安全保护；在模型训练过程中使用安全多方计算，同态加密以及联邦学习等技术进行数据隐私和安全保护；建立数据隐私评估和模型保护与安全认证体系，并且保护下游应用的隐私。

在模型安全问题的建议上，白皮书提出对安全与隐私信息的检测模型的训练；让不同的模型适用于不同国家的法律条款；以及针对各种对抗攻击进行防御性训练。

在模型合规问题上，白皮书提出进行可信输出的度量，信任值评价，增加模型输出的版权信息的查询功能。

总结来说，AI 生成式大模型的发展离不开安全，因此其安全问题将作为下一个技术点，值得众多研究者去攻克。而安全也是社会稳定的保障，有关部门需要尽快进行政策的制定。

THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

标签：

全球最新：如何应对生成式大模型「双刃剑」？之江实验室发布《生成式大模型安全与隐私白皮书》

深圳“双创”综合指数连续6年排名第一 创业密度稳居全国第一

双创由众而积厚成势，因创而破茧成蝶。今年5月，在深圳发布的《大众创业、万众创新研究报告(2021)》显示...

一线工作近22年的缉毒警：我知道坏的是毒品不是人性

“影子”般的缉毒警：一线工作22年，我知道坏的是毒品不是人性 如果我不继续干，别人也要干，缉...

广东肇庆“毒驾连撞5车致1死”肇事司机被批捕

1月5日14时30分许，广东肇庆市端州区一男子赵某毒驾连撞5车，致一人死亡。 1月10日，澎湃新闻(ww...

江西最大文物倒卖案宣判：倒卖国家二级文物 9人获刑

中新网南昌1月10日电 (冷峥嵘 张一怡)江西省共青城市人民法院10日发布消息称，近日，该院依法审结...

青海保障门源地震后生活必需品应急物资

中新网西宁1月10日电 (记者 孙睿)记者10日从青海省商务厅获悉，青海海北州门源县6 9级地震灾害发...

广西东兴口岸恢复通关 入境需网上预约

中新社防城港1月10日电 (翟李强)自2022年1月10日零时起，广西东兴口岸和边民互市贸易区恢复人员、...

呼和浩特：寒假期间有条件的学校要开展校内托管服务

中新网呼和浩特1月10日电 (记者 张林虎)10日，记者从呼和浩特市教育局获悉，在暑假校内托管试点的...

“中国最后一个原始部落”翁丁老寨火灾原因公布

“中国最后一个原始部落”翁丁老寨火灾原因公布：小孩玩火引起 中新网昆明1月10日电 (罗婕)近日...

北京市十五届人大五次会议胜利闭幕

北京市十五届人大五次会议胜利闭幕 蔡奇陈吉宁李伟魏小东张延昆出席 张延昆齐静当选市人...

天津市委市政府致全市父老乡亲的慰问信：我们一定能够打赢

中新网天津1月10日电 (记者 张道正)中共天津市委、天津市人民政府10日发布了“致全市父老乡亲的慰...

天津米面油存量由20天提高至30天 超市菜市场进货量翻倍

天津米面油存量由20天提高至30天 蔬菜库存量、超市菜市场进货量翻倍 记者10日从天津市商务局获...

兰州名师话“美育”：“尚乐立人”分层培优 以“美”润教

中新网兰州1月10日电 (记者 刘玉桃 高莹)“实际上音乐课作为一门非高考科目，一直以来没有受到足...

子夜直击，天津寒天战“疫”

新华全媒+｜子夜直击，天津寒天战“疫” 新华社天津1月10日电 题：子夜直击，天津寒天战“疫”...

重庆姐弟被生父扔下坠亡案上诉期结束 一审法院暂未收到两被告人上诉状

重庆姐弟被生父扔下坠亡案上诉期结束，一审法院暂未收到两被告人上诉状 澎湃新闻记者 谢寅宗 ...

天津：划定封控区 全市开展全员核酸检测

央视网消息：在各地的最新疫情中，奥密克戎变异株引发天津新增多例本土感染引人关注。截至1月9日下...

江歌母亲江秋莲：尊重法院判决，法律认定在我意料之中

中新网青岛1月10日电 (记者 胡耀杰)山东省青岛市城阳区人民法院10日对原告江秋莲与被告刘暖曦生命...

中国边疆“北方第一所”：9名民警守护“生命禁区”

中新网呼伦贝尔1月10日电 题：中国边疆“北方第一所”：9名民警守护“生命禁区” 作者 张玮 ...

辟谣！网传“封控区管控区相继解封”通知并非西安

中新网1月10日电 据西安发布官方微博消息，1月9日，一则：“鉴于我市目前封控区、管控区相继解封，...

河南安阳9日12时至24时新增11例本土确诊病例

1月9日12时至24时，河南安阳市新增本土确诊病例11例(汤阴县10例、文峰区1例)。 2020年1月22日至2...

老人5折环卫工8折生活困难免费 这家面馆背后有个暖心事

老人5折，环卫工人8折，生活困难可以免费吃 这家面馆打折背后，有个暖心故事 见习记者 许...

铁路公安以110幅优秀书画作品庆祝人民警察节

中新网北京1月10日电 (郭超凯 梁西征)1月10日是中国人民警察节。记者从公安部铁路公安局获悉，近...

本周中东部冷空气频繁 东北等地有降雪

中国天气网讯 本周我国中东部地区冷空气活动频繁，其中，今天(1月10日)受冷暖空气共同影响，雨雪范...

河南新增本土确诊病例60例

中新网1月10日电 据河南省卫健委网站消息，1月9日0—24时，全省新增本土确诊病例60例(郑州市24例，...

“打拐”民警眼里的百态人生：见证一份份不愿放弃的爱

打拐者说 一位“打拐”民警眼里的百态人生 本报记者毛鑫、王瑞平 在公安系统里，“打拐...

迎腊八北京晴天上线 阵风6至7级体感冻人

中国天气网讯 俗话说“腊七腊八冻掉下巴”，今天(1月10日)迎来腊八节，北京体感冻人，白天阵风六七...

多省份倡议春节“非必要不离开”，这地补贴1000元

伪造国家机关证件典型案例发布 有力打击制假贩假行为

15年照顾170多个新生儿 金牌月嫂“漂”到海外去看娃

江歌母亲江秋莲诉刘鑫案一审将于今日宣判

河南省安阳市两地划为高风险地区 一地划为中风险地区

员工迟到一次罚一千引争议 单位惩戒员工法律边界何在？

以体育人 秀出“青年范儿”

保安、厨师曾被竞业限制 企业滥用竞业限制让员工很苦恼

反诈老陈破圈：人民群众在哪 就把反诈宣传开展到哪

一所中职学校的育人实践

各地严惩恶意欠薪 保障农民工及时拿到工资

中学生成剧本杀行业潜在消费人群 多方助推行业“净化”

“这就是我最好的选择”

对餐饮浪费说“不”(百姓关注)

校园“直通车” 服务“零距离”

琉璃河遗址 两段铭文共证北京三千年建城史

千元修复个人征信报告？银行：“征信修复”都是骗局

琉璃河遗址 两段铭文共证北京三千年建城史

北京公交将开展无人驾驶道路测试

河南郑州调整五地为中风险区域 公路入郑需核酸检测阴性证明

“共享法庭”让金融消费者畅享“智慧司法”便利

《传奇2》网游著作权纠纷案峰回路转 最高法五份裁决四份改判一份发回重审

三代警察：从未放弃的28年

“胡叔叔”的寻亲工作室

天津津南本轮本土疫情第3—20例阳性感染者活动轨迹公布

“团圆”行动刑侦专家吕游 每一个案例都有单独的技术方案

河南“战疫”直面五重考验

开考古书店日均两三个顾客 流量时代她决心仍是只卖书

冬奥开幕在即 “双减”催热冰雪课堂

深圳“双创”综合指数连续6年排名第一创业密度稳居全国第一

　　“影子”般的缉毒警：一线工作22年，我知道坏的是毒品不是人性　　如果我不继续干，别人也要干，缉...

　　1月5日14时30分许，广东肇庆市端州区一男子赵某毒驾连撞5车，致一人死亡。　　1月10日，澎湃新闻(ww...

　　中新网南昌1月10日电 (冷峥嵘张一怡)江西省共青城市人民法院10日发布消息称，近日，该院依法审结...

　　中新网西宁1月10日电 (记者孙睿)记者10日从青海省商务厅获悉，青海海北州门源县6 9级地震灾害发...

广西东兴口岸恢复通关入境需网上预约

　　中新社防城港1月10日电 (翟李强)自2022年1月10日零时起，广西东兴口岸和边民互市贸易区恢复人员、...

　　中新网呼和浩特1月10日电 (记者张林虎)10日，记者从呼和浩特市教育局获悉，在暑假校内托管试点的...

　　“中国最后一个原始部落”翁丁老寨火灾原因公布：小孩玩火引起　　中新网昆明1月10日电 (罗婕)近日...

　　北京市十五届人大五次会议胜利闭幕　　蔡奇陈吉宁李伟魏小东张延昆出席　　张延昆齐静当选市人...

　　中新网天津1月10日电 (记者张道正)中共天津市委、天津市人民政府10日发布了“致全市父老乡亲的慰...

天津米面油存量由20天提高至30天超市菜市场进货量翻倍

　　天津米面油存量由20天提高至30天蔬菜库存量、超市菜市场进货量翻倍　　记者10日从天津市商务局获...

兰州名师话“美育”：“尚乐立人”分层培优以“美”润教

　　中新网兰州1月10日电 (记者刘玉桃高莹)“实际上音乐课作为一门非高考科目，一直以来没有受到足...

　　新华全媒+｜子夜直击，天津寒天战“疫”　　新华社天津1月10日电题：子夜直击，天津寒天战“疫”...

重庆姐弟被生父扔下坠亡案上诉期结束一审法院暂未收到两被告人上诉状

　　重庆姐弟被生父扔下坠亡案上诉期结束，一审法院暂未收到两被告人上诉状　　澎湃新闻记者谢寅宗　...

天津：划定封控区全市开展全员核酸检测

　　央视网消息：在各地的最新疫情中，奥密克戎变异株引发天津新增多例本土感染引人关注。截至1月9日下...

　　中新网青岛1月10日电 (记者胡耀杰)山东省青岛市城阳区人民法院10日对原告江秋莲与被告刘暖曦生命...

　　中新网呼伦贝尔1月10日电题：中国边疆“北方第一所”：9名民警守护“生命禁区”　　作者张玮 ...

　　中新网1月10日电据西安发布官方微博消息，1月9日，一则：“鉴于我市目前封控区、管控区相继解封，...

　　1月9日12时至24时，河南安阳市新增本土确诊病例11例(汤阴县10例、文峰区1例)。　　2020年1月22日至2...

老人5折环卫工8折生活困难免费这家面馆背后有个暖心事

　　老人5折，环卫工人8折，生活困难可以免费吃　　这家面馆打折背后，有个暖心故事　　见习记者许...

　　中新网北京1月10日电 (郭超凯梁西征)1月10日是中国人民警察节。记者从公安部铁路公安局获悉，近...

本周中东部冷空气频繁东北等地有降雪

　　中国天气网讯本周我国中东部地区冷空气活动频繁，其中，今天(1月10日)受冷暖空气共同影响，雨雪范...

　　中新网1月10日电据河南省卫健委网站消息，1月9日0—24时，全省新增本土确诊病例60例(郑州市24例，...

　　打拐者说　　一位“打拐”民警眼里的百态人生　　本报记者毛鑫、王瑞平　　在公安系统里，“打拐...

迎腊八北京晴天上线阵风6至7级体感冻人

　　中国天气网讯俗话说“腊七腊八冻掉下巴”，今天(1月10日)迎来腊八节，北京体感冻人，白天阵风六七...

伪造国家机关证件典型案例发布有力打击制假贩假行为

15年照顾170多个新生儿金牌月嫂“漂”到海外去看娃

河南省安阳市两地划为高风险地区一地划为中风险地区

员工迟到一次罚一千引争议单位惩戒员工法律边界何在？

以体育人秀出“青年范儿”

保安、厨师曾被竞业限制企业滥用竞业限制让员工很苦恼

反诈老陈破圈：人民群众在哪就把反诈宣传开展到哪

各地严惩恶意欠薪保障农民工及时拿到工资

中学生成剧本杀行业潜在消费人群多方助推行业“净化”

琉璃河遗址两段铭文共证北京三千年建城史

琉璃河遗址两段铭文共证北京三千年建城史

河南郑州调整五地为中风险区域公路入郑需核酸检测阴性证明

《传奇2》网游著作权纠纷案峰回路转最高法五份裁决四份改判一份发回重审

“团圆”行动刑侦专家吕游每一个案例都有单独的技术方案

开考古书店日均两三个顾客流量时代她决心仍是只卖书

冷空气来袭广州气温骤降广东多地发布寒冷预警

电影《农民院士》昆明首映为观众呈现“把论文写在大地上”

天津全面加强离津管理实施离津审批报备制度

天津出现感染奥密克戎本土病例河南禹州全域为中高风险地区

天津市津南区一地调整为高风险地区多地调整为中风险地区

河南许昌累计报告143例确诊病例呼吁16万在外务工者就地过年