- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
生成式人工智能内容安全风险分析与安全机制探讨
生成式人工智能内容安全风险
分析与安全机制探讨
□/
文张庆国
(同方知网数字出版技术股份有限公司,北京100192)
摘要:生成式人工智能对人类生活方式、工作方式乃至认知方式产生了深远影响。未来,AIGC
将成为内容生产的主力军之一。通过回顾生成式人工智能大模型的发展和应用情况,总结了当
前生成式人工智能面临的法律风险、道德风险、歧视和偏见、虚假信息和模型自身安全风险等
相关安全风险,分析了各类安全风险产生的原因,并阐述了生成式人工智能内容安全机制的必
要性和重要性。生成式人工智能内容安全机制的常见方法包括基于人类反馈的强化学习、基于
AI反馈的强化学习、有监督的安全微调、专家对抗、遗忘学习、敏感信息过滤、监督监管策略
等。安全无小事,内容安全机制可以为生成式人工智能的规模化安全应用保驾护航。
关键词:生成式人工智能;内容安全;内容安全机制
中图分类号:TP309.2;TP18文献标志码:A文章编号:2096-5036(2024)02-0079-08
DOI:10.16453/j.2096-5036.202415
0引言刷榜,更大规模的训练数据和更大规模参数的预
训练语言模型带来了更好的效果。
人工智能的发展经历了漫长的历程,从早预训练语言模型可以分为自编码模型和
期的专家系统到机器学习技术,一直发展较慢,自回归模型两种类型,前者通常采用掩码语言
直到深度学习技术的出现,其发展开始加速。模型,侧重于对自然语言的理解;后者通常采
Hinton教授2006年发表的论文是深度学习里程用自回归语言模型,它的预训练任务的重点是
碑式的新起点[1]。深度学习被引入到自然语言处预测下一个单词(token),这类模型也称之为
理领域,将语言模型的研究从传统的统计语言生成式模型,代表模型主要是GPT系列。由于
模型提升到预训练语言模型。2017年,AshishChatGPT带来的惊人体验,生成式人工智能
Vaswani等推出了神经网络结构Transformer,大模型已经成为预训练语言模型的主流模型,
成为人工智能技术加速发展的催化剂[2]。基于相关场景应用在办公、教育、医疗、金融、文娱、
Transformer的若干语言模型先后在多项任务中交通等领域纷纷落地。截至2023年10月,我
基金项目:中国科技期刊卓越行动计划(WKZB1911BJM501173/02)
79
思考与探讨
AI-VIEW
2024年第2期
国拥有10亿参数规模以上大模型的厂商及高害他人合法权益。其中还包括侵犯、泄露他人
校院所共计254家,分布于二十几个省份/地隐私,比如个人身份信息,包括机构或个人姓
区,其中北京有122家[3]。名、住址、身份证号、银行账号、手机号码、
生成式人工智能是机遇也是挑战,其潜在电话号码、车辆车牌、执照、与个人直接相关
的内容安全风险不容小觑。我国政府对生成式的日期元素(出生日期、入院日期)等。
人工智能内容安全高度重视。2022年11月251.1.3其他法律风险
日,国家互联网信息办公室等三部门发布了《互生成式人工智能的训练语料十分庞杂,训
联网信息服务深度合成管理规定》,要求深度练数据中可能混杂的违法违规信息会对生成内
合成信息必须合法
- 乡村振兴、双碳、储能、绿色金融 + 关注
-
实名认证服务提供商
新能源知识科普(本账号发布文档均来源于互联网公开资料,仅用于技术分享交流,相关版权为原作者所有。如果侵犯了您的相关权利,请提出指正,我们将立即删除相关资料)。
文档评论(0)