- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
JRC
JRC137136
要点→生成式人工智能(Generative
要点
→生成式人工智能(GenerativeAI)是人
工智能的一个前沿领域,能够创造出逼真的类人内容。对其滥用和社会影响的担忧凸显了识别机器生成内容的重要性。
→识别人工智能生成内容的解决方案应具备以下四个特性:效率、数据完整性、对内容更改的稳健性以及防止篡改。
→目前基于元数据、水印、指纹或检测的技术解决方案无法充分满足文本、音频、图像和视频内容的这些要求。
引言
生成式人工智能(GenAI)[1]是人工智能(AI)的一个前沿领域,随着最新技术的发展以及面向消费者的产品(如ChatGPT、Midjourney或
Sora)的出现,该领域最近受到了广泛关注。
GenAI指的是用于生成文本、音频、图像或视频等媒体内容的机器学习模型,这些内容与人类制作的内容如出一辙。其应用潜力横跨各行各业。这项技术的创造力和推理能力可能会影响所有智力和艺术职业。
尽管GenAI在各个领域都能带来好处,但其不断增长的能力也引发了人们对人工智能特有的安全和基本权利风险的担忧。GenAI有可能支持误导宣传和扩大舆论操纵[2],并通过使剽窃或冒名顶替更难被发现和更有效率来提高欺诈的效率[3]。这些风险会严重影响民主进程[4]。GenAI还模糊了人类和机器创造内容之间的界限,引发了工作、创造力和版权规则的新范式[5]。
政策背景
欧盟Al法案[6]是一项开创性举措,提出了生成Al的透明度义务。该法第52(3)条规定,“如果Al系统生成或处理的图像、音频或视频内容与现有的人物、物体、地点或其他实体或事件有明显相似之处,并且会让人误以为是真实的或真实的(‘深度伪造’),则该系统的用户应披露该内容是人工生成或处理的”。欧洲议会提议[7]扩展第60g条,明确指出“生成式基础模型应确保内容由Al系统生成而非人类生成这一事实的透明度”。最后,在临时协议[8]中,共同立法者同意在第50条中增加透明度义务:生成合成音频、图像、视频或文本内容的Al系统(包括通用Al系统)的提供者应确保Al系统的输出以机器可读的格式标示,并可检测出是人工生成或篡改的。只要技术上可行,提供商应确保其技术解决方案有效、可互操作、稳健可靠”。除欧盟外,还考虑了机器生成内容的问题。这包括在美国,领先的人工智能公司自愿承诺开发强大的技术手段,确保用户知道什么时候内容是人工智能生成的[9];在中国,对深度合成互联网服务提出了许多要求,包括使用技术措施来
标记这些服务制作或编辑的内容[10]。
技术背景
过去五十年来,数字技术的兴起极大地改变了所有权和版权的格局。复制和更改数字资产的可能性促使人们开发出各种工具,将隐藏信息或标记嵌入图像、音频、视频或文档等数字媒体(水印),或对其进行单一识别(指纹识别),以确保资产的真实性、可追溯性和安全性[11]。最早的水印方法涉及对图像进行简单可见的修改,如添加徽标或文本。随着时间的推移,这些技术逐渐发展成为人类感官无法察觉的水印,并且在视觉和听觉领域都能抵御更改。水印方法已与指纹识别方法和密码技术相结
合,以提高安全性。
生成式人工智能技术
GenAI可以生成任何类型的数据,如基因组学数
据、三维环境或表格数据。就本简介而言,重点
是文本、音频图像和视频,它们是研究工作中最常见的生成数据类型。GenAI背后的主要人工智能技术是基于变换器的大型语言模型[12],如用于文本生成的生成预训练变换器(GPT);基于卷积网络的技术[13],如用于音频生成的WaveNet;用于图像生成的生成对抗网络(GAN)[14]和扩散模型[15]。视频[16]或多模态内容的生成依赖于组合技术。
简介范围
让生成式人工智能更加透明,并能够检测和识别机器生成的内容,对于确保人们对数字技术和媒体的信心保持不变[17],促进对欧洲数字生态系统的信任至关重要。
本简报旨在审查实现这一目标的四种技术解决方案(见图1)。我们将根据四个理想特性对它们进行评估:
1.效率:通过检索提供者名称、创建日期或数字
签名等信息,可靠地识别生成的内容。这一过程应耗费最少的精力和时间,并随着时间的推移应保持一致。
2.数据的完整性:保持内容的完整性,即限制原始数据的退化或失真。
3.内容更改的稳健性:当内容受到可预见的变化或改动时,仍能保持高效性,这些变化或改动不会影响内容的合成性质,也不会改变内容的整体外观或可解释性(如图像的亮度或音频的
文档评论(0)