- 0
- 0
- 约6.81千字
- 约 3页
- 2026-01-27 发布于福建
- 举报
应用探索
生成式AI运用公共数据的法律问题与完善
黄瑞
【摘要】公共数据基于自身价值高、数量多的特点,作为训练数据资源将为生成式人工智能(ArtificialIntelligence,AI)的
发展注入强劲动力。一方面,我国生成式AI的训练数据尚未建立统一平台;另一方面,公共数据授权运营制度的广泛运用,引
入社会化力量促进公共数据供给提质增效,为公共训练数据资源平台建设打下坚实基础。生成式AI运用公共数据存在数据泄
露、数据资源分布不均等风险,为解决这些问题,要探索生成式AI运用公共数据私域化,同时完善公共数据授权运营制度、分级
分类管控体系。
【关键词】公共数据;生成式AI;授权运营;私域化
引言源[7]。由于公共数据来源的特殊性,它蕴含着巨大的经济与
2023年国家网信办等七部门联合发布的《生成式人工智社会价值,是生成式AI发展所需的安全可靠的高质量数据。
能服务管理暂行办法》提出“推动公共数据分类分级有序开因此,开发利用公共数据、建立统一完善的公共训练数据资源
放,扩展高质量的公共训练数据资源。”1]随着AI技术和数平台能进一步推动生成式AI的深度发展。
据要素市场的飞速发展,以AI为核心的科技与产业革命成为
国际竞争的重要一环。在推进国家安全体系和能力现代化的二、公共数据资源开发现状
当下,公共数据开放共享是驱动大数据发展的重要战略之一,目前,除了北京、上海、深圳等公共数据开放试点一线城
为新一轮科技革命注入强劲动力。前人研究了生成式AI侵市,全国各市也已陆续建立公共数据开放平台。此外,成都
权的法律应对[2]、公共数据授权运营的类型构建与制度展市、佛山市、济南市等二线城市在公共数据开放平台建设方面
开[3]等议题,本文尝试探讨生成式AI运用公共数据的法律问走在全国前列。山东、四川等地均已公布公共数据开放目录;
题与完善。北京市以金融公共数据为突破口,逐步建立了全国特有的公
共数据专区模式,进而发展为数据特区,这是全国首例推进以
一、生成式AI运用公共数据的路径数据集共享方式探索数据共享赋能AI的试点,高质量AI训
(一)生成式AI的数据资源需求练数据集为生成式AI的高质量发展提供更充足的动力;深圳
生成式AI技术的定义是“具有文本、图片、音频、视频等市作为全量且无偿开放公共数据的代表,紧随北京建立数据
内容生成能力的模型及相关技术L4]。AI以算法、算力与数集开放共享机制的步伐,提出建立多模态公共数据集,这为生
据三大核心驱动力作为支撑,数据为AI的运行提供“原料”,成式AI的训练提供了充足、安全、多样的数据资源。
是AI开发运用与发展的基石,数据质量将直接影响AI算法全国各地逐步建立的公共数据开放平台,为公共训练数
模型的训练效果和泛化能力[5]。生成式AI基于已有数据寻据资源的开发利用带来了可能性。以北京市、深圳市为例的
找内在规律,对数据资源的需求量巨大,其高质量发展需要大公共数据开放试点城市,同时作为公共训练数据开放的试点
量高质量数据作为支撑。城市,已开始将公共数据的开放优势引入生成式AI的创
(二)公共训练数据资源平台下公共数据的价值新发展。
算法是AI的运行框架,在自动化运行并可从中提取模式
进而优化这一过程的算法中[6],训练数据是指构建算法运行三、生成式AI运用公共数据的问题
的数据集。确保训练数据的真实性、准确性、客观性、多样性(一)公共数据开发利用中的风险
有利于规避生成式AI的算法偏见,提高生成式AI产品与服公共数据的开发利用有多种新型方式,除了公共数据授
务质量。然而在当前大数据环境下,统一完善的数据资源平权运营,数据托管、数据产权等概念也应运而生,数据开发利
台尚未建立,生成式AI运用的训练数据质量良不齐,寻找用的实践形态丰富,态势蓬勃。在上述开发利用的过程中
原创力文档

文档评论(0)