- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
软件设计说明书(基于立体混淆法数据去真遮系统)
基于立体混淆法的数据去真遮蔽系统
设计说明书
1 系统简介
随着信息化建设的发展,企事业单位和政府部门获取大量原始数据,为信息系统的开发和运用提供了有力的支撑。但在实际工作中,对于数据安全要求较高的单位其原始数据具有保密性特征,针对它的使用有一套严格管理措施,因此客观上严重的约束了它的应用场景和时间,难以贯穿信息系统开发、测试、培训、推广的整个流程。目前利用混淆法生成仿真数据是解决这问题的一种有效方法。混淆法是通过对原始数据的属性进行随机交换,来生成仿真数据的方法。
在使用混淆法时始终存在着一对矛盾,既数据遮蔽度与数据质量之间的矛盾,数据遮蔽度是指仿真数据与原始数据的差异性,两者之间差异性越大,就越难以从仿真数据中推导出原始数据,安全性越好。生成的仿真数据如果越能反映原始数据的特征,就认为数据质量越高,反之质量越差。在实际工程中如何协调兼顾两者,是混淆法需要进一步提高的方向。
混淆法应用广度和深度上有一定的局限性:
(1)在原有混淆法中原始数据的各个属性都独立参与混淆运算,这种处理方式在有些场景下市不合适的。一是存在意义相关的字段,比如“经纬度”和“地名”字段,如果进行单独混淆,得到的仿真数据会出现北京的某个区域的经纬度指向了新疆,数据的质量降低,甚至不可使用。二是当表的主键或唯一键为多个字段组合而成时,如果这些字段单独进行混淆,将破坏数据的逻辑性和约束关系。
(2)在原有混淆法中所有数据都作为同一层次进行处理,这种处理方式面对数据描述的对象存在分类或有层次关系的时候会产生低质量的仿真数据。比如某表记录了台站信息,级别高的台站通常有大量人员和物质,而级别低的台站所属人员和物质较少。如果不理会级别,生成该表的仿真数据,会出现级别高的台站和级别低的台站信息错位,影响数据质量。如果对数据进行分类,在同类中的数据进行混淆,将大大提高仿真数据的质量。
(3)描述表与表之间的关联关系通过主外键实现。当主表进行数据混淆时,从表如果能够独立混淆,会进一步遮蔽数据的真实性,如果从表不参与混淆,可更大程度保障数据质量。这里就存在一个取舍的问题。
针对原有混淆法的局限性,本文档提出了一种通过对数据集合的特征和结构的分析,从分组、分类和深度三个维度混淆数据的新方法:立体混淆法。并根据该方法实现了《基于立体混淆法的数据去真遮蔽系统》,归纳起来系统具有如下特点:
(1)能够遮蔽原始数据的真实性
基于立体混淆法的数据去真遮蔽系统采用随机数组排序算法。该算法通过随机对数据属性进行排序来实现仿真数据的生成,数据混淆度高,能够有效遮蔽原始数据的真实性,防止他人通过逆推、联想等手段获取原始数据,确保数据的安全性。
(2)能够扩展混淆法运用范围
原有混淆法生成的仿真数据在一定程度上破坏了数据的拓扑结构,降低用户对仿真数据的体验度,因而限制该方法的运用范围。本系统针对原有混淆法提出从分组、分类和深度三个角度对混淆规则进行改进,在遮蔽数据真实性的同时,尽量确保原始数据的特征和拓扑结构,提高用户体验度,扩展混淆法运用范围。
(3)能够海量生成虚拟数据
随着技术的发展和运用场景的变化,信息系统对仿真数据在结构和内容上将提出新的要求。通过传统的手工录入方式,将不得不大量修改记录甚至重新录入,实现起来时间长,工作量大。本文档所描述的混淆数据生成系统采用随机数组排序算法,当需求将原始数据遮蔽时,只有及时对混淆规则进行配置,就可以自动生成仿真数据,提高工作效率。
2 软件设计
本部分介绍《基于立体混淆法的数据去真遮蔽系统》的软件设计,主要包括系统的基本架构、实现流程、实现方式等。
2.1基本架构
“基于立体混淆法的数据去真遮蔽系统”的基本架构图1所示。系统采用三层体架构,由数据支撑层、系统支撑层、系统应用层组成。
图1 立体混淆法基本结构
数据支撑层为系统支撑层和系统应用层提供数据支撑,包括样本数据库、仿真数据产品库和混淆配置数据库。样本数据库为包含真实数据的信息系统数据库,是为实现仿真数据提供最初的原始样本数据。混淆配置数据库用于存放设置好的混淆策略,包括分组、分类和深度等配置信息,为混淆数据的生产提供规范。仿真数据产品库存放混淆后生产的数据,将该数据作为最终数据产品输出给用户。
系统支撑层为系统应用层提供后台运算支撑,包括随机数组排序生成模块、元数据获取模块、分组混淆生成模块、分类混淆生成模块、深度混淆生成模块等五个指模块。随机数组排序生成模块是基础模块,为其他混淆生成方法的提供随机数据组。元数据获取模块用于读取样本数据库的结构性元数据,为用户配置混淆策略提供信息支撑。分组混淆生成模块,对数据集垂直划分,即按照混淆配置数据库中对字段进行分组,分组后按组利用随机数组排序生成模块提供的随机数组,混淆数据生成仿真数据。分类混淆生成模块,对数据集水平划分,即按照混淆配置数据库中的
文档评论(0)