基于动态簇大小的多元组聚集匿名数据发布.pdfVIP

基于动态簇大小的多元组聚集匿名数据发布.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于动态簇大小的多元组聚集匿名数据发布.pdf

第 12卷 第 4期 太 原 师 范 学 院 学 报 (自然科学版) Vo1.12 No.4 2013年 12月 JOURNALOFTAIYUANN()RMALUNIVERSITY (NaturalScienceEdition) Dec.2013 基于动态簇大小的多元组聚集匿名数据发布 刘 海 (浙江金融职业学院 经营管理系,浙江 杭州 310018) (摘 要] 在 小微 数 据 的发 布过 程 中 ,传统 聚 类保 护 算法采 用 固定簇 集大 小进 行 聚类 ,并将 簇 中 所 有敏 感属 性所属 元组 打乱 的方 式进 行 匿名 ,这样 将造 成 大 量信 息损 失.据 此 ,首 先按 匿名 的最低 要 求 生成 固定大 小簇 集 ,后 分 析簇 外元组 与簇 集距 离,判 断是 否入 簇 ,再从 生成 不 定 大 小的簇 集 出 发 ,采 用循 环取 代 匿名 的方式进 行元 组 匿名 ,最后 ,通 过4-3真 实验 对 比循 环取 代 匿 名 的方 式 和直4i- 无 序打乱 匿名的方式在 变化数 据 集 的大小及 改 变准标识 符 的个数 的情 况下 的信 息损 失 率 ,试 验 证 明循环取 代 匿名 的方 式提 高 了数据发 布 的质量 . [关 键 词 ] 隐私 保 护 ;K 匿名 ;泛 化 ;聚类 (文 章编 号] 1672—2027(2013)04—0074-05 [中图分 类号] TP309.2 [文献标 识码 ] A 0 引言 随着信息技术的不断发展 ,大量以小微数据为分析对象的数据库技术广泛应用于医疗 、经济 、气象等领 域.在这过程中,越来越多的个人信息也被各类不同组织收集、存储及发布.信息共享及资源互利给人们生活 及科学研究带来便利的同时,也存在着泄露部分个体敏感属性的风险.据美国统计局的一份统计资料显示, 只要获得一位美 国公 民的性别、年龄 、邮政编码 ,则具有 8796/的概率确定该公 民的身份.如何尽可能让发布 的数据保持原貌 ,使得研究人员更好地挖掘各类有用的规律以及在提取新信息的同时限制在数据发布过程 中泄露出隐私的机率也颇受到国内外学者们的关注.其 中微聚集 、K一匿名化是其中的一个研究热点问题 , 通过微聚集将相关度 比较高的元组聚集到一个簇 中,将相关度较弱的元组聚集到不 同簇 中;通过 k一匿名化 使得每个簇中元组个数保持一定的数量 (至少为 K个),让攻击者不能判断出隐私信息所属 的个体,从而保 护了个人隐私.他们也提出了许多不同的隐私保护的模型及匿名化 的方法.P.Samarati和 L.Sweeney】]早 在 2002年率先提出了K 匿名模型,该模型能保证发布中的数据有 K条元组在准标识符上是一致的,从而该 模型能够避免数据表和表之间的连接攻击 ,但该模型容易受到背景知识攻击和同质攻击.Machanavajjhala[2] 在 2006年针对 K 匿名模型的缺点,提 出了 l一多样性模型,要求在每一个分组中至少有 l条表现较好 的记 录,从而避免同质攻击.YufeiTao_3在 2008年提出了通过获取数据表中其他数据拥有者的敏感属性来推测 一 些数据拥有者的敏感属性及拥有人,并提出了和对数据表 的先验概率及后验概率的概念.Mingqian— gXue 在 2012年提出了对大量事务型数据进行单 向不可逆的循环编码方式 ,在编码的过程 中运用位 图来 表示数据集 ,还创新性地提出了Gray—TSP对数据集进行分组.GabrielGhinital5在 2011年提出了对敏感 属性哈希表进行最近邻搜索算法 (NN),还提 出了基于灰度排序算法.TianchengLi_6]在 2012年初提 出了 Slicing方法,其将准标识符和敏感属性进行切片 ,切片内保持属性之间关系,切片外属性之间关系打乱的方 式来处理隐私保护数据发布. 本文提出了一种基于动态簇大小的多变量聚集匿名数据发布算法,算法分为两个阶段,第一个阶段为簇 集生成阶段,该阶段将元组分类归属到各个簇集当中,簇集的大小首先固定等于匿名的要求即是个,然后依 次判断簇外元组与簇中元素距离是否应该入簇,将簇的集合从固定簇变化为大于等于k的动态簇.第二阶段 收稿 日期 :201310—08 基金项 目:浙江省教育厅 2012年度高校科研

文档评论(0)

t9s25ccvm + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档