k-匿名近似算法.doc

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
k-匿名近似算法

清 华 大 学 综 合 论 文 训 练 题目:基于概要模式的K-匿名算法 系 别:计算机科学与技术系 专 业:计算机科学与技术专业 姓 名:王静 指导教师:王建勇 副教授 2007 年 6 月 18日 关于学位论文使用授权的说明 本人完全了解清华大学有关保留、使用学位论文的规定,即:学校有权保留学位论文的复印件,允许该论文被查阅和借阅;学校可以公布该论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存该论文。 (涉密的学位论文在解密后应遵守此规定) 签 名: 导师签名: 日 期: 中文摘要 互联网的发展给我们获取和使用信息带来了极大的方便。但在另一方面,这种非授权的信息共享严重威胁着个人数据的隐私安全。于是,基于数据的隐私保护成为当前人们研究的热门课题。 一种比较典型的攻击方式是链接攻击,即把发布的数据和另外的数据在某些属性上链接起来而透漏敏感信息。为了防止这种攻击,提出了k-匿名的概念,它可以使得表格中的每条记录都与至少k-1条其他记录不可区分。 本文提出了一种基于概要项集的k-匿名算法。实验结果显示它可以在更短的运行时间内获得与原有算法相似的近似率。我们还把k-匿名的概念扩展到了序列数据上面,并设计了基于概要子序列的k-匿名算法。最后,我们给出了图匿名的研究现状综述。 关键词:数据安全 隐私保护 概要模式 k-匿名 ABSTRACT The rapid development of network brings great convenience for people to retrieve and utilize the information. But on the other hand, this unauthorized information sharing poses a serious threat on the privacy of personal data. Therefore, data based privacy preservation has become a hot research topic in recent years. One attack method is the linking attack which joins the published data with other data on some attributes and reveals the sensitive information. To protect privacy against this attack, the notion of k-anonymity which makes each record in the table indistinguishable with at least k-1 other records has been proposed. In this paper, we propose a summary itemset based k-anonymity algorithm. Experimental results show that our algorithm can achieve similar approximation ratio in shorter running time. We also expand the notion of k-anonymity to sequence data and devise a summarization subsequence based k-anonymity algorithm. Furthermore, we give a brief review on the current research status of graph anonymization. Keywords: 主要符号对照表 SI 概要项集 (Summary Itemset) LCF 最长覆盖频繁项集 (Longest Covering Frequent itemset) SS 概要子序列 (Summariztion Subsequence) CFCS 当前频繁覆盖子序列 (Current Frequent Covering Subsequence) DFS 深度优先搜索 (Depth-first search) NCC 邻居成分编码 (Neighborhood component code) 目 录 第1章 引 言 1 1.1 选题意义 1 1.2 研究现状 2 1.2.1 K-匿名简介 2 1.2.2 相关研究 2 1.3 论文结构 3 第2章 K-匿名

文档评论(0)

zhuwo + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档