基于分布式信息流控制的MapReduce隐私安全加强方案研究.doc

基于分布式信息流控制的MapReduce隐私安全加强方案研究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于分布式信息流控制的MapReduce隐私安全加强方案研究

计 算 机 与 现 代 化 2012 年第 3 期 总第 199 期 JISUANJI YU XIANDAIHUA 文章编号:1006-2475( 2012) 03-0093-05 基于分布式信息流控制的 MapReduce 隐私安全加强方案研究 许 帅 ( 上海交通大学,上海 200240) 摘要:随着信息技术的发展,分布式系统被广泛应用于金融、医疗等领域。其中以基于 MapReduce 的数据挖掘为代表的 应用对隐私的保护往往有很高的要求。本文提出一个基于分布式信息流控制的 MapReduce 框架,用以保证 MapReduce 中信息的私密性和完整性,同时给出系统原型的实现。 关键词:信息流控制; 分布式系统; MapReduce; 隐私保护 中图分类号:TP311 文献标识码:A doi: 10. 3969 / j. issn. 1006-2475. 2012. 03. 025 Research on Enforcing Privacy Security in MapReduce Based on Decentralized Information Flow Control XU Shuai ( Shanghai Jiao Tong University,Shanghai 200240,China) Abstract: With the development of information technology,distributed systems are widely used in financial,medical and other fields. Among those,MapReduce-based data mining applications tend to have high security requirements on privacy. This paper presents a MapReduce framework based on decentralized information flow control to ensure the privacy and integrity of informa- tion,and a prototype of the system is given also. Key words: information flow control; distributed system; MapReduce; privacy protection 引 言 0 随着信息技术的高速发展、信息量的不断增大, 分布式系统的应用也日渐广泛。在金融、医疗等领域 的分布式系统中的数据往往有很高的私密性要求,因 此如何解决分布式系统中隐私数据的安全问题成为 了重要的问题。 MapReduce[1]是 Google 提出的分布式开发框架, 用来支持在大型计算机集群上对大量数据集进行分 布式计算。Apache 的 Hadoop[2] 是 MapReduce 的开 源解决方案,也是目前使用最广泛的 MapReduce 开 发框架,运行于 Java 环境,支持在上千个节点上分布 处理 PB 量级的数据。 MapReduce 多被用于数据分析和数据挖掘,图 1 是一个常见的应用场景,医院 H 作为数据提供方,提 供病人资料,这些资料属于敏感的隐私信息,不可泄 图 1 MapReduce 应用场景及隐私泄露的可能性 收稿日期:2012-01-10 作者简介:许帅( 1986-) ,男,浙江宁波人,上海交通大学硕士研究生,研究方向: 分布式计算,信息流控制。 果并存储到其他的变量中,例如伪代码 y = x 中,当 x 的值被赋给 y 时,信息从变量 x 流至变量 y,其中的信 息流可以表示为 x = > y。这样的信息流被称为显式 信息流。 露。H 要求 IT 公司 T 根据其需求对病人数据进行统 计和分析,结果报表是公开且不含隐私数据的。公司 T 提供程序源代码,并部署到分布式系统 S 中进行计 算工作。本文的前提假设为: 分布式系统 S 是可靠 的,即 S 为私有分布式系统或可靠的第三方分布式系 统,且不考虑分布式系统 S 的系统漏洞带来的安全问 题; IT 公司 T 是不完全可信的,即 T 可能会有意或无 意地泄露隐私数据,本文的主要目的就是允许不受信 任的代码处理隐私数据但不至泄漏。 以 MapReduce 为代表的分布式系统有以下一般 特点[3]: ( 1) 单个节点出现错误时,要求系统有一定的容 错和恢复能力; ( 2) 系统结构不可知( 包括网络拓扑结构、网络 延迟、节点数量等) ,系统由不同类型的节点和网络 连接组成,在系统运行期间,结构

您可能关注的文档

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档