- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于LBS位置服务的隐私保护算法研究
The privacy preservation study based on LBS
黄小英
HUANG Xiao-ying
(广西工商职业技术学院,南宁 530003)
要:随着数据挖掘和数据发布等数据库应用的出现与发展,如何保护隐私数据和防止敏感信息泄露 成为当前面临的重大挑战。隐私保护技术需要在保护数据隐私的同时不影响数据应用。根据 采用技术的不同,出现了数据失真、数据加密、限制发布等隐私保护技术。
摘
关键词:隐私保护;随机化;安全计算
中图分类号:TP312
文献标识码:A
文章编号:1009-0134(2011)5(上)-0096-03
Doi: 10.3969/j.issn.1009-0134.2011.5(上).33
0
引言
数据挖掘和数据发布是当前数据库应用的两
3)基于限制发布的技术:根据具体情况有条
件地发布数据。如:不发布数据的某些域值,数 据泛化(Generalization)等。
1.2 隐私保护技术的性能评估
隐私保护技术需要在保护隐私的同时,兼顾 对应用的价值以及计算开销。通常从以下三方面 对隐私保护技术进行度量:
1)隐私保护度:通常通过发布数据的披露风 险来反映,披露风险越小,隐私保护度越高。
2)数据缺损:是对发布数据质量的度量,它 反映通过隐私保护技术处理后数据的信息丢 失:数据缺损越高,信息丢失越多,数据利 用率(Utility)越低。具体的度量有:信息 缺损(Information Loss)、重构数据与原始数据 的相似度等。
3)算法性能:一般利用时间复杂度对算法性 能进行度量。例如,采用抑制(Suppression) 实现最小化的k-匿名问题已经证明是NP-hard问 题;时间复杂度为O(k)的近似k-匿名算法,显 然优于复杂度为O(klogk)的近似算法。均摊代 价(Amortized Cost)是一种类似于时间复杂度的 度量,它表示算法在一段时间内平均每次操作所 花费的时间代价。除此之外,在分布式环境中,通 讯开销(Communication Cost)也常常关系到算法性 能,常作为衡量分布式算法性能的一个重要指标。
个重要方面。一方面,数据挖掘与知识发现在各
个领域都扮演着非常重要的角色。数据挖掘的目 的在于从大量的数据中抽取出潜在的、有价值的 知识(模型或规则)。传统的数据挖掘技术在发 现知识的同时,也给数据的隐私带来了威胁。另 一方面,数据发布是将数据库中的数据直接地展 现给用户。而在各种数据发布应用中,如果数据 发布者不采取适当的数据保护措施,将可能造成 敏感数据的泄漏,从而给数据所有者带来危害。 所以,如何在各种数据库应用中保护数据的隐 私,成为近年来学术界的研究热点。
1 隐私保护技术的分类与性能评估
1.1 隐私保护技术的分类
没有任何一种隐私保护技术适用于所有应 用。隐私保护技术分为三类:
1)基于数据失真(Distorting)的技术:使敏 感数据失真但同时保持某些数据或数据属性不变 的方法。例如,采用添加噪声(Adding Noise)、 交换(Swapping)等技术对原始数据进行扰动处 理,但要求保证处理后的数据仍然可以保持某些 统计方面的性质,以便进行数据挖掘等操作。
2)基于数据加密的技术:采用加密技术在 数据挖掘过程中隐藏敏感数据的方法。多用于 分布式应用环境中,如安全多方计算(Secure Multiparty Computation,以下简称SMC)。
2
基于数据失真的隐私保护技术
数据失真技术通过扰动(Perturbation)原始
收稿日期:2011-01-05
作者简介:黄小英(1976 -),女,广西宁明人,讲师,工程硕士,研究方向为计算机应用。
数据来实现隐私保护。它要使扰动后的数据同时
满足:
1)攻击者不能发现真实的原始数据,也就是 说,攻击者通过发布的失真数据不能重构出真实 的原始数据。
2)失真后的数据仍然保持某些性质不变,即 利用失真数据得出的某些信息等同于从原始数据 上得出的信息。这就保证了基于失真数据的某些 应用的可行性。
2.1 随机化
数据随机化即是对原始数据加入随机噪声, 然后发布扰动后数据的方法。需要注意的是,随 意对数据进行随机化并不能保证数据和隐私的 安全,因为利用概率模型进行分析常常能披露随 机化过程的众多性质。随机化技术包括两类: 随机扰动(Random Perturbation)和随机化应答
(Randomized Response)。
2.2 随机扰动
随机扰动采用随机化过程来修改敏感数据, 从而实现对数据隐私的保护。一个简单的随机扰 动模型如表1(a)所示。
对外界而言,只可见扰动后的数据,从而实 现了对真实数据值的隐藏。但扰动后数据仍然保 留着原始数据分布X的信息,通过对扰动后的数
您可能关注的文档
- 土工格栅加筋软基路堤的有限元分析.docx
- 土壤公开课上课.ppt
- 土石围堰渗流场分析及稳定性评价.docx
- 土源性蠕虫卵的检查方法与识别.ppt
- 土豆冷冻干燥工艺的试验研究.docx
- 圣地温泉酒店开业活动策划方案.ppt
- 在Java中使用图片实现GUI的美化.doc
- 圣西门简介 .ppt
- 在华西人报刊与鸦片战争.doc
- 在国家工商总局个体司联系点座谈会上的讲话.doc
- 北师大版小学数学三年级上册《寄书》教学设计.docx
- 统编版(部编版)语文二年级上册《雪孩子》教学设计.docx
- 统编版(部编版)语文二年级上册《八角楼上》教学设计.docx
- 北师大版小学数学三年级上册《长方形周长》教学设计.docx
- 北师大版小学数学三年级上册《丰收了》教学设计.docx
- 统编版(部编版)语文二年级上册《夜宿山寺》教学设计.docx
- 统编版(部编版)语文二年级上册《风娃娃》教学设计.docx
- 统编版(部编版)语文二年级上册《朱德的扁担》教学设计.docx
- 统编版(部编版)语文二年级上册《难忘的泼水节》教学设计.docx
- 统编版(部编版)语文二年级上册《纸船和风筝》教学设计.docx
文档评论(0)