课件22:第76~7节 限制统计的机制.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
课件22:第76~7节 限制统计的机制

7.6 限制统计的机制 推理控制应用的机制分为两类。一类是限制可能导致泄漏的统计的机制。一类是加噪音机制。本节讨论前者,下节讨论后者。 限制统计的机制通常有以下几种: 1、查询集大小控制:这种机制便于实现,是有价值的,但仅有大小控制是不足够的。 2、查询集交搭控制:一般地难以实现,即使实现也极为不精确,并且不充分。 以上两种机制前节已经研究过了。 3、最大阶控制:它限制任何统计应用过多的属性值。Schlore从一个含有30000以上个记录的病历数据库中抽出100个记录样本,发现没有一个记录能用少于4个属性唯一地识别,仅有一个记录能用4个属性识别,大约有一半记录用不超过7个属性可识别,而用10个属性近于所有记录可识别。因此,在这样数据库中限制查询到3阶统计可能阻止大多数泄漏。可惜,这可能已过分限制了。因为许多高阶统计也许是安全的。 4、Sm/N控制:这是Schlorer提出的。设C是在A1,…An属性上的查询集, 。对某阀值t(例如t=1),如果Sm/Nt,则统计q(C)被限制。其实质是限制有关属性不会分解数据库为太多的集合一一相对于数据库的大小N而言。根据Denning的研究:该控制是极端地有效,比最大阶控制较少限制性。虽然它不保证安全性,但它能和简单的扰乱技术组合,用低耗费提供高水平的安全性。 3、4是容易实现的两种技术。此外,还有项目隐藏,蕴含的查询集控制,和划分三种限制技术,我们将分小节讨论。 1、项目隐藏 这是美国人口普查局用来保护在宏观统计的二维表中公布的数据的技术。它隐藏表中的所有敏感统计和足够数量的非敏感统计,后者称为补充隐藏,以保证公布的数据不能推导出敏感统计。 计数的敏感性标准典型的是最小查询集的大小。 求和的敏感性标准是“n-响应,k%-支配”规则,简称(n,k)敏感性规则。 例7-14 如果应用(1,90)敏感性规则,表7.5中第1行的第2列、第2行的第1、2,、3,、4列和第3行的第1列必须隐藏,如表7.7所示,因为它们提供一个同事的奖金数。 仅隐藏这几项是不充分的,因为第1行的第2列、第3行的第1列、第2行第3列、第2行第4列能从列和中减去相应项得到。 表7.7 按部门与性别统计奖金情况 根据(n,k)敏感性规则,一个统计容易由它自己确定是否敏感的。 设q=Sum(C,A)。d=Sum(C,A,n)表示用来算出q的n个最大支配值之和。即若|C|=m而 这里, ,则 记 那么统计q是敏感的,d是实际中需要保护的。 确切地或近似地确定一个非敏感的统计能否导出一个敏感的统计是异常困难的。遵照Cox的文献,我们研究敏感统计估计值的可接受的界。 设 是敏感统计q的一个估计值。现在如果 ,那么 没有揭示出未曾释放的q是否敏感的任何信息。因此,q的可接受的上估计值的上界是 7-7 为了确定可接受的下估计值的下界,我们假定n,k和m是已知的,这里m=|C|。(实际上,这些值通常是不泄漏的)。可以看出对任何统计q(敏感的或不敏感的)有 因为n个较大数之和为d。 假设q不是敏感的,则d位于区间 d=[(n/m)q,(k/100)q]。 如果q恰好是敏感的阀值,即q=(100/k)d,这一区间是[(n/m)(100/k)d,d], 因此,如果q是敏感的,则 q-d=(n/m)(100/k)d 是d的一个可接受的下估计值(见下图)。 另一方面,如果 是q的下估计值,则d的下估计值是 所以,q的可接受的下估计值的下界是 7-8 例7-15 设k=90,n=2,m=10,q=950和d=900,因为 ,所以q是敏感的。q的一个可接受的上估计值是 因为q此时可以释放。 如果q是在敏感性阀值 上,我们能够得出d落入区间 因此,q的一个可接受的下估计值是 它给出d=200的下界。(例15完) 给出q-和q+,一个q的区间估计值I=[ ]是可接受的,如果I落入之q-下,q+之上,或严格地包含区间[q-,q+],则是不可接受的。 应用线性代数可得出每一敏感区间估计。能推导出不可接受估计值的统计须从表中隐藏。 例16 考虑表7.8,其中xij代表已隐藏的敏感项(非负数),由表可得出方程组:

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档