个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docxVIP

个人隐私脱敏算法能力评估、分类示例、可逆性、信息偏差性、损失性、复杂性的计算方法、脱敏算法能力评估报告示例.docx

  1. 1、本文档共20页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(资料性)

脱敏算法能力评估示例

概述

本附录以k-匿名算法对文本类医疗数据的脱敏能力评估为例,介绍针对脱敏算法能力评估指标体系的使用方法,供进行脱敏算法能力评估时参考。

脱敏算法能力评估过程的关键处理环节包括脱敏算法评估维度权重确定、敏感信息属性确定、评估指标选定、可逆性评估、信息偏差性评估、信息损失性评估、复杂性评估以及评估报告生成。

脱敏算法评估维度权重确定

根据数据的使用场景、来源、脱敏意图等因素,定义脱敏算法评估维度的权重。本示例中数据的应用场景为医疗问诊场景,数据模态为结构化数据,使用的k-匿名算法(脱敏参数k=3)属于泛化技术,参考表A.1建议的不同脱敏算法类别(泛化、匿名、置换、差分隐私)处理文本类医疗数据时的评估指标维度权重,将可逆性、信息偏差性、信息损失性、复杂性四个维度的对应权重分别为0.2、0.2、0.5、0.1。

不同脱敏算法类别处理文本类医疗数据时的评估指标维度权重参考

可逆性

信息偏差性

信息损失性

复杂性

算法类别

评估点

参考

权重

评估点

参考

权重

评估点

参考

权重

评估点

参考

权重

泛化技术

脱敏算法是否可逆

0.1

脱敏前后数据均值

0.04

信息熵差值

0.5

时间

复杂度

0.05

脱敏前后数据方差

0.04

还原信息的准确性

0.05

脱敏前后数据均方差

0.03

KL散度

0.03

空间

复杂度

0.05

还原信息的误差性

0.05

欧氏距离

0.03

平均绝对值

0.03

匿名技术

脱敏算法是否可逆

0.1

脱敏前后数据均值

0.04

信息熵差值

0.5

时间

复杂度

0.05

脱敏前后数据方差

0.04

还原信息的准确性

0.05

脱敏前后数据均方差

0.03

KL散度

0.03

空间

复杂度

0.05

还原信息的误差性

0.05

欧氏距离

0.03

平均绝对值

0.03

置换技术

脱敏算法是否可逆

0.3

脱敏前后数据均值

0.04

信息熵

差值

0.2

时间

复杂度

0.05

脱敏前后数据方差

0.04

还原信息的准确性

0.1

脱敏前后数据均方差

0.03

KL散度

0.03

空间

复杂度

0.05

还原信息的误差性

0.1

欧氏距离

0.03

平均绝对值

0.03

差分隐私技术

脱敏算法是否可逆

0.1

脱敏前后数据均值

0.08

信息熵

差值

0.2

时间

复杂度

0.05

脱敏前后数据方差

0.08

还原信息的准确性

0.05

脱敏前后数据均方差

0.08

KL散度

0.08

空间

复杂度

0.05

还原信息的误差性

0.05

欧氏距离

0.09

平均绝对值

0.09

敏感信息属性确定

收集并整理待评测的原始数据和经过k-匿名算法处理后的数据,在本示例中,原始数据如表A.2所示,k-匿名算法处理后的数据如表A.3所示。确定本次脱敏操作的敏感信息属性为“年龄”。

原始数据

序号

邮编

年龄

病症

1

47677

29

心脏病

2

47602

22

心脏病

3

47678

27

心脏病

4

47905

43

流感

5

47909

52

心脏病

6

47906

47

癌症

7

47605

30

心脏病

8

47617

36

癌症

9

47607

32

癌症

脱敏后数据

序号

邮编

年龄

病症

1

476**

476**

476**

2*

心脏病

心脏病

心脏病

2

2*

3

2*

4

4790*

4790*

4790*

≥40

≥40

≥40

流感

心脏病

癌症

5

6

7

476**

476**

476**

3*

3*

3*

心脏病

癌症

癌症

8

9

评估指标选定

确定可逆性的评估为算法的可逆程度,脱敏算法参数以及信息的还原性。评估指标为脱敏算法是否为不可逆算法,脱敏算法的参数对于原始数据数据规模的脱敏强度是否合适,通过脱敏后的隐私信息还原出原始隐私信息的程度;

确定信息偏差性的评估为原始数据与脱敏后数据之间的平均绝对误差和欧氏距离。评估指标为脱敏前后数据间的平均绝对误差0~2.13时为偏差性较低,2.13~4.63时为偏差性中等,4.63以上为偏差性较高。脱敏前后数据间的欧氏距离0~7.04时为偏差性较低,7.04~9.38时为偏差性中等,9.38以上为偏差性较高;

确定信息损失性的评估为原始数据与脱敏后数据之间的信息熵差值和互信息。评估指标为脱敏前后数据间的信息熵差值0~0.06时为信息损失性低,0.06~4.36时为信息损失性中等,4.36以上信息损失性高。脱敏前后数据间的互信息为0.8~1.0时为信息损失性低,0.4~0.8为信息损失性中等,0~0.4为信息损失性高;

确定复杂性的评估为脱敏算法的时间复杂度和空间复杂度。评估指标为脱敏算法的时间复杂度小于Ologn为复杂性低,Ologn~On间为复杂性中等,大于On为复杂性高。脱敏算法的空间复杂度小于

您可能关注的文档

文档评论(0)

雄霸天下 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档