- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
(资料性)
脱敏算法能力评估示例
概述
本附录以k-匿名算法对文本类医疗数据的脱敏能力评估为例,介绍针对脱敏算法能力评估指标体系的使用方法,供进行脱敏算法能力评估时参考。
脱敏算法能力评估过程的关键处理环节包括脱敏算法评估维度权重确定、敏感信息属性确定、评估指标选定、可逆性评估、信息偏差性评估、信息损失性评估、复杂性评估以及评估报告生成。
脱敏算法评估维度权重确定
根据数据的使用场景、来源、脱敏意图等因素,定义脱敏算法评估维度的权重。本示例中数据的应用场景为医疗问诊场景,数据模态为结构化数据,使用的k-匿名算法(脱敏参数k=3)属于泛化技术,参考表A.1建议的不同脱敏算法类别(泛化、匿名、置换、差分隐私)处理文本类医疗数据时的评估指标维度权重,将可逆性、信息偏差性、信息损失性、复杂性四个维度的对应权重分别为0.2、0.2、0.5、0.1。
不同脱敏算法类别处理文本类医疗数据时的评估指标维度权重参考
可逆性
信息偏差性
信息损失性
复杂性
算法类别
评估点
参考
权重
评估点
参考
权重
评估点
参考
权重
评估点
参考
权重
泛化技术
脱敏算法是否可逆
0.1
脱敏前后数据均值
0.04
信息熵差值
0.5
时间
复杂度
0.05
脱敏前后数据方差
0.04
还原信息的准确性
0.05
脱敏前后数据均方差
0.03
KL散度
0.03
空间
复杂度
0.05
还原信息的误差性
0.05
欧氏距离
0.03
平均绝对值
0.03
匿名技术
脱敏算法是否可逆
0.1
脱敏前后数据均值
0.04
信息熵差值
0.5
时间
复杂度
0.05
脱敏前后数据方差
0.04
还原信息的准确性
0.05
脱敏前后数据均方差
0.03
KL散度
0.03
空间
复杂度
0.05
还原信息的误差性
0.05
欧氏距离
0.03
平均绝对值
0.03
置换技术
脱敏算法是否可逆
0.3
脱敏前后数据均值
0.04
信息熵
差值
0.2
时间
复杂度
0.05
脱敏前后数据方差
0.04
还原信息的准确性
0.1
脱敏前后数据均方差
0.03
KL散度
0.03
空间
复杂度
0.05
还原信息的误差性
0.1
欧氏距离
0.03
平均绝对值
0.03
差分隐私技术
脱敏算法是否可逆
0.1
脱敏前后数据均值
0.08
信息熵
差值
0.2
时间
复杂度
0.05
脱敏前后数据方差
0.08
还原信息的准确性
0.05
脱敏前后数据均方差
0.08
KL散度
0.08
空间
复杂度
0.05
还原信息的误差性
0.05
欧氏距离
0.09
平均绝对值
0.09
敏感信息属性确定
收集并整理待评测的原始数据和经过k-匿名算法处理后的数据,在本示例中,原始数据如表A.2所示,k-匿名算法处理后的数据如表A.3所示。确定本次脱敏操作的敏感信息属性为“年龄”。
原始数据
序号
邮编
年龄
病症
1
47677
29
心脏病
2
47602
22
心脏病
3
47678
27
心脏病
4
47905
43
流感
5
47909
52
心脏病
6
47906
47
癌症
7
47605
30
心脏病
8
47617
36
癌症
9
47607
32
癌症
脱敏后数据
序号
邮编
年龄
病症
1
476**
476**
476**
2*
心脏病
心脏病
心脏病
2
2*
3
2*
4
4790*
4790*
4790*
≥40
≥40
≥40
流感
心脏病
癌症
5
6
7
476**
476**
476**
3*
3*
3*
心脏病
癌症
癌症
8
9
评估指标选定
确定可逆性的评估为算法的可逆程度,脱敏算法参数以及信息的还原性。评估指标为脱敏算法是否为不可逆算法,脱敏算法的参数对于原始数据数据规模的脱敏强度是否合适,通过脱敏后的隐私信息还原出原始隐私信息的程度;
确定信息偏差性的评估为原始数据与脱敏后数据之间的平均绝对误差和欧氏距离。评估指标为脱敏前后数据间的平均绝对误差0~2.13时为偏差性较低,2.13~4.63时为偏差性中等,4.63以上为偏差性较高。脱敏前后数据间的欧氏距离0~7.04时为偏差性较低,7.04~9.38时为偏差性中等,9.38以上为偏差性较高;
确定信息损失性的评估为原始数据与脱敏后数据之间的信息熵差值和互信息。评估指标为脱敏前后数据间的信息熵差值0~0.06时为信息损失性低,0.06~4.36时为信息损失性中等,4.36以上信息损失性高。脱敏前后数据间的互信息为0.8~1.0时为信息损失性低,0.4~0.8为信息损失性中等,0~0.4为信息损失性高;
确定复杂性的评估为脱敏算法的时间复杂度和空间复杂度。评估指标为脱敏算法的时间复杂度小于Ologn为复杂性低,Ologn~On间为复杂性中等,大于On为复杂性高。脱敏算法的空间复杂度小于
您可能关注的文档
- 隐私信息描述、迭代延伸控制、出行服务应用场景、信用计算应用场景示例.docx
- 个人隐私删除流程、等级示例.docx
- 隐私计算个人信息恢复工具清单、删除方法清单、评估报告示例.docx
- 作业指导书示例原子吸收分光光度计维护保养.pdf
- 各种铸铁牌号与ISO标准对照表.pdf
- 《YY 0792-2024眼科仪器 眼内照明器》.pdf
- YY 0792-2024眼科仪器 眼内照明器.pdf
- 中国行业标准 YY 0792-2024眼科仪器 眼内照明器.pdf
- 《YY/T 0063-2024医用电气设备 医用诊断X射线管组件 焦点尺寸及相关特性》.pdf
- YY/T 0063-2024医用电气设备 医用诊断X射线管组件 焦点尺寸及相关特性.pdf
- 中国国家标准 GB/T 4214.17-2024家用和类似用途电器噪声测试方法 干式清洁机器人的特殊要求.pdf
- GB/T 4214.17-2024家用和类似用途电器噪声测试方法 干式清洁机器人的特殊要求.pdf
- 《GB/Z 43202.1-2024机器人 GB/T 36530的应用 第1部分:安全相关试验方法》.pdf
- GB/Z 43202.1-2024机器人 GB/T 36530的应用 第1部分:安全相关试验方法.pdf
- 中国国家标准 GB/Z 43202.1-2024机器人 GB/T 36530的应用 第1部分:安全相关试验方法.pdf
- 中国国家标准 GB/T 32455-2024航天术语 运输系统.pdf
- GB/T 32455-2024航天术语 运输系统.pdf
- 《GB/T 32455-2024航天术语 运输系统》.pdf
- GB/T 44369-2024用于技术设计的人体运动生物力学测量基础项目.pdf
- 中国国家标准 GB/T 44369-2024用于技术设计的人体运动生物力学测量基础项目.pdf
最近下载
- 外墙面砖翻新涂料施工方案.doc
- 2024“降低非计划重返手术室再手术率”实施方案.pdf
- S7-200 SMART PLC应用技术 模块一 S7-200 SMART PLC基本指令的应用.pptx VIP
- 新生300天图解教程.docx
- 专题05:评价诗歌思想内容和观点态度(解析版)-2025年高考语文一轮复习知识清单.docx
- 《小蝌蚪找妈妈》识字微课教学课件—【精品课件】.pptx
- 高电压工程基础-第二版-课后答案-(施围-邱毓昌-张乔根).pdf
- 中医内病外治的研究进展及思路_全身性疾病药物外治的文献回顾_发展趋势及技术要点.pdf
- 部编版(五四制)语文六年级上册第二单元综合素质评价卷(含答案).doc VIP
- 2023年武汉科技大学法学专业《民法学》期末试卷A(有答案).docx VIP
文档评论(0)