612中文医疗文本匿名化方法研究.pdfVIP

下载本文档

8
0
约7.19千字
约 4页
2017-08-10 发布于重庆
举报
版权申诉

612中文医疗文本匿名化方法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

612中文医疗文本匿名化方法研究.pdf

中文医疗文本匿名化方法研究 ① ① ① ① * 徐益辉姚琴袁冬生周天舒李劲松基金项目：国家自然科学基金项目（编号；国家“863 计划”项目（编号： 2013AA041201）；浙江大学海外一流学科伙伴计划（编号：188170*193251101） *通讯作者：浙江大学生物医学工程与仪器科学学院教授，310027，浙江省杭州市浙大路38 号 ①浙江大学生物医学工程与仪器科学学院、电子病历与智能专家系统教育部工程研究中心，浙江杭州摘要医疗文档的匿名化工作能够有效保护患者隐私，推动中国电子病历匿名化的发展。但是传统的人工筛检患者隐私信息的方法不仅效率低下，错检、漏检频繁，而且消耗大量的人力资源。针对这一问题，本文引入中文分词技术，提出并实现了一种基于中文分词技术的识别并处理中文人名的算法。该方法通过对医疗文本当中的自然句切割和切词以及充分挖掘姓名和其上下文信息的关联程度的信息，实现了在电子病历中批量处理中文医疗文档。通过本文的方法，人名的检出率达到了96.80%，超过了临床人员对PHI 的人工平均检出率81%，同时获得了 90.57%的精确率。在保护患者隐私的同时，最大化地减少匿名化对于医疗文档临床医用价值的影响。关键词中文分词隐私保护关联信息 1 引言随着中国社会的高速发展，人们对于医疗卫生信息系统的要求越来越高，传统的各个医疗机构各自为政、信息互不共享的方式，不再符合发展的趋势。公共临床信息资源库的缺乏，将导致许多基于临床医学证据的研究无法良好地开展，同时还会不可避免地造成重复的研究，无谓地浪费掉大量的时间成本。特别是中国作为人口大国，其临床信息的整合，对国内乃至世界的科学研究都是极为宝贵的。为此，国务院也在日前发布的《 “十二五”国家自主创新能力建设规划》中提出，我国需要加快临床信息资源库和数据库的建立，其中城乡居民电子健康档案和电子病历资源库的建立更是当务之急[1]。早在2010 年10 月14 日，卫生部便决定在全国22 个省份开展电子病历试点，探索建立适合中国国情的电子病历系统。与此同时，2011 年 1 月4 日卫生部发布《电子病历系统功能规范（试行）》。规范指出，电子病历系统提供对电子病历进行患者匿名化处理的功能，以便在必要情况下保护患者健康情况等隐私[2]。可是近两年来，基于电子健康档案以及电子病历的公共临床信息资源库的建立工作仍然举步维艰，究其原因，主要在于对电子病历中患者隐私信息的去匿名化处理，无法准确而又高效的进行。电子病历中的患者隐私信息，主要包括患者姓名、高龄患者（89 岁以上）的年龄、地理位置信息、就诊的医疗机构信息、就诊日期、患者联系方式以及患者身份证件信息这七大类[3]。其中患者的年龄、就诊日期、电话号码、身份证号以及账户号码等，通过正则表达式的模式匹配处理，十分轻易的就能被抹去；所以，对于中文电子病历的去标识化，关键在于对复杂的中文人名的去除。由于中文不像英文，在单词间有空格作为自然分隔符。为了使中文人名的匿名化处理具有较高的检出率和准确度[4]，本文将介绍一种基于中文分词技术的中文人名匿名化方法。对于中文分词技术中常见的分词规范问题、歧义字段切分以及大量未登录词的辨识[5]，将通过增加临床相关的经验字典表并辅以统计算法，使分词技术在临床领域得以优化，从而达到中文人名匿名化的目的。本文希望通过介绍匿名化技术在电子病历中的应用，推动中国电子病历匿名化的发展，从而加快中国公共临床信息资源库的建设。 2 材料与方法 2.1 候选姓名提取对医疗文本当中的人名进行匿名化的处理的第一步是要对人名进行自动识别。为了尽可能不遗漏文档中的人名，本文采用姓氏驱动的方法，通过匹配姓氏字典找到姓氏后做以下处理：将该姓氏用字后第一个汉字匹配单字人名字典；将该姓氏用字后第一个汉字匹配双字人名首字字典；将该姓氏用字后第二个汉字匹配双字人名尾字字典。根据以上步骤我们可以得到潜在的人名结果，例如 “李晓峰”，其中 “李”是姓氏，“晓” 存在于单字人名字典和双字人名首字字典当中，“峰”存在于双字人名尾字字典当中。这样得到的候选人名就是： “李晓”和 “李晓峰”。由于汉语言的复杂性，通过姓名字典匹配出来的候选人名有很大一部分存在假阳性。例如 “患者周进每周进行三次