面向半结构化医疗数据隐私保护关键技术研究.docVIP

下载本文档

13
0
约4.08千字
约 8页
2018-10-05 发布于湖北
举报
版权申诉

面向半结构化医疗数据隐私保护关键技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向半结构化医疗数据隐私保护关键技术研究　　【摘要】隐私保护是实现大数据价值的首要步骤和关键环节。目前，结构化数据隐私保护方法丰富，而医疗数据中常见的半结构化数据缺乏可靠的隐私保护模型及完善的平台支撑。针对这一问题，本文将从数据结构转化的角度入手，深入探索半结构化医疗数据的隐私保护方法及平台构建。　　【关键词】隐私保护；半结构化；信息抽取　　1 研究意义　　医疗数据被充分共享的前提是保证数据的隐私安全。半结构化医疗数据是医疗大数据的重要组成部分，占有举足轻重的地位。医疗过程中形成的半结构化信息隐私内容多样，从中折射、反映、蕴含的资讯及信息具有巨大的应用价值，对于医学研究、政府统计或是其他个人、机构的科研有重要意义。然而，由于半结构化数据的复杂性、灵活性以及其自描述形式，现存的隐私保护技术满足不了半结构化医疗数据的隐私保护需求。　　目前，数据共享中的隐私保护技术主要基于三类模型：k-匿名模型[1-2]、l-多样性匿名模型[3-4]和t-closeness匿名模型。但大多数隐私保护技术都是针对结构化数据，对半结构化医疗数据共享的隐私保护并不理想。而综合考虑技术、成本等问题，对半结构化医疗数据的隐私保护，应首先考虑使用成熟的结构化数据隐私保护方法，其关键是将半结构化医疗数据转化结构化数据。半结构化医疗数据的隐私保护问题要综合考虑到数据的异构性、复杂性、高维性等问题，明确中文医学信息数据特点造成半结构化信息抽取困难的问题，充分利用国内外半结构化数据抽取技术及结构化数据集信息的指导作用，将结构特征与词法、语义、表现形式等其他特征相结合，建立专门针对中文半结构化医疗数据特点的智能化信息处理模型及系统。　　此外，考虑到结构化后的医疗数据具有高维度、高复杂度的特点，需要更加高效的计算技术，自动并行化是解决这一问题的有效途径之一。Spark 是由伯克利大学开发的通用分布式内存计算平台，而弹性分布式数据集（Resilient Distributed Dataset，RDD）是Spark 的最基本抽象，是对分布式内存的抽象使用，实现了以操作本地集合的方式操作分布式数据集的抽象实现，适合优化需要多次迭代操作的机器学习类算法。因此，半结构化医疗数据的隐私保护过程完成能够使用spark并行计算，进行高效地资源分配。　　2 研究内容　　本文主要解决半结构化医疗数据共享中的信息抽取、隐私保护、并行化等关键技术问题，在保证半结构化医疗数据共享后隐私安全的情况下，提高半结构化数据的可用性，为临床决策、科研提供数据资源的支持，构建面向半结构化医疗数据共享的BaaS隐私保护平台。　　（1）面向半?Y构化医疗数据的信息抽取技术及医学术语知识库的构建　　建立服务于机器学习算法的中文医学术语知识库是信息抽取技术的基础，利用统计学方法学习标记好的语料库、获取规则、建立类似UMLS的中文医学术语知识库。标注少量医学病历作为统计学方法的训练集；探索适当的可用于医学问题识别的统计学算法；构建一个可以表明人物及其相应医学问题的信息表示方案；各部分研究间的关系可以构成一个信息抽取系统。　　（2）隐私保护算法的自动并行化技术　　引入Spark技术，Spark 使用基于内存计算的并行化计算模型――弹性分布式数据集（resilient distributed datasets，RDD），提供强大的分布式内存并行计算引擎，支持快速迭代计算，将机器学习应用到常规并行化策略上，能够进一步提升训练速度。首先采用合理智能算法以及不同训练集对各个k-匿名算法进行测试训练，检测不同算法较为费时部分；其次测试该部分能否进行分布式计算法；最后Spark平台进行分布式运算会涉及到通信开销，智能算法训练各k-匿名算法，给定各算法进行分布式所需要的数据集阈值。对k-匿名算法设计采用了并行化局部优化的迭代计算模式，有效提高匿名效率。　　（3）构建面向半结构化医疗数据的分布式隐私保护BaaS平台　　构建面向结构化医疗数据的分布式隐私保护BaaS平台，该平台应具备上载结构化数据集和半结构化数据集、连接数据库、医学数据信息抽取模块、隐私保护模块、提供k-匿名算法的Rest-API。平台内含自建中文临床子语言语法规则及医学术语知识库，为信息抽取的精确性提供知识储备及技术支持。隐私保护模块能够按需求进行全域k-匿名或局域k-匿名的选择、具体实现k-匿名算法的选择、隐私保护模型的选择，同时该模块具有是否使用分布式计算的选项。　　3 研究方法　　首先建立医学术语知识库及命名实体规则库，对半结构化医疗数据进行信息抽取，测试抽取信息的准确性。对抽取后的结构化数据匿名，测试k-匿名算法的功能及其使用范围。挖掘匿名前后数据所包含的信息，对比挖掘结果，对匿名后的数据集进行