- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[2]摘要: 针对真实世界大数据应用,以区块链为基础设施,构建支持数据溯源、隐私保护、以患者为中心的数据共享平台,开发了原型系统,进行了关键算法验证, 基于最小哈希的局部敏感哈希的非标注数据溯源技术,结合区块链,实现数据来源可追溯可信可验证;设计专门的隐私保护隔离区,采用容器和虚拟机双层隔离保护机 制,程序将加密发布的真实世界数据下载到隔离区内,解密后分析处理,用后解密明文立刻销毁,实现数据隐私保护;同时使用区块链、控制流图、最小哈希、局部敏感 哈希等技术登记分析程序指纹,进行计算程序身份安全验证.
[2]
关键词: 区块链,真实世界数据,控制流图,局部敏感哈希,最小哈希
真实世界数据,指的是由非随机对照研究(简称RCT)而来的临床数据,主要来源于电子病历、医保索赔、患者报告结果、患者和疾病登记、前瞻性观察研究、生物 标志物研究、可穿戴设备传感器、移动健康数据等.随机对照研究被定义为最高级别的循证证据,经常作为药品审批上市、临床诊疗指南更新的证据.根据以往规定,新药 获准上市要经过临床试验RCT周期Ⅱ期、Ⅲ期等,过程至少需要8~10年.相比之下,真实世界临床数据来源更具多样性,可以评价药械的实际效果和安全性,并可观察到 更长期的治疗效果以及不同特征人群的效果,能够为新药械上市开辟新的途径,带动医疗科技创新[1].
真实世界数据需要转化为真实世界证据才会发挥价值.要完成这种转化必须进行数据整合,同时解决数据可溯源性、隐私保护等问题.因为真实世界数据必须经过整合 以后才能使用,这牵扯到同一数据库中数据表内容整合、不同数据库内容的整合,同时对缺失数据进行补全.数据整合后必须解决以下2方面的问题:
1)可溯源性.整合数据需具备可追溯性,为分析结果提供可信证据.让分析结果可追溯,可查找原因.
2)隐私保护.真实世界研究的数据,如患者的信息有可能会成为长期的研究资料,患者本身在某种程度上已成为“受试者”,因此真实世界研究需要符合伦理要求、 知情同意等,必须提供完善的隐私保护机制,防止用户隐私泄露.
我国医疗数量大,加上就诊医院、地域的不同,易形成信息孤岛,要实现开放利用需要突破数据可溯源性、隐私保护等关键技术,打通数据壁垒,将数据整合形成全 面的多维数据链条,构建具有可溯源和隐私保护能力的真实世界数据共享体系.
本文的贡献在于对上述传统技术的增强:对于文本和数值型数据溯源,设计了最小哈希(MinHash)和局部敏感哈希(LSH)算法进行相似性比较,查找世系证据;对 于隐私保护,提出了基于控制流图的程序身份指纹提取及验证算法,同时使用区块链对数据哈希特征指纹、计算程序指纹进行登记,实现数据溯源以及处理程序溯源.另 外,设计了容器和虚拟机双层隔离保护的隐私计算隔离区,将加密发布的真实世界数据下载到隔离区内,解密后分析处理,用后数据立刻销毁,隔离区外不出现明文,从 而防止个人隐私泄露.
1 总体框架和工作流程
真实世界数据共享体系框架图如图1所示:
主要包括数据整合治理、加密发布存储、数据分析程序应用和区块链等模块,其中:
数据整合治理.主要按照标准表格,对来自各种数据源的数据进行内容整合导入,补全缺失数据.数据补全采取datawig机器学习算法 .
补全数据.使用RCT数源的,需要记录数据源URL (数据表),补全之前的数据集合最小哈希MinHash;补全数据集合的最小哈希和补全算法.并采用区块链登记其最小 哈希;
加密发布存储.采用分布式存储系统IPFSOrbitDB数据库,将标准化数据加密发布,提供目录方便授权管理以及数据使用.
隐私保护区.将通过授权的加密数据下载到隔离区,解密后采用分析程序进行处理,计算结果输出后,解密明文用后立即销毁,防止数据泄露.同时,使用区块链[3] 对数据分析程序指纹特征和访问用户进行登记,实现数据使用可证、计算结果可信.
区块链模块.采用Hyperledger进行存证,登记的原始数据存储于IPFSOrbitDB数据库.
2 算法设计
2.1 数据溯源算法
文本和数据类数据溯源采用基于最小哈希的局部敏感哈希算法,计算数据相似度,追溯数据的演变过程[4].
算法1.数据溯源算法.
输入:文件(文本或者数据);
输出: LSH相似度.
计算过程:
第1步.数据分割k-shingles:将数据文件切分为小数据集合.
第2步.最小哈希MinHash降维:将数据集合转化为短签名,将数据比较转化为签名比较.
第3步.局部敏感哈希(LSH)降维,最小哈希MinHash得到的签名数据集依然很大,通过LSH进一步缩减处理的数据量.只是比较存在高相似概率的签名.下面重点介绍 MinHash和LSH.
Jaccard系数是常见的衡量2个向量(或集合)相似度的度量: A,B两个集合,其相似性Jaccard系数为J
文档评论(0)