大数据背景下生物医学论文(共3606字).docVIP

下载本文档

95
0
约3.42千字
约 8页
2017-04-08 发布于河北
举报
版权申诉

大数据背景下生物医学论文(共3606字).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据背景下生物医学论文(共3606字)

大数据背景下生物医学论文(共3606字) 1大数据来自生物、医药、医械、临床实验与健康管理等各个方面的数据，构成生物医学的各类大数据资源，它们形式多样，具有自身的特殊性，主要表现在以下几个方面：（1）原始数据量大，且呈异构、多样性。（2）难以用数学方式表达其结构及特征。例如：医生对医学影像、信号和其他临床数据的解释多是非结构化的语言或文字形式自由的口述，难以标准化。（3）数据可能包含冗余的、无意义的或不一致的属性，并且数据经常要更新。（4）数据采集很难完全避免噪声干扰，而噪声往往会影响处理结果。生物医学大数据处理包括数据的收集、抽取与集成、分析与挖掘、解释和共享等诸多方面，涉及数据库、信息科学、统计学、高性能计算、网络科学、心理学等多个领域。 2生物医学信息处理 2.1数据挖掘在生物医学信息分析中的应用数据挖掘是对海量数据进行处理和分析，找出数据间的隐含联系，发现未知规律，最终获得知识的过程。挖掘的过程包括信息收集、数据集成、数据规约、数据清理、数据变换、数据挖掘、模式评估和知识表示8个步骤[5]。近年来，数据挖掘是生物医学信息分析的常用手段，尤其是在循证医学研究、基因组和蛋白质组的研究领域中有很广泛的应用价值。KDNuggets在2011年全球数据挖掘应用行业调查的结果表明：健康行业位居10大数据挖掘应用领域的第3位。生物医学领域大数据多是不完整的、不一致的、有噪声的，数据具有独特的复杂性、丰富性、规模和重要性，需要数据挖掘的特殊关注。数据挖掘经典算法，如：分类、聚类、关联分析、序列等在生物医学数据挖掘时都可使用。 2.1.1　分类（Classification）分类是根据己知数据的特征和分类结果，为每个类找到合理的模型(构造分类器)，然后用这些模型对新数据进行分类。K最邻近算法、决策树、支持向量机、神经网络等是常用的分类模型构造方法。疾病的诊断和鉴别就是典型的分类过程。例如：美国学者利用数据挖掘软件Clementine，以决策树算法为模型，分析挖掘了医疗机构HealthOrg的数据仓库中有关年龄、BMI指数、腰臀比和周锻炼次数等数据，得出糖尿病患病危险因素的分析结果。此外，还有一些国内外研究者针对肺癌、乳腺癌的诊断数据，通过分类挖掘的方法提高诊断的精确性。 2.1.2　聚类（Clustering）分析聚类分析是将有共同特征或相似度高的数据对象实例聚成一类的过程，常用来研究样品或指标分类问题。聚类分析在生物医学领域已经得到广泛的应用，例如：可以根据流行病学特征属性的相似程度将病例数据划分成若干类，通过比较各个类别之间的临床医学状态特征属性的差异来分析某类疾病。国外学者选取SEER数据库中的217558例肺癌病例，通过分析每个病例的22个临床医学特征属性和23个流行病学特征属性的相似度后，将这些病例划分为20类，这就是典型的聚类分析。 2.1.3　关联（Association）分析关联反映的是一个事件和其他事件之间依赖或关联的知识，可以通过表征事物特征的两个或多个变量的取值之间存在的某种规律性，找出数据之间隐藏的关联关系。关联现象在生物医学领域普遍存在，例如：临床上的某些疾病会同时呈现几种不同的病症，这些病症之间就表现为一定程度的关联性，而医生诊断病症的过程常常以观察症状为基础。 2.1.4　序列挖掘（SequenceMining）序列是指按一定顺序或规律排列构成的一系列符号、数值或事件。存储于DNA、RNA和蛋白质中的遗传和功能信息可用符号序列表示，分析序列数据能找到其统计规律或发现序列组成部分片段之间的相似性或相同性，这是生物信息学研究中最常用方法。此外，还可用时间序列数据进行某些疾病的研究与治疗，例如：欧盟资助的T-IDDM（TelemetricManagementofInsulinDependentDiabetesMellitus）项目通过Internet采集糖尿病患者的连续监测数据，经时间序列分析后找到患者一天内血糖水平变化的规律和趋势，为医生调整或精确胰岛素治疗方案提供有效的数据和支持。 2.1.5　图挖掘（GraphMining）利用待研究的数据对象构建图这种数学模型，然后从图中寻找频繁出现的子图，从而挖掘出有价值的信息。例如：美国学术界整合出2003年H5N1禽流感感染风险地图，经过图挖掘分析出2013年H7N9人类病例区域[11]。此外，从政府管理角度来看，公共卫生部门可以针对覆盖全国患者的电子病历数据库进行图挖掘，从而完成全面疫情的监测。 2.2文本挖掘——生物医学文献信息的大数据处理 2.2.1　文本挖掘目前，全球医药类期刊近3