- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
医学结构化数据挖掘
医院角度:各科室信息的统计和汇总。 非结构化数据(如手写病历、检验报告单)经录入可以转化为结构化数据。 医学结构化数据挖掘 辛亥革命以前: 中医药学古籍文献13000多种 辛亥革命以后: 中医药图书12000多种,中医期刊230多种 1987~2003年发表:中医药文献530700篇 医院信息管理系统 医生诊病问题:个人临床经验有限,难以从复杂 MIS:管理信息系统?处理医院内部管理方面 CIS:临床信息系统?处理以患者为中心的一系列相关信息 中医药专家系统知识库。 复方新药的经验开发模式:根据自身知识与经验组方?临床验证?疗效好?药理学、中药化学研究。 复方新药的新开发模式:利用数据挖掘和KDD技术开发研制中药复方。 方便了研究。 周连菊等建立的“《黄帝内经》计算机检索数据库系统”; 南京中医药大学研制出的“针灸腧穴文献资料检索系统”; 上海中医药大学研制的“《针灸大全》检索系统”; 利用贝叶斯神经网络找出抗精神病药物与心肌炎和心脏病发作的关系; 粗集理论用于肺癌的诊断、宫颈癌病变的检测等。 常用数据挖掘方法有很多种,它们分别从不同侧面、不同角度反映事物的本质: 职业、生活习惯等的关系。 序列模型挖掘:病人的病情发展情况预测。 中医药领域的数据挖掘 (1)寻找新药先导化合物 3)开发面向中医药方剂的数据挖掘平台 如浙大设计和开发的面向中医药方剂的数据挖掘平台。 文本挖掘的独特之处 (1)文本结构本身是半结构化或非结构化的,无确定形式且缺乏及其可理解的语义; (2)涉及到多个学科领域。 多数文本数据库存放的是半结构化数据。 文本分类 按照预先定义的主题类别,为文本集合中每个文本确定一个类别。 文本聚类 无预先定义好的主题类别,其目标是将文本集合分成若干个簇,要求同一簇内相似度尽可能大,不同簇间相似度尽可能小。//层次凝聚法,平面划分法 文本挖掘过程 (1)特征集的建立 描述性特征:文本名称、日期、大小、类型等; 语义性特征:文本作者、机构、标题、内容等。 (2)特征集的缩减 对文本特征向量降维,缩减特征集,包括横向选择和纵向投影。 对知识模式进行质量评价,若满足要求则保存;否则返回分析改进进行新一轮挖掘。 下面以文本分类来简单介绍结果模式评价 用文本特征集表示原来文本,实现从非结构化?结构化的处理。 特征表示模型有:布尔逻辑型、概率型、向量空间型。 自动标引:利用计算机技术自动分析出能够代表一段文本或一篇文章主题意义的词汇(即关键词或主题词)。 关键词标引?同义标引词泛滥,效果不好 主题词标引?提高标引质量,效果好 (3)文本的相似度 作用:提取重要段落或语句;文本分类和聚类。 用规范化特征向量来构造每一个需要分类的文本 用规范化特征向量来构造每一个预定义类别 计算文本特征向量与类别特征向量的相似度来评价分类文本与每一个预定义类别特征之间的相关性。 ②把关键词作为检索键搜索关键词与类主题词联结库,获取类主题词; ③通过类主题词查找类主题权重词库表,获取权值和分类号,当取完所有分类号和权值后。进行类号合并与权重求和; 最大值为首选类号,其他相同权值的类号作为辅选类号。 文本聚类 文本聚类是指将文本根据其特征分为多个类或簇。 硬聚类、软聚类。 ②词频信息统计 ③计算句子的权重 ④选择候选句子 ⑤加工生成摘要 ①待摘要文本信息录入 ②文本分析(语法分析+语义分析+句法分析) ③文摘初稿的生成 ④摘要排版输出 (3)模版填写式自动摘要 适用于科技文献等结构化含义强的文本,不适用于隐含意义强的文本,如诗歌、小说等。 常用的基于结构的自动摘要: ①关联网络 ②语用功能 3)列出本体中的重要术语 (4)定义类和类的等级体系 (5)定义类的属性 (6)定义属性的分面 (7)创建实例 现代文献文本数据挖掘(略) 医学文本数据挖掘 横向选择:剔除有噪声文档或文档过多时仅选部分文档来挖掘; 纵向投影:根据挖掘目标选取有用特征,获得代表文档集合的有效、精简的特征子集。 (3)学习和知识模式的提取 通过分类和聚类,提取面向特定应用目的的知识模式。 (4)模式质量评价 * 医学文本数据挖掘 医学文本数据挖掘 文本分类的评价指标:查准率和查全率。 查准率和查全率反映了分类质量的两个不同方面,故为了公平起见,形成一种新的评估指标,即F1测试值: * 医学文本数据
文档评论(0)