数据挖掘在中文病历中应用.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
摘要 摘 要 数据挖掘也被称为知识发现,她是指在~些事实或观察数据的集合中寻找隐 藏模式的决策支持过程。文本数据瘴分类是数据挖掘中的一个重要蠹容。电子病 历也是一类文本数据集。对这些数据集进行数据挖掘及分类是非常有必要的。本 研究中,我们研究了一静薪的基于短语匹配熬特征提取算法。并把这种算法应用 到中文真实病历豹分类中,取得较好的分类效采。具体处理过程是,首先采集了 医院内科真实中文病历200份。然后进行数据清洗过程,因为数据是来源予医院 的真实数据,蕊戬存在着不完整麴、含有噪声的和不一致的数据。之后对数据进 行壁化工作,特征提取,在我们的实验中采用的是一种新的特征提取方法即基于 短语酶特征提取方法;我翻将这200份含寿4种瘸静的病历进行3种组合,然爱 通过算法将他们分别进行分类。其中所用到的短语匹配算法可以归纳为如下的步 骤: 1)获得数据库中每对文档的匹配短语集合。 2)创建一个包括步骤l所有集合的集合。去除这个集合中的匹配短语。 3)把每个文档表示为一个淘量,并{趋一诧。 4)用SOM创建一个对威于这个向量集合的分类器。 5)可视讫分类结采,我穗黧每一类裰关的特征短语。 真实病历数据实验表明,这种新的方法能够以很高的准确度对真实病历进行 分类。这种算法麓鑫动铁病历数据集中提取塞主要羲特征,对病历进{亍分类链缀 好地帮助医务工作人员诊断疾病,并且总结出不同病种间有哪些以前从未发现的 不同薛表现特征。尽管在我绷的实验中所尾到的数据集是医院匏病历,但是这墨 提出的分类方法如果应用到其它类型的文本数据集也是适用的。 关键{霉:数据挖拖,神经霹络,中文瘸历,文本分类,特征提取 Abstract Abstract. called adecision Data KnowledgeDiscovery,meanssupporting Mining,also hidden ina setoffactsorobserveddata. of out large processfinding patterns isoneofthe tasksofData oftextdatabase important Mining.Electronic Categorization isalsoaclassoftextdataset.Dataand of medicalcaserecords miningcategorization medicalrecords is much this realChinese thosedatasetsof significance.Instudy,200 collectedfromtheaffiliationof Medical were then,data hospitalChengdu College.And includes and was therealdataset imperfect,noisy conducted,since cleansing discontinuousdata.Then

文档评论(0)

bb213 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档