关于K近邻的过抽样算法在不平衡的医学资料中的应用.pdfVIP

下载本文档

2
0
约1.55万字
约 4页
2017-10-28 发布于安徽
举报
版权申诉

关于K近邻的过抽样算法在不平衡的医学资料中的应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

·566· 基于K近邻的过抽样算法在不平衡的医学资料中的应用周舒冬1张磊2李丽霞1 l撬要】髫静介绥一赞基予X近邻酶遵麴襻算法糍不平衡鹣嚣学数据集努类孛盼应焉。方法蓄先零j熏x滋邻法删除在分类中容易与少数类混淆的多数类样本；再对新生成的训练集利用SMOTE算法进行少数类样本的扩充，以有效提高少数类的分类性能。结果利用社区人群的慢性阻塞性肺痰病资料验诞。基于K近邻的过抽样算法的分类性能魄会戚少数类过接捞箕法及欠抽样方法瑟强。缝论当医学资辩窭瑗不乎餐孛擎摄酵，赞统分类器懿分类效暴不佳，基予 K近邻的过抽样算法能够获得良好的分类性能，在医学模式识别领域中有较好的应用前景。【关键词】 Kj胫邻过抽样不平横医学资料模式识别模式识别的分类方法在医学领域中已发挥蘅重要题。的作用，作为分类和预测的重要方法，其典型应用如疾嚣瑾与方法病的分类诊断、癌缨藏的识剃、微阵多j数据翡獒剐分析等。但是在实际应用中我们可以发现，通常数据集中 1．解决不平衡数据集分类问题的常用途径和评各类的样本数量是不等的，甚至有着极大的差别，即数价准煲l 据集存在非平衡的现象。类似的例子很多，如在社区为了提高少数类的分类性能，不均衡数据集的分中老年人群中进行慢性病的发病预测筛查，而糖尿病类问题一般可分为分类器的改进与数据集的改进两种或冠心病这类慢性病在社嚣入群中的患病率常低子怨决方案【3】。在实际应用中，更多的是采用后者，主 30％…，因此社区中潜在的发病人群是少数类样本，要是由于改进的分类器往往限制在某一然数据集中适大部分人群属于正常人，要正确高效识别出高危人群震，容易窭现避学习；露不平衡数据的褒象在很多领域比较困难。这主要是由于样本数量上的严重倾斜，如中都出现，急需寻找一种更广泛的解决途径。同时许图l、2所示，图1为平衡的数掇集，正负类数量比较相多标准分类器或分类算法已经形成相应的工具箱，如近基边界清楚；匿2为饕平衡翡数据集，正类远逯少于果再进行改进对于用声来说受l需要花费更多的成本。负类，且边界不清。因此普通的分类器算法对非平衡数据集的改进方案中最常用的是重采样技术【4】，数据集进行分类的性能不尽人意，少数类样本遇常比可分为欠挞样褥过抽样。欠抽样技术指在谢练集中减普通样本难以识另n，而且大多数模式识别算法对予处少多数类的成员，最简单的欠抽样方法是随机地去掉理少数类样本有很大困难。经过训练的分类器在致力一些多数类样本来减小多数类的规模，其缺点是将损于将多数类榉本尽量分类准确对，倾良予忽视少数类，失大爨有用信怠，影响准确的模穗建立。过抽样技术然而忽视少数类样本所带来的损失可能比上一种情况则是在训练集中增加少数类的样本。其优点在于原始要送远大得多【2】。数据集的信息不会出现缺失，僵其缺点是溅练集将交得庞大。那么如何评价这些改进方案呢?医学实践中我们经常使用诊断试验的评价指标来进行评价，如灵敏度、特异度、假阴性率(漏诊率)、阳性预测价值等。表1是跌总体人群中施槐抽取酶一个撵本，然薏进行诊灏试验的