knn算法改进及基于allconfidence模式的分类算法探讨-improvement of knn algorithm and discussion of classification algorithm based on all confidence pattern.docxVIP
- 1、本文档共37页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
knn算法改进及基于allconfidence模式的分类算法探讨-improvement of knn algorithm and discussion of classification algorithm based on all confidence pattern
第一章 第一章 绪论漳州师范学院工学硕士学位论文漳州师范学院工学硕士学位论文 PAGE PAGE 13 PAGE PAGE 10第一章 绪论1. 1 研究背景和意义数据挖掘[1],就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取 隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。其中,分类 挖掘是数据挖掘领域中的研究课题之一。分类挖掘就是研究一组已知其类别的数据对象〔训练数据集〕的属性与其类别间的关系, 发现其规律(分类的规则), 以用来对未知类 别的数据对象做出类别判断。 分类[2]是数据挖掘的一个重要任务, 很多数据挖掘问题都可以转化为分类问题。分 类的目的在于运用分类方法构建一个分类函数或分类模型(也常常称作分类器),该模型 可以将输入数据(比如数据库中的数据项)映射到给定类别中的一个类别。比如根据个 人资料预测客户是否会流失,这里就把顾客分为将流失与不会流失两个类别,再根据输 入的个人资料将该客户映射到两个类中的一个里去。同时分类方法在很多领域得到了广 泛应用,比如决策树方法在医学诊断领域[3-5],雷达型号识别[6]的应用,KNN分类算法应 用于车牌识别[7],风预报[8],图像分类[9]等方面,贝叶斯分类在入侵检测[10-11]以及垃圾分类 [12-13]的应用和神经网络应用于贷款违约识别[14]研究中等等。 分类方法分为两种:一种是先提取规则建立模型然后进行分类,另一种是懒散学习。 基于关联规则的分类算法[1]就是利用标准关联规则挖掘算法挖掘出有关的关联规则,即 关联规则的右部为类别,然后从已发现的关联规则中选择高优先度的规则来进行分类, 也就是如果有多条关联规则的左部相同,而右部为不同的类,则选择具有最高置信度的 规则作为可能规则,最后用于未知记录的分类,能够获得较高的准确率[15]。KNN 分类方 法则属于后者,它并不需要产生额外的数据来描述规则,它的规则就是数据(样本)本 身,它是将所有训练样本首先存储起来,当要进行分类时,就临时进行计算处理,KNN 分类算法具有实验简单,适应性强等优点。 1. 2 分类概述1. 2. 1 什么是分类分类[1]是这样的过程,它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。导出模型是基于对训练数据集(即其类标记已知的数据对象)的分析。1. 2. 2 分类的过程数据分类过程主要包含两个步骤:第一步,建立一个描述已知数据集类别或概念的 模型:该模型是通过对数据库中各数据行内容的分析而获得的。每一数据行都可认为是 属于一个确定的数据类别,其类别值是由一个属性描述(被称为类别标记属性)。第二步, 利用所获得的模型进行分类操作,首先对模型分类准确率进行估计,它利用一组带有类 别的样本进行分类测试(测试样本随机获得且与训练样本相互独立)。对于一个给定数据 集所构造出模型的准确性可以通过由该模型所正确分类的(测试) 数据样本个数所占总 测试样本比例得到。如果一个学习所获模型的准确率经测试被认为是可以接受的,那么 就可以使用这一模型对未来数据行或对象(其类别未知) 进行分类。利用训练数据集学 习并获得分类规则知识(模型);利用学习获得的分类规则(模型),对已知测试数据进行 模型准确率的评估,以及对未知类别的新数据(类别) 进行分类预测。 1. 2. 3 分类算法近年来, 分类算法仍是一个研究热点,因而涌现出了大量的分类算法,但是不同的 分类方法有不同的特点,也存在着不同的缺陷。接下来介绍几种经典的分类算法。 1. 2. 3. 1 KNN 算法最近邻法是由Cover和Hart于1967年在[16]中提出的, k -近邻法[17]是最近邻法的一个 显然的推广,当 k =1时,k -近邻法就是最近邻法。传统的KNN分类算法的基本原理是: 把未知样本与训练集中的样本进行相似度的计算,然后选取它的 k 个近邻,最后看这 k 个近邻中多数属于哪个类别,就把未知样本判断为哪一类。 从KNN算法的基本原理可以看出该算法必须知道两个前提:相似度的度量以及最近 邻样本的数目 k 。 k 表示选择相似样本的数目,相似度尺度对应一个非负的函数,用来 刻画不同样本间的相似性程度。 k -近邻法(KNN)是一种典型的懒惰学习算法,所有的计算都推迟到进行分类的时 候。KNN分类方法[18]具有实验简单,适应性强;概念清晰、易于实现;不需要产生额外 的数据来描述规则,它的规则就是训练数据(样本)本身并不是要求数据的一致性问题; 在类别决策时,只与极少的相邻样本有关;最直接地利用了样本和样本之间的关系,减少了类别特征选择不当对分类结果造成的不利影响,可以最大程度地减少分类过程中的误差项等诸多优点;但同时也存在分类速度慢、分类过程中相似
您可能关注的文档
- 1严重创伤患者医院感染病原菌分布及耐药性分析+2可溶性髓样细胞触发受体1评估严重创伤并医院感染患者经验性抗菌疗效的价值-distribution and drug resistance of pathogenic bacteria in nosocomial infection in patients with severe trauma + 2 soluble myeloid cell trigger receptor 1 value o.docx
- 12.5%氰霜唑·吡唑醚菌酯可分散油悬浮剂研制及其防治马铃薯晚疫病应用评价-preparation of 12.5 % cyazofamid pyraclostrobin dispersible oil suspending agent and its application evaluation on controlling potato late blight.docx
- cdk8、ki67、p53在宫颈癌及宫颈病发丨表达及意义癿初步研究-preliminary study on expression and significance of cdk 8, ki67 and p53 in cervical cancer and cervical diseases.docx
- dna修复相关基因在镉亚慢性暴露大鼠中的表达改变-expression changes of dna repair related genes in cadmium subchronic exposed rats.docx
- dc分型方法及迁移方式分子基础的发展-development of molecular basis of dc typing and migration methods.docx
- epc模式下电网项目造价控制分析-analysis of power grid project cost control under epc mode.docx
- fabp6在肾透明细胞癌中的表达分析-expression analysis of fabp 6 in renal clear cell carcinoma.docx
- fdp:一种基于绘制图形口令机制-fdp a password mechanism base on drawing graphic.docx
- epon技术及其在南京移动接入网络应用的分析-epon technology and its application in nanjing mobile access network.docx
- evhev用ipmsm驱动控制系统的研究-research on ipmsm drive control system for ev hev.docx
- koch曲线自旋系统热纠缠的分析-analysis of thermal entanglement in koch curve spin system.docx
- kpi在高校教师绩效考核中的应用分析-application and analysis of kpi in performance evaluation of college teachers.docx
- koutofnf系统的周期性预防维护策略分析-analysis of periodical preventive maintenance strategy of koutoffnf system.docx
- kpi在铁路物流企业绩效考核中的应用研究-research on the application of kpi in the performance evaluation of railway logistics enterprises.docx
- klf8在调控人骨肉瘤细胞增殖和细胞侵袭中作用-role of kl f8 in regulate proliferation and invasion of human osteosarcoma cells.docx
- kr nen2o体系势能面和1v正则模下的红外光谱分析-infrared spectral analysis of krnen2o system under potential energy surface and 1v regular mode.docx
- kras braf基因在结直肠癌中突变特征及其临床意义-mutation characteristics and clinical significance of kras braf gene in colorectal cancer.docx
- kras p53基因突变和pax2 p53 ki67蛋白在卵巢浆液性癌中表达的研究-study on kras p53 gene mutation and pax 2 p53 ki67 protein expression in ovarian serous carcinoma.docx
- kras基因型与转移性结直肠癌患者预后的相关性分析-correlation analysis between kras genotype and prognosis of patients with metastatic colorectal cancer.docx
- kras p53基因突变和pax2 p53 ki67蛋白在卵巢浆液性癌中表达的分析-analysis of kras p53 gene mutation and pax 2 p53 ki67 protein expression in ovarian serous carcinoma.docx
文档评论(0)