- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于多常量编码的软件水印保护技术基于多常量编码的软件水印保护技术
数据挖掘分类算法研究综述
程建华
(九江学院 信息科学学院软件教研室 九江 332005 )
摘要:随着数据库应用的不断深化,数据库的规模急剧膨胀,数据挖掘已成为当今研究的热点。特别是其中的分类问题,由于其使用的广泛性,现已引起了越来越多的关注。对数据挖掘中的核心技术分类算法的内容及其研究现状进行综述。认为分类算法大体可分为传统分类算法和基于软计算的分类法两类。通过论述以上算法优缺点和应用范围,研究者对已有算法的改进有所了解,以便在应用中选择相应的分类算法。
关键词:数据挖掘;分类;软计算;算法
Review of Classification Algorithms in Data Mining
CHENG Jianhua
(Department of Computer Science,Jiujiang University, Jiujiang 332005, China)
ABSTRACT: With the application of database deepening and the size of database expanding quickly, Data Mining has recently become the hotspot. Classification, the problem among them especially because of its extensive usage, has acquired more and more concerns presently. As one of the kernel techniques in the data mining, it is necessary to summarize the research status of classification algorithm. Classification algorithms can be divided into classical algorithms and algorithms based on soft computing. By presenting the advantages and disadvantages and the application range of the algorithms mentioned above, it will be helpful for people to improve and select algorithms for applications, and even to develop new ones..
KEYWORDS: data mining;classification;soft computing;algorithm
1引言
1989年8月,在第11届国际人工智能联合会议的专题研讨会上,首次提出基于数据库的知识发现(KDD,Knowledge DiscoveryDatabase)技术[1]。该技术涉及机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化和高性能计算等领域,技术难度较大,一时难以应付信息爆炸的实际需求。到了1995年,在美国计算机年会(ACM)上,提出了数据挖掘[2](DM,Data Mining)的概念,由于数据挖掘是KDD过程中最为关键的步骤,在实践应用中对数据挖掘和KDD这2个术语往往不加以区分。
基于人工智能和信息系统,抽象层次上的分类是推理、学习、决策的关键,是一种基础知识。因而数据分类技术可视为数据挖掘中的基础和核心技术。其实,该技术在很多数据挖掘中被广泛使用,比如关联规则挖掘和时间序列挖掘等。因此,在数据挖掘技术的研究中,分类技术的研究应当处在首要和优先的地位。目前,数据分类技术主要分为基于传统技术和基于软计算技术两种。
2传统的数据挖掘分类方法
2.1 数据分类中相似函数的研究
数据分类首先涉及到样本间的相似度判定函数,向量相似性判定函数可根据向量特征可比性以及是否能满足距离三角不等式加以区分,而不满足距离三角不等式的向量相似性判定函数可根据互近邻距离等来判定。当向量特征是非同质的,简单地使用上述相似性判定函数是不合适的;而对于不同质的特征,使用不同的相似性判定函数也是困难的,因为:①不同判定函数之间的综合判定很困难;②某些向量特征取决于质;③即使取决于特征量,用于相似性判定函数的离散值或区间值也需进一步研究。
对于离散的向量特征,人们提出了简单匹配系数、Jaccard系数、Rao系数等相似性判定函数,但在实际使用中却存在很多限制,且这只适用于离散值数量较少的情况。目前,非
作者简介:程建华(1982-
您可能关注的文档
- 城市规划要关注的几个问题城市规划要关注的几个问题.doc
- 城市历史文化遗产保护与城市更新城市历史文化遗产保护与城市更新.doc
- 城市规划评析要点城市规划评析要点.doc
- 城市道路高清卡口整体解决方案城市道路高清卡口整体解决方案.doc
- 城管局2010年工作总结及2011年工作计划城管局2010年工作总结及2011年工作计划.doc
- 城规原理复习重点城规原理复习重点.doc
- 城镇居民医疗保险审批制度城镇居民医疗保险审批制度.doc
- 城建史 重点归纳城建史 重点归纳.doc
- 城郊煤矿防治水工作管理办法城郊煤矿防治水工作管理办法.doc
- 域控制器时间同步及w32tm用法域控制器时间同步及w32tm用法.doc
文档评论(0)