- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅析Bayesian分类的应用
摘要:该文阐述了贝叶斯分类在利用人工智能技术设计时的必要性和重要性,介绍了贝叶斯分类中的基本技术,给出了贝叶斯分类的优缺点和有关发展方向。举了相关的使用贝叶斯分类的例子。
关键词:数据挖掘;贝叶斯;分类
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)23-1024-02
The Application of Bayesian Classification
ZHONG Dai-jun
(Chongqing University of Arts and Sciences, Chongqing 402160, China)
Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.
Key words: data mining; bayes; classification
1 引言
数据的丰富带来了对强有力的数据分析工具的需求,大量的数据被描述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量的数据库中,没有强有力的工具,理解它们已经远远超出了人的能力。
分类作为数据挖掘的一种模式,可以用于提取描述重要数据的模型,通常是预测分类标号(或离散值)。例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类。许多分类的方法已被机器学习、专家系统、统计学和神经生物学方面的研究者提出。
贝叶斯分类是数据分类中的一个基本技术。在大型数据库,贝叶斯分类已表现出高准确率和高速度。贝叶斯分类中又有朴素贝叶斯分类和贝叶斯信念网络。
2 什么是分类
数据分类(data classification)是一个两步过程。第一步,建立一个模型,描述预定的数据类集。通过分析有属性描述的数据库元组来构造模型。假定每个元组属于一个预定义的类,由一个称作类标号属性(class label attribute)的属性确定。对于分类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。由于提供了每个训练样本的类标号,该步也称作有指导的学习(即模型的学习在被告知每个训练样本属于哪个类的“指导”下进行)。它不同于无指导的学习(或聚类),那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事先不知道。
通常,学习模型用分类规则、判定树或数学公式的形式提供。例如,给定一个顾客信用信息的数据库,可以学习分类规则,根据他们的信誉度优良或相当好来识别顾客。这些规则可以用来为以后的数据样本分类,也能对数据库的内容提供更好的理解。
第二步,使用模型进行分类。首先评估模型(分类法)的预测准确率。模型在给定测试集上准确率是正确被模型分类的测试样本的百分比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。如果模型的准确率根据训练集评估,评估可能是乐观的,因为学习模型倾向于过分适合数据。
如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。(这种数据在机器学习文献中也称为“未知的”或“先前未见到的”数据)。
分类具有广泛的应用,包括信誉证实、医疗诊断、性能预测和选择购物。
3 Bayesian 分类技术介绍
3.1 Bayesian分类与其他分类技术的比较
基于统计的分类算法主要包括:相似度模型(Rocchio,K一近邻)、概率模型(贝叶斯)、线性模型(LLSF,SVM)、非线性模型(决策树、神经网络)和组合模型.对于这些分类算法,国内外很多研究者进行了客观评测。
分类方法可以根据下列标准进行比较和评估:
预测的准确率:这涉及模型正确地预测新的或先前未见过的数据的类标号的能力。
速度:这涉及产生和使用模型的计算花费。
强壮性:这涉及给定噪声数据或具有空缺值的数据,模型真切预测的能力
文档评论(0)