- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[加权朴素贝叶斯算法及其weka程序分析20151216A
局部加权朴素贝叶斯算法及其Weka程序分析张伟(北京交通大学计算机与信息技术学院,北京,100044)摘要:局部加权朴素贝叶斯是一种改进朴素贝叶斯算法独立性假设缺陷的算法.通过实验证明加权朴素贝叶斯算法具有很好的效果,比朴素贝叶斯和K最近邻方法的效果都要好。关键字:局部加权,朴素贝叶斯在机器学习中直接使用贝叶斯定理是不现实的,因为训练集不足以获得全概率分布的准确估计。朴素贝叶斯分类算法是一种优秀的分类算法,但由于其必须满足属性独立性假设,使得该算法具有了一定的局限性。局部加权朴素贝叶斯算法为了从该算法的弱点独立性假设入手,对朴素贝叶斯算法进行改进,提出了一种基于K近邻法的局部加权朴素贝叶斯分类算法。实验表明该算法提高了分类的可靠性与准确率。1 局部加权朴学习局部加权学习(locally weighted learning,简称LWL),既可用于回归问题(如局部加权线性回归),又可用于分类问题(如局部加权朴素贝叶斯)。局部加权分类是一种比较新的方式,在一些实验中表现出更高的准确率。分类过程需要对训练实例根据它们离测试实例的距离进行加权。在传统的加权学习算法中通常使用欧几里德距离来度量实例间的距离。局部加权学习是方法是懒惰学习(lazy learning)和基于记忆学习(memory-based learning)的一种形式,它需要存储数据集,当需要对一个新实例进行处理,通过距离函数计算训练实例和测试实例的距离以确定和测试实例相关的训练实例的加权集合构,然后用该集合构造一个新的模型来处理新实例。1.1 局部加权朴素贝叶斯原则上,贝叶斯定理保证了对一个给定属性值向量的新实例的类标的最优预测。不幸的是,直接将贝叶斯定理用于机器学习是不现实的,因为不可避免训练数据不足以获得全概率分布的精确估计。为了使推理可行必须先满足一些独立性假设。朴素贝叶斯方法把独立性假设发挥到了极致,假定属性对于给定的类标值是统计上独立的。虽然这个假设在实际中并不成立,朴素贝叶斯在许多分类问题上表现的非常好。此外,朴素贝叶斯计算效率—训练在实例个数和属性个数上都是线性的且易于执行。机器学习相关文章开始关注朴素贝叶斯学习算法归功于Clark和Niblett的有关CN2规则学习的文章。在这篇文章中他们在实验评估中使用了一个简单的贝叶斯分类器(朴素贝叶斯)作为对比,朴素贝叶斯分类器比其他更成熟的学习算法表现更好。虽然已经对朴素贝叶斯在一些违反属性独立假设的情况下具有良好表现进行了解释,但一个基本事实没有改变,那就是当独立性假设不成立时,概率估计精度和效果都会下降。很多用于提高朴素贝叶斯效果的方法被提出,其中许多方法在保持原算法的简单性和计算高效性的同时降低算法的“朴素性”。Zheng和Webb在这个领域的工作进行了很好的总结。最有效的方法包括:贝叶斯网络的限制子类、结合了属性选择的朴素贝叶斯或者将朴素贝叶斯模型结合到其他分类器(例如决策树)。事实证明局部加权的朴素贝叶斯算法具有很好的效果,比朴素贝叶斯和K最近邻方法的效果都要好。我们用来加权朴素贝叶斯的方法是从一项源于用来对非线性回归模型进行估计的技术中借鉴而来,线性回归模型适合基于加权函数的数据,这个加权函数用来处理要进行预测的实例。由于加权函数随着每个需要处理的实例改变,所以由此产生的估计是非线性的。本文我们研究了用于分类的局部加权学习,局部加权学习在机器学习中没有得到很多关注。Loader(1999)和Hastie(2001)从统计学角度研究了所谓的“局部可能性”方法,包括局部加权线性逻辑回归和局部加权密度估计。朴素贝叶斯是用密度估计进行分类的例子。和逻辑回归相比它具有优势:在属性个数上是线性的,这是这种方法在具有多属性的学习问题上具有更高的计算有效性。我们使用朴素贝叶斯的方式和在局部加权线性回归中使用线性回归的方式一样:一个局部朴素贝叶斯模型适合于用来预测类属性实例(我们称这个实例为测试实例)的领域中的数据集的子集。此领域中的训练实例是加权的,距离测试实例越远的例子具有的权重越小。然后一个分类器可以从朴素贝叶斯模型获得,朴素贝叶斯模型将测试实例的属性值作为输入。用来训练每个局部加权朴素贝叶斯模型的数据集的子集由最近邻算法决定。用户指定的参数k控制使用多少个实例。这通过使用具有紧支撑的加权函数和为k最近邻的距离设定宽度(或带宽)来实现。1.2 属性处理令di表示测试实例到第i个最近邻点xi的欧几里德距离。我们假设所有属性在计算距离前都被标准化为0到1之间的数值,名称型属性都进行二值化处理。令f为一个加权函数对所有的y 1有f(y)= 0。接下来我们设每个实例xi的权重i为这意味着实例xk的权重为0,所有距离测试实例很远的实例的权重都为0,和测试实例相同的实例权重为1。所有具有以上性质的单调递减函数都可以作为加
您可能关注的文档
最近下载
- 项目一 任务三 认识餐饮设备(课件)《餐饮服务与管理》(高教版第二版)同步课堂.pptx
- 16S122图集—水加热器选用及安装.pdf
- 第12课《短文二篇——记承天寺夜游》课件++2025-2026学年八年级语文统编版上册.pptx VIP
- 《中国心理学会临床咨询心理学工作伦理守则》考试题库及答案解析(共200题).docx VIP
- 《抗病毒药和抗寄生虫药》课件.ppt
- 翼科ES500系列专用伺服驱动器用户手册.pdf
- 高等职业技术学院辅导员工作手册.pdf VIP
- JBT 7361-2007 滚动轴承 零件硬度试验方法.docx VIP
- 小学生必背古诗75首80首!家长收藏必备,附带文档打印版.pdf VIP
- 入党积极分子培养考察表1.doc VIP
文档评论(0)