- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
最近在面试中,除了基础 算法 项目之外,经常被问到或被要求介绍和描述下自
己所知道的几种分类或聚类算法, 而我向来恨对一个东西只知其皮毛而不得深入, 故写一个
有关聚类 分类算法的系列文章以作为自己备试之用 (尽管貌似已无多大必要, 但还是觉得
应该写下以备将来常常回顾思考 ) 。行文杂乱,但侥幸若能对读者也起到一定帮助,则幸甚
至哉。
本分类 聚类算法系列借鉴和参考了两本书,一本是 Tom M.Mitchhell 所著的机器学
习,一本是数据挖掘导论,这两本书皆分别是机器学习 数据挖掘领域的开山 or 杠鼎之
作,读者有继续深入下去的兴趣的话, 不妨在阅读本文之后, 课后细细研读这两本书。 除此
之外,还参考了网上不少牛人的作品 ( 文末已注明参考文献或链接 ) ,在此,皆一一表示感谢。
本分类 聚类算法系列暂称之为 Top 10 Algorithms in Data Mining ,其中,各篇分别
有以下具体内容:
1. 开篇:决策树学习 Decision Tree ,与贝叶斯分类算法 (含隐马可夫模型 HMM ) ;
2. 第二篇:支持向量机 SVM( support vector machine ) ,与神经网络 ANN ;
3. 第三篇:待定 ...
说白了,一年多以前,我在本 blog 内写过一篇文章,叫做: 数据挖掘领域十大经典算法
初探 (题外话:最初有个出版社的朋友便是因此文找到的我,尽管现在看来,我离出书日期
仍是遥遥无期 ) 。现在,我抽取其中几个最值得一写的几个算法每一个都写一遍,以期对其
有个大致通透的了解。
OK ,全系列任何一篇文章若有任何错误, 漏洞, 或不妥之处, 还请读者们一定要随时不
吝赐教 指正,谢谢各位。
基础储备:分类与聚类
在讲具体的分类和聚类算法之前,有必要讲一下什么是分类,什么是聚类,都包含哪些
具体算法或问题。
常见的分类与聚类算法
简单来说,自然语言处理中,我们经常提到的文本分类便就是一个分类问题,一般的模
式分类方法都可用于文本分类研究。常用的分类算法包括:朴素的贝叶斯分类算法 (native
Bayesian classifier ) 、基于支持向量机 (SVM) 的分类器, k-最近邻法 ( k-nearest neighbor ,
家用吸氧机价格 http://www.qingy
kNN ) ,神经网络法,决策树分类法,模糊分类法等等 ( 本篇稍后会讲决策树分类与贝叶斯分类算
法,当然,所有这些分类算法日后在本 blog 内都会一一陆续阐述 ) 。
而 K 均值聚类则是最典型的聚类算法。
监督学习与无监督学习
一般来说, 机器学习方法分为监督学习方法, 和无监督学习方法。 举个具体的对应例子,
则是比如说, 在词义消岐中, 也分为监督的消岐方法, 和无监督的消岐方法。 在有监督的消
岐方法中, 训练数据是已知的, 即没歌词的语义分类是被标注了的; 而在无监督的消岐方法
中,训练数据是未经标注的。
有监督的学习也通常称为分类任务,而无监督的学习通常称为聚类任务。也就是说,分
类属于监督学习,聚类属于无监督学习。
第一部分、决策树学习
1.1 、什么是决策树
咱们直接切入正题。所谓决策树,顾名思义,是一种树,一种依托于策略抉择而建立起
来的树。
机器学习中,决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关
系。树中每个节点表示某个对象, 而每个分叉路径则代表的某个可能的属
您可能关注的文档
- 贝叶斯决策理论的Matlab实现.pdf
- 贝叶斯分类器及概率密度函数估计方法实验.pdf
- 贝叶斯实验报告.pdf
- 贝叶斯方法在聚类中的应用.pdf
- 市场渠道分销合同协议.docx
- 位置信息数据授权协议.docx
- 物流装车全程监督协议.docx
- 人工智能2025年智能交通管理系统协议合同.docx
- 数据交易保密合同协议.docx
- 营销合作保密协议.docx
- 2020年9月安全监测报告「护网期间高危漏洞使用情况」.pdf
- 6、AI在APT追踪与防御中的应用-ABC_123.pdf
- HW多人运动溯源反制指北.pdf
- 1、大模型应用安全问题与应对措施探索-祝荣吉.pdf
- DeepSeek内部研讨系列—详解DeepSeek的9个安全问题 (2).pdf
- SMALI 逆向分析信息安全资料 (2).pdf
- 2020护网中的漏洞信息安全资料.pdf
- Linux Malware Incident Response_ A Practitioner's Guide ile Data - Cameron Malin & Eoghan Casey & James Aquilina信息安全资料.pdf
- android工具集-android安全信息安全资料.pdf
- APT视角下的攻防实践-2024腾讯安全沙龙(武汉站).pdf
原创力文档


文档评论(0)