基于内容文本分类算法综述.docVIP

下载本文档

9
0
约2.59千字
约 6页
2018-08-29 发布于福建
举报
版权申诉

基于内容文本分类算法综述.doc

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于内容文本分类算法综述

基于内容文本分类算法综述　　【摘要】随着信息技术的发展，人们已经从信息缺乏的时代过渡到信息极为丰富的数字化时代，可以获得越来越多的数字化信息，而这些信息大都是半结构化或非结构化数据，为了从中快速有效地获得自己需要的信息，我们需要研究基于内容的文本信息分类技术。　　【关键词】k-元最近邻居算法；贝叶斯算法；决策树算法；支持向量机算法　　1.引言　　目前很多分类算法被研究者从不同角度提出，判断不同分类算法的好坏可以由准确率、速度、健壮性、可伸缩性、可解释性等几个标准来衡量。经典的分类算法在不同的领域取得成功，比如贝叶斯算法、决策树分类算法、KNN算法和支持向量机算法等。　　2.文本分类算法　　2.1贝叶斯（Na?ve Bayesian）算法　　贝叶斯是一种概率方法，设每个数据样本用一个维特征向量来描述n个属性的值，即：，假定有m个类，分别用表示。给定一个未知的数据样本x（即没有类标号），若朴素贝叶斯分类法将未知的样本x分配给类，则一定是　　根据贝叶斯定理，由于对于所有类为常数，最大化后验概率可转化为最大化先验概率。如果训练数据集有许多属性和元组，计算的开销可能非常大，为此，通常假设各属性的取值互相独立，这样先验概式（2）可以从训练数据集求得。　　根据此方法，对一个未知类别的样本x，可以先分别计算出X属于每一个类别的概率，然后选择其中概率最大的类别作为其类别。　　贝叶斯定理给出了最小化误差的最优解决方法，可用于分类和预测。其特点是：　　①贝叶斯分类并不把一个对象绝对地指派给某一类，而是通过计算得出属于某一类的概率，具有最大概率的类便是该对象所属的类。　　②一般情况下在贝叶斯分类中所有的属性都参与分类。　　③贝叶斯分类对象的属性可以是离散的、连续的，也可以是混合的。　　2.2决策树（Decision Tree）算法　　在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。　　2.2.1 ID3算法　　70年代末。由J Ross Quinlan提出了ID3算法，ID3的具体方法是：检测所有的属性，选择信息增益最大的属性产生决策树结点，由该属性的不同取值建立分支，再对各分支的子集递归调用该方法建立决策树结点的分支，直到所有子集仅包含同一类别的数据为止。最后得到一棵决策树，它可以用来对新的样本进行分类。　　ID3算法的特点：算法的理论清晰，方法简单，学习能力较强。但是ID3算法只对比较小的数据集有效，且对噪声比较敏感，当训练数据集加大时，决策树可能会随之改变。　　2.2.2 C4.5算法　　C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进：　　①用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足。　　②在树构造过程中进行剪枝。　　③能够完成对连续属性的离散化处理。　　④能够对不完整数据进行处理。　　C4.5算法的特点：产生的分类规则易于理解，准确率较高。但在构造树的过程中，C4.5算法需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效；C4.5算法只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。　　2.3 k-元最近邻居（K-Nearest Neighbor，KNN）算法　　k-元最近邻居算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。通过找出一个样本的k个最近邻居，将这些邻居的属性的平均值赋给该样本，就可以得到该样本的属性。KNN算法具有以下特点：　　①KNN算方法不依赖对基础数据的严格规定，并能适应任何情况。②KNN算法由于判定边界的任何特定子部分都依赖于少数输入点和它们的特定位置，因而是摆动和不稳定的，即它具有高方差和低偏倚。③当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数。　　2.4支持向量机（SVM-Support Vector Machine）算法　　支持向量机算法是Vapnik等人根据统计学习理论提出的一种新的机器学习方法，其思想是以机构风险最小化原则为理论基础，通过适当选择函数子集及该子集中的判定函数使学习机的实际风险达到最小，保证了通过有限训练样本得到的小误差分类器对独立测试集的测试误差仍然小。从算法本身及凸优化知识角度，可以得出该算法的下列特点：　　①分类器有支持向量唯一决定。②多数情况下，支持向量的数目远远小于训练集中的总样本数量，