基于机器学习的文本分类方法 .doc

下载文档 降价啦

69
0
约1.79万字
约 7页
2015-08-19 发布于河南
举报
版权申诉
保障服务

基于机器学习的文本分类方法 .doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于机器学习的文本分类方法 .doc

程伟基于机器学习算法的文本分类方法综述摘要：文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。 1. 引言随着计算机技术、数据库技术，网络技术的飞速发展，Internet的广泛应用，信息交换越来越方便，各个领域都不断产生海量数据，使得互联网数据及资源呈现海量特征，尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识，方便人们的查阅和应用，已经成为一个日趋重要的问题。因此，基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization，TC)技术是信息检索和文本挖掘的重要基础技术，其作用是根据文本的某些特征，在预先给定的类别标记(label)集合下，根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的，在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统，但该系统的开发工作量达到了10个人年，当需要进行信息更新时，维护非常困难。因此，知识工程方法已不适用于日益复杂的海量数据文本分类系统需求 [1]。20世纪90年代以来，机器学习的分类算法有了日新月异的发展，很多分类器模型逐步被应用到文本分类之中，比如支持向量机(SVM，Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法，更注重分类器的模型自动挖掘和生成及动态优化能力，在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破，取得了很好的分类效果。 2．文本自动分类概述文本自动分类可简单定义为：给定分类体系后，根据文本内容自动确定文本关联的类别。从数学角度来看，文本分类是一个映射过程，该映射可以是一一映射，也可以是一对多映射过程。文本分类的映射规则是，系统根据已知类别中若干样本的数据信息总结出分类的规律性，建立类别判别公式或判别规则。当遇到新文本时，根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器，从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤，其中文本表达和特征选取是文本分类的基础技术，而分类器的选择与训练则是文本自动分类技术的重点，基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。程伟图 1 文本自动分类一般流程[8] 2.1 文本表述至今，计算机还不能像人类那样阅读完文章之后，根据自身的理解能力对文章的内容产生一定的认识。要使计算机能够高效率、高性能地处理自然文本，就需要有一个文本表示的过程，文本表示是将非结构化的文 2所示是向量空间模型。向量空间模型已经在信息检索、文本分类等应用中取得了成功。除VSM外，还有基于概率分布、基于二维视图等模型。这些非VSM的表示方法需要通过理论以及应用实践上的进一步验证。 21,w22,…,w2n) tj 图 2 向量空间模型程伟 2.2 特征提取特征提取是在初始全特征集基础上提取出一个特征子集的过程，能够起到降低向量空间维数、简化计算、防止过拟合作用。首先根据特征提取算法对特征的重要性进行评估，然后进行重要度排序，最后根据提取阈值或提取比率完成提取。提取后的特征集将用于之后的训练和分类过程。常用特征提取算法有文档频数(Document Frequency)、信息增益(information Gain)、期望交叉熵(expected cross entropy)、互信息(Mutual Information)、χ2统计等。 3．基于机器学习的文本分类方法 3.1 基于朴素贝叶斯法的文本分类朴素贝叶斯方法是最早用于文本分类的分类器算法，是一种统计学分类方法，它基于贝叶斯决策论并且基于此项独立的假设，几不同属性对分类结果的影响是独立的。假设d为待分类文档的表示向量，它属于文档类别集合C={c1,c2,c3,…,cn}中某一类。根据贝叶斯公式有： n P d = P cj P(d|cj) j=1 P cj|d =P cj P(d|cj)P(d)…,n 其中P cj 表示类别cj在样本集中的比重，P(d|cj)由概率密度函数计算得出。分类时，P cj|d 值最大情况对应的类别cmax为待分类文档类别。基于上述假设的概率分类器一般称为贝叶斯分类器。贝叶斯分类器容易理解，计算简单而且比较实用，其分类效果基本能满足要求，但