针对短文本数据自动分类方法比较研究.docVIP

下载本文档

28
0
约6.32千字
约 15页
2018-09-22 发布于福建
举报
版权申诉

针对短文本数据自动分类方法比较研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

针对短文本数据自动分类方法比较研究

针对短文本数据自动分类方法比较研究　　[摘要]近年来，各种短文本数据已经源源不断地大量涌现，如文章摘要、电子邮件、网上即时消息等，虽然文本分类技术在一些领域已经得到了很好的研究应用，但针对这些长度比较短、结构各异的短文本数据的分类研究则比较少。实际上，为方便用户使用对它们进行分类研究应用已经非常必要。本文在现有研究基础上，对目前几种常用的文本分类算法进行了分析研究，依据实验数据，分析比较出SVM算法在对短文本数据分类时具有良好的分类性能，并提出改进意见，以供参考。　　[关键词]短文本分类 K近邻朴素贝叶斯支持向量机　　　　随着Internet 的广大普及和信息量的迅猛增长，越来越多的人们已经习惯Internet作为获取各种信息的主要来源，Web 数据挖掘技术就迅速成为信息检索领域的研究热点，文本分类作为web挖掘的一个重要技术得到了广泛的研究和应用。目前一些统计分类法和机器学习方法，如：向量空间模型、最近K邻居方法、决策树模型、朴素贝叶斯、支持向量机和神经网络等都被应用到文本分类中，且都取得了相当好的效果。这些方法虽然自动化程度高、性能稳定、适应性强，相对于人工文本分类更加高效，但在不同的领域应用，它们又都表现出不同的优劣性。本文对目前常用的几种文本分类方法做了一定的比较研究，并总结出它们各自不同的特点，在针对一些比较短的文本数据进行分类时，比较出效果较好的算法以供参考。　　文本自动分类是一个有监督的学习过程。一般分为两步，第一步为训练阶段：通过分析一个已经被标注(即分好类)的训练文档数据集，利用分类算法找到文档特征和文档类别之间的关系模型，形成分类规则；第二步为分类阶段：利用学习得到的关系模式（分类规则）对新的文档进行类别判断，并用测试数据对该分类规则进行准确性评估，可以接受的话输出分类结果。从数学角度来看，文本分类其实是一个映射的过程，它将未标明类别的文本映射到已有的类别中，映射规则是系统根据已经掌握的每类若干样本的数据信息，总结出分类的规律性而建立的判别公式和判别规则，该映射可以是一一映射，也可以是一对多的映射。文本分类过程如图1所示：　　　　图1：分类过程流程图　　在文本分类过程中，其关键环节是提高文本表示中特征项的完整独立程度，和依靠有效的分类算法得到更高精确率和查全率的分类规则。　　　　一、几种常用分类算法　　（一）向量空间模型（VSM）　　向量空间模型（Vector Space Model，简称VSM）是上世纪60年代由Gerard Salton提出的文本表示模型，也是文本分类领域最常用的文本表示模型。其基本思想是把文本D 看作向量空间中的一个n 维向量( D1 ,W( t1 ) , D2 ,W ( t2 ) ,… Dn ,W( tn ) ) ,其中t1 , t2 , ?, tn为表示该文本的n 个特征,W ( tk ) , k = 1 ,2 , …, n 是该文本对应第k 个特征的权重,一般取为词频的函数。对于中文文本来说,由于词是语义的最小单位,因此一般选择词作为特征。各维特征通常表示成词频TF ( tk ) 和反文档频率IDF ( tk ) 的函数,即有：　　W( tik ) = TF ( tik ) ×IDF( tik ) 。其中TF ( tik ) 表示词tk 在第i 篇文档中出现的次数,而IDF( tik ) = log( N/DF ( tk ) ) , N 为文档集中的全部文档数,而DF( tk ) 表示出现词tk 的文档数。当文档以向量来表示时，可以使用文档向量间的距离来衡量文档间的相关度（Similarity：指两个文档内容相关程度的大小），一般使用内积或夹角θ的余弦来计算，两者夹角越小说明相似度越高。两个文本D1和D2之间的内容相关度Sim(D1，D2)公式为：　　（1）　　在文本信息检索领域里，人们用向量空间模型将文档和用户查询式转化为向量形式，对于所有文档和用户查询都映射到文本向量空间，用户查询和被检索文档两者的相似程度可用向量之间的夹角来度量。这种表示模型考虑到了文档的内容特征，而且文档之间的相似程度的度量比较简单，并且可以根据向量之间的相似程度对所有返回结果进行倒排索引，从而使用户得到一个清晰的检索结果。因此，向量空间模型较其它模型具有更多的优点。　　（二）最近K邻居方法（k-NN）　　最近k邻居（K-Nearest Neighbor，简称 K-NN）是一个基于向量空间模型的分类算法，属于一种消极的学习方法，该方法不需要建立模型，只需要逐个计算待分文本与测试文本的邻近性（相似性或距离），再由一个分类函数根据其邻近性返回新文本的预测类标号。算法基本思想是给定一待分类的新文档，系统在训练集中查找最相似的K 个文档（