- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
针对短文本数据自动分类方法比较研究
针对短文本数据自动分类方法比较研究
[摘 要]近年来,各种短文本数据已经源源不断地大量涌现,如文章摘要、电子邮件、网上即时消息等,虽然文本分类技术在一些领域已经得到了很好的研究应用,但针对这些长度比较短、结构各异的短文本数据的分类研究则比较少。实际上,为方便用户使用对它们进行分类研究应用已经非常必要。本文在现有研究基础上,对目前几种常用的文本分类算法进行了分析研究,依据实验数据,分析比较出SVM算法在对短文本数据分类时具有良好的分类性能,并提出改进意见,以供参考。
[关键词]短文本分类 K近邻 朴素贝叶斯 支持向量机
随着Internet 的广大普及和信息量的迅猛增长,越来越多的人们已经习惯Internet作为获取各种信息的主要来源,Web 数据挖掘技术就迅速成为信息检索领域的研究热点,文本分类作为web挖掘的一个重要技术得到了广泛的研究和应用。目前一些统计分类法和机器学习方法,如:向量空间模型、最近K邻居方法、决策树模型、朴素贝叶斯、支持向量机和神经网络等都被应用到文本分类中,且都取得了相当好的效果。这些方法虽然自动化程度高、性能稳定、适应性强,相对于人工文本分类更加高效,但在不同的领域应用,它们又都表现出不同的优劣性。本文对目前常用的几种文本分类方法做了一定的比较研究,并总结出它们各自不同的特点,在针对一些比较短的文本数据进行分类时,比较出效果较好的算法以供参考。
文本自动分类是一个有监督的学习过程。一般分为两步,第一步为训练阶段:通过分析一个已经被标注(即分好类)的训练文档数据集,利用分类算法找到文档特征和文档类别之间的关系模型,形成分类规则;第二步为分类阶段:利用学习得到的关系模式(分类规则)对新的文档进行类别判断,并用测试数据对该分类规则进行准确性评估,可以接受的话输出分类结果。从数学角度来看,文本分类其实是一个映射的过程,它将未标明类别的文本映射到已有的类别中,映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则,该映射可以是一一映射,也可以是一对多的映射。文本分类过程如图1所示:
图1:分类过程流程图
在文本分类过程中,其关键环节是提高文本表示中特征项的完整独立程度,和依靠有效的分类算法得到更高精确率和查全率的分类规则。
一、几种常用分类算法
(一)向量空间模型(VSM)
向量空间模型(Vector Space Model,简称VSM)是上世纪60年代由Gerard Salton提出的文本表示模型,也是文本分类领域最常用的文本表示模型。其基本思想是把文本D 看作向量空间中的一个n 维向量( D1 ,W( t1 ) , D2 ,W ( t2 ) ,… Dn ,W( tn ) ) ,其中t1 , t2 , ?, tn为表示该文本的n 个特征,W ( tk ) , k = 1 ,2 , …, n 是该文本对应第k 个特征的权重,一般取为词频的函数。对于中文文本来说,由于词是语义的最小单位,因此一般选择词作为特征。各维特征通常表示成词频TF ( tk ) 和反文档频率IDF ( tk ) 的函数,即有:
W( tik ) = TF ( tik ) ×IDF( tik ) 。其中TF ( tik ) 表示词tk 在第i 篇文档中出现的次数,而IDF( tik ) = log( N/DF ( tk ) ) , N 为文档集中的全部文档数,而DF( tk ) 表示出现词tk 的文档数。当文档以向量来表示时,可以使用文档向量间的距离来衡量文档间的相关度(Similarity:指两个文档内容相关程度的大小),一般使用内积或夹角θ的余弦来计算,两者夹角越小说明相似度越高。两个文本D1和D2之间的内容相关度Sim(D1,D2)公式为:
(1)
在文本信息检索领域里,人们用向量空间模型将文档和用户查询式转化为向量形式,对于所有文档和用户查询都映射到文本向量空间,用户查询和被检索文档两者的相似程度可用向量之间的夹角来度量。这种表示模型考虑到了文档的内容特征,而且文档之间的相似程度的度量比较简单,并且可以根据向量之间的相似程度对所有返回结果进行倒排索引,从而使用户得到一个清晰的检索结果。因此,向量空间模型较其它模型具有更多的优点。
(二)最近K邻居方法(k-NN)
最近k邻居(K-Nearest Neighbor,简称 K-NN)是一个基于向量空间模型的分类算法,属于一种消极的学习方法,该方法不需要建立模型,只需要逐个计算待分文本与测试文本的邻近性(相似性或距离),再由一个分类函数根据其邻近性返回新文本的预测类标号。算法基本思想是给定一待分类的新文档,系统在训练集中查找最相似的K 个文档(
原创力文档


文档评论(0)