新短文本特征权重计算方法.docVIP

下载本文档

6
0
约3.95千字
约 7页
2017-11-08 发布于福建
举报
版权申诉

新短文本特征权重计算方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

新短文本特征权重计算方法

新短文本特征权重计算方法　　摘要：短文本固有的特征稀疏和样本高度不均衡等特点，使得传统长文本的加权方法难以直接套用。针对此问题，提出一种针对短文本的特征权重计算方法——综合类别法。该方法引入反文档频和相关性频率的概念，综合考虑了样本在正类和负类中的分布情况。实验结果表明，相对于其他特征权重方法，该方法的微平均和宏平均值均在90%以上，能增强样本在负类中的类别区分能力，改善短文本分类的查准率和查全率。关键词：短文本；特征权重；不均衡样本；文本分类中图分类号： TP311 文献标志码：A 0 引言最近几年，随着即时通信技术的发展和互联网应用的普及，QQ聊天、BBS、微博、新闻评论等短文本数据呈现指数级增长，并已成为一种重要的信息传播方式。大量短文本的出现有利也有弊：一方面，短文本分类在问答社区、广告分类等应用中有着重要的商业价值和应用背景；另一方面，它也是网络不良信息如恶性舆情传播和垃圾信息等的重要载体。因此，针对这些短文本的分类、聚类、话题发现与跟踪已成为数据挖掘和信息安全领域的一个重点[1]，正逐步受到人们的关注。短文本一般只有100个字左右，长度短、噪声数据多，所包含的有用信息非常少，造成可供抽取的信息匮乏，因而对相关研究提出了更高的要求。虽然现有文本分类领域已取得较大成功，却难以在短文本上直接引用[2]。另外，短文本分类同样面临着文本分类领域的两大难题：向量维度高和特征稀疏。迄今为止，提高短文本分类性能的方法主要分为两种：一种是利用外部数据源或知识库（如WordNet、Wikipedia等）对短文本中的词进行特征扩展[3-4]，该方法简单直观，解决了特征词稀疏的问题，并能取得较好的效果，但分类准确率有待提高；另一种是从分类算法[5]入手，通过改进算法提高分类器的性能来改善分类准确率（Precision）和召回率（Recall），但从短文本的特征权重计算的角度出发来解决这个问题的相关文献较少。王细薇等[6]基于特征的共现关系，将改进的短文本特征权重公式和特征扩展算法相结合，来提高短文本的分类精度。文献[7]采用的是另一种思路：先用隐含语义分析对短文本进行降维和去噪，然后用独立成分分析的方法从中抽取最具表现力的特征。这些都是通过与其他方法结合使用来改善短文本分类的效果，不能说明单独使用特征提取方法的有效性。 1 文本的特征权重为了将文本转换为计算机可以理解的形式，需要将文本表示成向量，以便分析和计算。向量化是文本处理的基础，即为文本中的词赋予一定权重，表示一个词对表征文本意思的重要程度，权重越大，则该词对文本的表征意义越大。只有文档向量很好地保留了原有的文档信息，文本的分类、聚类才可能有令人满意的结果。信息检索领域的词条权重方法主要分为两类[8]：一类是无监督的tf（term frequency）、tfidf（term frequencyinverse document frequency）方法，即不考虑词条的类别信息；另一类是有监督的方法，如tfχ2（tfchisquare）、tfig（tfinformation gain）、tfgr（tfgain ratio）等[9]。无监督词条权重计算主要借鉴特征选择方法，因为在特征选择的同时，词条也被赋予不同的值来衡量其对文本分类的贡献程度。但这些特征权重计算方法主要是针对长文本的，并不能直接适用于短文本。这是由于短文本的一个突出特点是样本分布高度不均衡，即数据集中某些类的样本数远大于其他类，导致小类别文本被淹没在大量其他类别的文档中而难以识别。但在待处理的海量文本数据中，有时系统真正关心的只是一小部分，例如，在网络舆情分析和热门敏感话题发现与跟踪问题中，有价值的数据在现实环境中占的比例很小。称样本少的类为正类，样本多的类为负类。然而现有的特征权重方法对所有类别都是“平等”看待，实际上，将传统针对长文本的特征权重方法用于短文本时，文本分类的结果更倾向于负类而忽视正类[10]，这个问题在短文本分类中表现尤为明显，导致短文本分类的准确率和查全率不高，不能满足实际应用。 2 综合类别特征选择方法本文将短文本数据集中的当前类视为“正类”（Positive Category，PC），除当前类以外的其他类称为“负类”（Negative Category，NC）。相关元素信息如表1。 3.3 实验结果及分析考虑到在实际应用中，正类文本所占比例往往很小，为了比较负类文本数据规模对不同特征权重方法的影响，初始取正、负类微博文本各50个，再逐步增加负类文本的个数，直至总文本数达到3700。图1描述了在KNN分类器下，6种不同特征权重计算方法的MicroF1和MacroF1值。