基于SVM和特征相关性微博新词发现研究.docVIP

下载本文档

36
0
约4.38千字
约 9页
2018-08-28 发布于福建
举报
版权申诉

基于SVM和特征相关性微博新词发现研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SVM和特征相关性微博新词发现研究

基于SVM和特征相关性微博新词发现研究　　摘要：为了对微博语料中的新词进行有效的识别，针对微博语料独有的文本特性，该文提出基于SVM和特征相关性的微博新词发现方法。采用N元递增模型得到候选词集合以及每个候选词的基础特征向量，并结合已有的词典和部分人工标注进行正负样本的标注。通过相关性分析构造新的候选词特征，并构造新的特征向量。然后利用SVM模型训练得到最大间隔分离超平面并对测试集中的语料进行新词判定。通过对比实验验证了该方法的有效性。　　关键词：自然语言处理；新词识别；支持向量机　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2018）02-0174-03 　　1 概述　　由于微博用户的广泛性和多层次性的特点，许多的新词[1]会被不断的创造出来，这些新词不存在已有的词典中，在中文分词等其他的自然语言处理任务中会造成一定的影响。在新词发现领域，常用的方法分为以下三种：基于规则的方法，基于统计的方法以及规则和统计相互融合的方法[2]。　　在基于规则的方法中，利用构词原理，结合词的语义等信息构造模板，通过将候选词匹配模板来发现新词。如李明等[3]利用改进后的Apriori算法对实验数据进行处理并生成关联规则，然后利用关联规则抽取新的专业词汇，达到了很好的效果。　　基于统计的方法[4]则是通过不同的方法对语料进行切分，得到候选词，然后统计候选词的多种维度的特征，然后基于相关的阀值对候选词进行筛选，得出新词。陈飞等[7]人利用条件随机场模型，解决面向开放领域的新词发现问题。现在大多数的研究者采用将二者结合的方法，发挥各自的优点，从而提高新词发现的准确率。　　2 相关工作　　2.1 候选词的选取　　传统的新词发现算法往往首先利用相关的中文分词工具对语料进行分词，然后对分词后的散串进行统计分析，从其中挖掘出新词。但是由于微博构词的新颖性、无规则性等特点，有些新词是之前存在的词的对应组合，比如“王者农药”，使用分词工具进行分词的时候会被分成“王者”和“农药”两个毫无联系的词语，但是这个词实际上是在微博里流行度很广的词。为了避免这种问题，本文不使用现有的分词工具对语料进行分词。　　本文采用的抽取候选词的方法是常用的N元递增模型，崔世起通过对大量的语料进行研究分析，发现新词主要由二到四个汉字组成，所以本文取N的最大值为4，从候选的语料中抽取长度不超过N的连续字串作为候选词串。　　2.2 候选词特征选取与计算　　本文选取的新词特征有：　　1）互信息（PMI）：Pecina等[13]人的实验结果表明PMI能够很好的衡量字符串之间的结合程度，本文选取PMI作为候选词的一个特征。　　2）词频（TF）：在判断一个词是否是新词时，词频也是需要考虑的一个量。一个词只有在出现达到一定的次数后，它才有可能被称为新词，所以词频也是要考虑的一个特征。　　3）邻接信息熵（BE）：PMI衡量的是词语内部之间的相关性，即结合的紧密性，其中邻接信息熵又分为左邻接信息熵（LBE）和右邻接熵（RBE）两种。　　4）邻接类别（AV）：本文不仅考虑了邻接信息熵，而且还考虑了候选词的邻接类别，其中邻接类别又分为左领接类别（LAV）和右邻接类别（RAV）。　　除了以上的所说的特征，候选词的长度（TL）即包含的字的个数也是一个基本特征。　　2.3 语料预处理　　1）实验数据：　　通过爬虫爬取新浪微博2017年5月份的10万条热门微博，这些微博涉及不同的版块，包括社会、科技、教育等，本文不做细粒度的划分。　　2）数据清洗及候选词提取：　　相比于常规的中文文本语料，微博预料的文本内容极其的杂乱无章。除了正常的中文内容外，还有大量的不相关的干扰项，如表情符号等。　　3）正负样本标注：　　当获取候选词后，需要对这些词进行标注，判定新词与非新词。然后对标注的结果进行训练集和测试集的划分。　　3 实验结果　　3.1 评价指标　　对于新词发现，一般采用准确率、召回率、F1值3个指标来衡量最终的结果。　　3.2 特征相关性分析及特征组合的选取　　首先针对提取出来9个单独特征，分析其在新词识别中与类别的相关性，然后分析两两特征之间的相关性，选取的是Pearson相关系数。图2展示的是各个单独特征与类别的相关性，表1则展示的是各个特征之间的相关性。　　从图1中可以看出，互信息与是否是新词的相关性最大，其次就是词频。　　从表1中可以看到，各基础特征之间的相关性大小有很大的差异。　　首先基于以上的基础特征，比较在不同的核函数下的分类效果，同时比效基于多种阀值过滤规则的效果。结果如图2所示。通过调整不同特征下的阀值，得出基于规则的最好成绩，准确率