基于互信息的微博新词发现算法.docVIP

下载本文档

7
0
约4.08千字
约 6页
2016-09-04 发布于北京
举报
版权申诉

基于互信息的微博新词发现算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于互信息的微博新词发现算法.doc

基于互信息的微博新词发现算法　　【摘要】微博是一种近些年来兴起的互联网媒体，每时每刻都会产生各种新生的网络词汇。对于新词发现算法中表现出的缺点，文中提出了一种基于互信息的微博新词发现算法，将互信息合并多字词的方式应用到微博新词的发现中，并且通过实验验证了本文算法对于微博新词发现的有效性。　　【关键词】微博；新词发现；互信息　　【Abstract】Micro-blog is a new kind of social network， a variety of nascent network vocabulary is produced at all times. In order to make up for these deficiencies in the previous new word detection algorithms， this paper presents a new word detection algorithm in micro-blog based on mutual information. In this algorithm， the mutual information with multiple word is applied to the micro-blog new word detection. The experiments show that this algorithm is more effective for micro-blog new word detection. 　　【Key words】Micro-blog； New word detection； Mutual Information 　　0 引言　　中文新词的识别在数据挖掘和情感分析方面是一个令许多人关注的领域，其对于帮助我们扩展现有的知识领域，提高中文信息的可靠性方面有着非常重要的作用。近些年来，微博是较为积极的互联网媒体，经常会产生一些全新的词汇，其不只有我们一般意义上的新词，也包括了各种经过音译等方式传入的外来词汇。所以，微博新词发现对于文本处理、倾向性分析等领域具有重要意义。　　本文对于微博上处理多个字词时存在的识别率过低的缺点，算法结合微博新词自身的特性，使用了一种基于互信息的新词发现算法，首先将N-Gram用于语料的预处理，然后利用互信息合并候选新词，进而更好地发现和识别那些全新的微博词汇。　　1 相关工作　　近年来，随着新词发现技术的不断深入，人们对于新词的研究主要集中在如下2个方面：基于语言学规则匹配的方法、基于纯统计学的方法。文献[1]通过对词语组成的分析，创建出相异的规则匹配库来发掘新词。Chen等[2]人通过把现代汉语的平均语料库作为训练数据，自动的来产生新词的匹配规则。秦浩伟等[3]人提出的方法中，其将语素生产率（MP）应用到新词的发掘中，在提高新词识别的效果上有了很大的改善。　　现代社会中，人们在微博中使用的词汇有着非常大的随意性，时时刻刻都会出现一些不同于传统词汇构成的新型词汇，这些新词的组成无规律可循，而对于目前的新词发现规则来说，并不适用于这些网络新词。因为当前对于新词的发现研究一般都是使用的比较传统的文本分析方式，而对于这种新兴的网络词汇来说，这些现有的方式并不适用，对于微博词汇领域的特殊性，传统的方法也没有进行考虑，进而对于微博新词的发现造成了不少的困难。　　2 基于互信息的微博新词法发现　　2.1 互信息　　互信息（Mutual Information，MI）是一种统计信息的方式，其主要是对两个随机变量相互之间的关联程度的评价。在文本语言的分析处理上，互信息指的就是用来分析在两个语素之中相互间存在的关联性的大小。其公式表述如下：　　公式（1）中， p（x）代表的是变量x的概率，p（y）代表的为变量y的概率，p（x，y）为两个变量的共现概率。当两个词汇的I（x，y）0，那么说明二者有着较强的关联性，I（x，y）越大，关联性也就越强；当I（x，y）=0时，那么说明二者之间的共现是偶然的；而当I（x，y）0时，表示二者之间没有关联性。　　2.2 基于互信息的微博新词发现算法　　本文提出的算法，首先是通过bigram来对语料进行处理，并且对其出现在语料中的频率进行相关的统计，与此同时对相邻gram的分布情况进行统计，通过这种方式来组建预选新词表。之后，对这个新表进行相关的统计分析，同时利用互信息的方法来统计相邻gram的相关性，如果得到的结果大于所设置的阈值，并且没有在以前的词典中出现过，那就为微博新词。　　具体流程如下：　　（1）预处理。主要是对语料中的垃圾字符进行过滤和处理，去掉对构词有干扰的网址、用户