关于个人微博线索词个性化提取算法的研究-微电子.doc

下载文档

2
0
约9.08千字
约 7页
2016-07-21 发布于浙江
举报
版权申诉
保障服务

关于个人微博线索词个性化提取算法的研究-微电子.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于个人微博线索词个性化提取算法的研究高永兵, 周环宇, 聂知秘，郭文彦（内蒙古科技大学信息工程学院，内蒙古包头 014010）摘要：在分析传统短文本主题词提取算法的基础上，综合考虑个人微博的非主流文本特征，提出一种个人微博线索词个性化提取算法 (Personal weibo clue word personalized extraction algorithm ，WWPE)。该算法采用了增量式提取线索词的模式：首先引进由微博转帖、评论和赞数组成的流行度概念；其次对耦合、时序和流行度进行串行相似度计算；再次针对关键词特征值离散现象，对传统TF-IDF函数进行改进；最后综合以上提取结果并进行相应地处理得到最终的线索词。实验结果证明该算法提取的线索词具有较高的准确率和覆盖率。关键词：个性化提取；串行相似度；TF-IDF；中图分类号：TP392 文献标识码：A 文章编号： Clues about personal weibo word personalized extraction algorithm research GAO Yong-bing, ZHOU Huan-yu, NIE Zhi-mi,GUO Wen-yan (School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China) Abstract: On the analysis of the traditional essay benzhu inscription extraction algorithm, on the basis of comprehensive consideration of Personal weibo non-mainstream text characteristic, put forward a kind of personalized Personal weibo clue word extraction algorithm (Personal weibo clue word personalized extraction algorithm, WWPE). The algorithm adopts the incremental retrieval cue word pattern: first introduced by weibo repost, comments and praise for the popularity of concepts; Secondly the coupling, timing and popularity for serial similarity calculation; Again according to the characteristics of the keyword value discrete phenomenon, to improve the traditional TF - IDF function; Finally integrated the above extraction result and get the final accordingly dealing with personal weibo clues. Experimental results show that this algorithm to extract the cue word has higher accuracy and coverage. Keywords: Personalized extract ; Serial similarity; TF - IDF; 1 引言微博是近年来新兴起的，且发展迅速的新闻媒体。用户可以随时随地使用电脑或移动客户端发布状态。新浪微博是目前注册人数最多，国内流行度最广的微博网站。与常规文本相比，微博数据具有不规则性、海量性和实时性等特点。所以如何从大量的、不规则的个人微博数据中精确地提炼出用户在某段时间内所关注或经历的事件，从而自动生成事件摘要形式，是当前个人微博信息抽取技术首要解决的问题。本文以短文本数据挖掘为研究背景，以个人微博信息为实验数据集，展开了从短文本预处理到相似性度量，再到特征值计算等一系列研究提取线索词。在未来的工作中可以将其作为个人微博的公共或私人事件检测、生成自动摘要的主要依据。传统的主题词抽取方法是基于向量空间模型（Vector space model）VSM，并以统计词频的方式计算分词特征值，它的处理对象主要是大规模数据集。本