关于个人微博线索词个性化提取算法的研究.doc

下载文档

2
0
约9.54千字
约 7页
2016-07-21 发布于浙江
举报
版权申诉
保障服务

关于个人微博线索词个性化提取算法的研究.doc

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于个人微博线索词个性化提取算法的研究高永兵, 周环宇, 聂知秘（内蒙古科技大学信息工程学院，内蒙古包头 014010）摘要：在分析常规文本关键字提取以及TF-IDF相似度算法的基础上，结合个人微博的非主流文本特征，提出了一种个人微博线索词个性化提取算法 (Personal weibo clue word personalized extraction algorithm ，WWPE)。算法主要分为三部分：第一引进了由微博转帖、评论和赞数组成的流行度概念；第二对耦合、时序和流行度三个因素进行串行相似度计算，解决了相似度浑浊和相似度漂移问题；第三改进了传统的TF-IDF函数，解决了相同关键字在不同文本中的特征值离散问题。实验结果证明该算法具有很高的抽准率。关键词：个性化提取；串行相似度；TF-IDF；中图分类号：TP392 文献标识码：A 文章编号： Clues about personal weibo word personalized extraction algorithm research GAO Yong-bing, ZHOU Huan-yu, NIE Zhi-mi (School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China) Abstract: Based on the analysis of conventional text keyword extraction and TF - IDF similarity algorithm, on the basis of combination of Personal weibo non-mainstream text characteristic, this paper proposes a personalized Personal weibo clue word extraction algorithm (Personal weibo clue word personalized extraction algorithm, WWPE). Algorithm mainly divides into three parts: the first introduced by weibo repost, comments and praise for the popularity of concepts; A second pair of coupling, timing and popularity for serial similarity calculation, three factors drift problem solved the similarity of turbidity and similarity; The third improved the traditional TF - IDF function to solve the same keywords in the different characteristic values in the text, the discrete problem. The experimental results show that this algorithm has high precision. Keywords: Personalized extract ; Serial similarity; TF - IDF; 1 引言微博是近年来新兴起的，且发展迅速的新闻媒体。用户可以随时随地使用电脑或移动客户端发布状态。新浪微博是目前注册人数最多，国内流行度最广的微博网站。微博数据是一种实时性较强的短文本，与常规文本相比，具有文本缺失性、不规则性和多样性等特点。本文以短文本数据挖掘为研究背景，展开了从短文本预处理到短文本相似性度量，再到特征值的计算等一系列研究。如何从海量的个人微博数据中精准地检测出用户所关注或经历的微博事件，生成便于用户浏览和回忆的摘要形式，进而发现一些有价值的信息，是当前信息抽取技术首要解决的问题。本次实验结果就可以作为个人微博事件检测、自动摘要生成以及文本检索的线索词（clue word）。主题词抽取一直是国内外研究的热点，传统方法通常是基于向量空间模型（Vector space model）VSM，它的处理对象是大规模数据集，一般以文档中分词的频率来计算特征值。本文在发挥向量空间模型易处理优势的基础上，结合个人微博的非主流特征，扩展了文本的表示方法，解决了文本的相似度浑浊、相似