- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于个人微博线索词个性化提取算法的研究-计算机应用研究
关于个人微博线索词个性化提取算法的研究
高永兵, 周环宇, 聂知秘,郭文彦
(内蒙古科技大学 信息工程学院,内蒙古 包头 014010)
摘 要:在分析常规文本关键字提取以及TF-IDF相似度算法的基础上,结合个人微博的非主流文本特征,提出了一种个人微博线索词个性化提取算法 (Personal weibo clue word personalized extraction algorithm ,WWPE)。算法主要分为三部分:第一引进了由微博转帖、评论和赞数组成的流行度概念;第二对耦合、时序和流行度三个因素进行串行相似度计算,解决了相似度浑浊和相似度漂移问题;第三改进了传统的TF-IDF函数,解决了相同关键字在不同文本中的特征值离散问题。实验结果证明该算法具有很高的抽准率。
关键词:个性化提取;串行相似度;TF-IDF;
中图分类号:TP392 文献标识码:AClues about personal weibo word personalized extraction algorithm research
GAO Yong-bing, ZHOU Huan-yu, NIE Zhi-mi,Guo Wen-yan
(School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, China)
Abstract: Based on the analysis of conventional text keyword extraction and TF - IDF similarity algorithm, on the basis of combination of Personal weibo non-mainstream text characteristic, this paper proposes a personalized Personal weibo clue word extraction algorithm (Personal weibo clue word personalized extraction algorithm, WWPE). Algorithm mainly divides into three parts: the first introduced by weibo repost, comments and praise for the popularity of concepts; A second pair of coupling, timing and popularity for serial similarity calculation, three factors drift problem solved the similarity of turbidity and similarity; The third improved the traditional TF - IDF function to solve the same keywords in the different characteristic values in the text, the discrete problem. The experimental results show that this algorithm has high precision.
Keywords: Personalized extract ; Serial similarity; TF - IDF;
1 引言
微博是近年来新兴起的,且发展迅速的新闻媒体。用户可以随时随地使用电脑或移动客户端发布状态。新浪微博是目前注册人数最多,国内流行度最广的微博网站。
微博数据是一种实时性较强的短文本,与常规文本相比,具有文本缺失性、不规则性和多样性等特点。本文以短文本数据挖掘为研究背景,展开了从短文本预处理到短文本相似性度量,再到特征值的计算等一系列研究。如何从海量的个人微博数据中精准地检测出用户所关注或经历的微博事件,生成便于用户浏览和回忆的摘要形式,进而发现一些有价值的信息,是当前信息抽取技术首要解决的问题。本次实验结果可以作为个人微博事件检测、自动摘要生成。法通常是基于向量空间模型(Vector space model)(Personal weibo clue word personalized extraction algorithm ,WWPE);
Turney[1]设计的Extractor系统是利用机器学习方法和遗传算法实现主题词的自动抽取;Witten[2]采取朴素贝叶斯技术分析其
您可能关注的文档
- 任务2:为DHCP客户端配置NAP强制.doc
- 任务2:创建DFS命名空间.doc
- 任务2:创建与管理计算机账户.ppt
- 任务2:创建和配置GPO.doc
- 任务2:安装RODC只读域控制器.doc
- 任务2:配置DHCP作用域和作用域选项.doc
- 任务2:配置DNS区域.doc
- 任务2:配置客户端IP地址.doc
- 任务3:使用组策略配置用户环境.ppt
- 任务3:创建与管理组织单位.ppt
- 4.4 20以内数的数序、组成与分解 课件 课件 2024西师大版数学一年级上册.pptx
- Unit9 Section B(2a~2e)核心素养目标教学设计 人教版九年级英语全册Unit9 I like music that I can dance to..doc
- Unit8 it must belong to Carla.【新课标核心素养大单元教学设计】人教新目标九全.doc
- Section B(3a~Self Check) Unit 3 Could you please clean your room【核心素养教学设计】人教新目标八下.doc
- Unit 9 Have you ever been to a museum Section B(1a~1d) 核心素养教学设计人教版英语八年级下册.doc
- Section A(1a~2d) Unit 1 What's the matter【核心素养教学设计】人教新目标八下.doc
- 练习十 课件 课件 2024西师大版数学一年级上册.pptx
- Section B(2a~2e) Unit 5 What were you doing when the rainstorm came 【核心素养教学设计】人教新目标八下.doc
- Unit1 How can we become good learners【新课标核心素养大单元教学设计】人教新目标九全.doc
- Unit5 What are the shirts made of【新课标核心素养大单元教学设计】人教新目标九全.doc
文档评论(0)