- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第22卷第10期 计算机应用与软件 Vol.22, No.10
2005年10月 Computer Applications and Software Oct. 2005
计算机应用与软件
Computer Applications and Software
第 卷第 期 计算机应用与软件 Vol. No.
2005年1月 Computer Applications and Software Jan. 2005
PWSWE:个人微博主题词提取算法的研究
高永兵 周环宇 聂知秘 胡文江
(内蒙古科技大学信息工程学院 内蒙古 包头 014010)
在分析传统短文本主题词提取算法的基础上,综合考虑个人微博的非主流文本特征,提出一种个人微博主题词提取算法 (Personal weibo subject word extraction algorithm ,PWSWE)。该算法采用增量式的提取模式,首先引进由微博转帖、评论和赞数组成的流行度概念;其次对耦合、时序和流行度进行串行相似度计算;再次针对关键词特征值离散现象,对传统TF-IDF函数进行改进;最后综合以上提取结果并进行相应地处理得到最终的主题词。实验结果证明该算法提取的主题词具有较高的准确率和覆盖率。
个人微博 主题词 PWSWE
中图分类号 TP392 文献标识码 A DOI:
PWSWE: PERSONAL WEIBO SUBJECT WORD EXTRACTION ALGORITHM RESEARCH
Gao Yongbing Zhou Huanyu Nie Zhimi Hu Wenjiang
(School of Information Engineering, Inner Mongolia University of Science and Technology, Baotou 014010, Inner Mongolia,China)
Based on the analysis of the traditional algorithm in short-text thematic words extraction ,the paper put forward a new personal weibo subject word extraction algorithm that involves non-mainstream text characteristics in personal weibo and runs in an incremental extraction pattern, firstly the concept of the popularity is introduced by forwards as well as comments and praises in weibo. Then we work out the serial similarity by calculating the coupling, timing and popularity .After that we improve the traditional TF - IDF function from the phenomenon of keywords Eigen value discrete .Finally we process and get the clue words on the fundament of the extraction results above .It shows that this algorithm has higher accuracy and coverage in subject word extraction .
Personal weibo Subject word PWSWE
PAGE 4 计算机应用与软件
高永兵等:PWSWE:个人微博主题词提取算法的研究 PAGE 5
引 言
微博即微博客(MicroBlog)的简称,是近年来新兴起的,且发展迅速的新闻媒体。用户可以随时随地通过WEB、移动客户端等途径实现状态更新和信息分享。新浪是目前注册人数最多,国内流行度最广的微博网站。
与常规文本相比,微博数据具有不规则性、海量性和实时性等特点。所以如何从大量的、不规则的个人微博数据中精确地提取出用户在某段时间内所关注或经历的事件
您可能关注的文档
- 《PWSWE:个人微博主题词提取算法的研究》.doc
- 《PWSWE-个人微博主题词提取算法的研究》.doc
- 《Scheduling FMS based hybrid Petri net framework》.ppt
- 《基于个人微博特征的Timeline生成研究》.ppt
- 《基于个人微博主题词提取 》.ppt
- 《智能工厂安全应急模块设计》.ppt
- 2Petri网定义与两种时间添加策略.docx
- 3D应急培训系统调研提纲.docx
- A2O厌氧反硝化聚磷菌的筛选鉴定、生物学及利用.doc
- FORMAT DESCRIPTION OF COMPUTER APPLICATIONS AND SOFTWARE[英文题目].doc
- 2024-2030年中国铷铯及其化合物行业风险趋势分析与投资战略研究报告.docx
- 2024-2030年中国风险投资行业市场发展现状及发展趋势与投资战略研究报告.docx
- 2024-2030年中国饮品用风味糖浆行业营销前景及销售渠道策略报告.docx
- 2024-2030年中国集装箱筛分行业市场现状供需分析及市场深度研究发展前景及规划战略投资分析研究报告.docx
- 2024-2030年中国预绝缘管道切割机行业现状动态与盈利前景预测报告.docx
- 2024-2030年中国铁皮石斛行业市场深度分析及竞争格局与投资研究报告.docx
- 2024-2030年中国铅屏蔽生物安全柜行业经营策略与发展趋势预测报告.docx
- 2024-2030年中国钓鱼船行业市场发展现状及发展趋势与投资前景研究报告.docx
- 2024-2030年中国铸铁旋启式止回阀境外融资报告.docx
- 2024-2030年中国高端数控机床行业应用态势与需求前景预测报告.docx
文档评论(0)