- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于标签微博关键词抽取排序方法
基于标签微博关键词抽取排序方法
摘要:针对微博关键词抽取准确率不高的问题,提出一种基于标签优先的抽取排序方法。该方法利用微博本身具有的社交特征――标签,从微博内容集中抽取关键词。该方法首先根据微博自身建立初始词与微博之间的加权图,再将基于标签的随机游走方法应用于图中,随机游走反复跳跃到标签词节点上,经过一系列迭代得出每个词的平稳概率,并通过概率决定词的最终排序。该抽取方法根据真实的新浪微博内容进行测验,结果显示,与通过词与词的加权图来抽取关键词相比,基于标签的微博关键词抽取方法准确率提高了50%,在实际应用中能够有效提高关键词抽取的正确率。
关键词:关键词抽取;微博;标签;随机游走;加权策略
中图分类号: TP181
文献标志码:A
Abstract:A hashtag based method was proposed to solve the problem how to accurately extract keywords from microblog. Hashtag, the social feature of a microblog was used to extract keywords from microblog content. A wordpost weighted graph was built firstly, then a random walker was used on the graph by jumping to any hashtag node repeatedly. At last, every word rank was determined by its probability which would not change after walker iteration. The experiments were conducted on real microblogs from Sina platform. The results show that, compared to wordword graph method, the proposed hashtagbased approach gets higher accuracy of keyword extraction by 50%.
Key words:keyword extraction; microblog; hashtag; random walk; weighting strategy
0 引言
近几年,微博作为一种新的社交媒体,已经引起众多研究人员的兴趣[1]。与报纸、电视这些传统的媒体相比,微博拥有许多显著特征,如信息资源丰富、传播速度快、影响范围广、实时性以及用户之间互动性强,因此,针对热门话题形成讨论组显得十分容易。每天有成千上万的博文在微博平台上发表,对用户而言,理解微博内容显得尤为重要。出于这种目的,各种各样的研究都在进行,如:标签推荐[2]、关键词或关键词的抽取[3]、主题分析[4]、垃圾邮件发送者检测[5]、微博检索[6]等。但目前的研究仍处于早期阶段,人们对微博内容的了解仍然很有限。对于上述提及的任务,关键词抽取是一项基础工作,并且以展现微博或者微博集合的核心内容为目标。因此,关键词抽取已经成为一项越来越重要、越来越急迫的研究主题。
图的排序方法经常被应用于微博中,与传统的长文件相比,从微博中抽取关键词主要在两个方面显得很有挑战性。第一,微博的长度很精短,从传统的文件中抽取关键词需要过滤掉长文本中一些不重要的词,但微博本身并没有足够的关键词。微博用户习惯在一段时间内发表一些和主题相关的帖子,虽然单条微博可能无法包含足够多的关键候选词,但用户可以搜集众多与主题相关的微博来弥补这点不足之处。在单个文件中,传统的词与词图无法塑造出微博之间的关系,也无法用其他的微博来增强关键词的抽取。另一种是社交特征标签支配微博的主要话题分布。对于众多微博而言,标签是建立主题关系的一项很好的主题指标,可以帮助用户从微博集中鉴定关键词,因而如何使用标签抽取关键词是非常重要的问题。目前,从微博中进行关键词抽取的相关研究工作并不多见[3,7],大多研究仍然遵循词与词的连通图方法,并未考虑微博的重要性以及社交特性对关键词抽取的影响。
本文为了克服微博简短、且单条微博信息量不够丰富这一难点,选择在微博集中抽取关键词,并提出基于标签的排序的方法。传统的研究方法都是通过词频来选取关键词,而本文方法主要是通过随机游走,利用建立图的方式在其他相关微博中寻求词与词之间的关系。这里的工作将遵循关键词抽取的图的标准三道步骤。
本文方法的步骤如下:
1)建立词与微博的加权图,
文档评论(0)