- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于潜在语义分析BBS主题发现算法研究
基于潜在语义分析BBS主题发现算法研究
摘要:快速、准确获取BBS论坛主题已成为目前Web信息获取中一个极其重要的研究方向。针对已有的BBS论坛中有影响力主题计算方法的不足,提出了一种基于潜在语义分析的主题发现方法,其思想是借助计算回帖之间的相似度,综合时间、空间因素,对主题进行聚类,发现主题并加以实现。系统对BBS主题发现过程进行可视化和交互,从而更直观反映主题的变化过程,更好地验证了算法的有效性。
关键词:潜在语义分析;BBS;主题发现
中图分类号:TP391文献标识码:A文章编号:1009-3044(2008)29-0431-03
Research on Discovery of BBS Topic Based on LSA
WU Hao1, GENG Huan-tong2
(1.Department of Computer Science,Anhui Business College of Vocational Technology,Wuhu 241002,China;2.College of Computer and Software,Nanjing University of Information Science Technology,Nanjing 210044,China)
Abstract: To obtain BBS topic effectively has been an important research field of web information processing. By analyzing the shortage of existed topic discovery algorithms, a new discovery method is proposed in the paper. The method is based on latent semantic analysis, by calculating the similarity between comments, clustering the topics with the factors of time and space. Finally the visual and interactive system is implemented, which can discovery topic drift and new topic timely and effectively.
Key words: Latent Semantic Analysis; BBS; topic discovery
1 引言
随着Internet网络的发展,越来越多的人选择上网获取信息和知识,而BBS论坛成为人们获取信息、发表言论的重要场所。但其常带有炒作和传播快速的特性,如果非友善的用户发布一些敏感信息,就可能带来巨大的不良影响。 因此从BBS论坛中获取敏感主题信息一方面将有助于人们快速获取感兴趣的网络信息,另一方面有助于国家有关部门进行舆论监督和实时监控。因此对BBS论坛主题的快速、准确获取已成为目前Web信息获取中一个极其重要的研究方向[1,5]。
在线BBS论坛中,每天都会出现大量由论坛注册用户发表的主题信息。这些主题信息的特点是:1) 数量巨大,一些著名的论坛,例如新浪,搜狐等,每日更新的主题量数以千计;2) 以发表时间和回帖的数量结合在一起排序,发表过的主题相隔一段时间后就会被随后的主题淹没;3) 内容杂乱无章,论坛中掺杂了大量的无效信息。
传统的有影响力主题计算方法是基于简单的统计排序,对于每个主题,论坛系统统计出在某个固定时间段内对主题回帖的注册用户数作为衡量主题在论坛中影响力的标准。系统对所有主题的影响力进行排序取出前几名影响力最大的主题作为该时间段内的热门主题。但是,这种方法的缺陷在于:1) 没有考虑回帖的内容,只是简单地统计了回帖数量;2) 无法对主题进行聚类,并无法发现论坛中若干相关主题组成的当前论坛中关心的热门话题。虽现有基于回帖链的影响力主题计算方法[3-4] ,通过计算词语在回帖传播链上的影响力,提取出高影响力词语,同时,对这些高影响力词语进行聚类,并以此为基础,利用机会发现的思想,发现潜在的、具有影响力的词语,再次对这些新添加的词语进行聚类,最后,将每个主题依据词语聚类的结果提取BBS论坛中具有影响力的主题。这种方法虽然考虑了到了传统方法的不足,但是忽略了用词的上下文环境,同时也存在同义词带来的误判问题。为了克服BBS有影响力主题计算方法的以上缺陷,根据自然语言处理方面的相关技术,从论坛中发表的帖子内容上的联系出发,提出
文档评论(0)