一种对BBS语料进行话题提取的聚类算法.docVIP

一种对BBS语料进行话题提取的聚类算法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种对BBS语料进行话题提取的聚类算法 第25卷第8期 2008年8月 计算机应用与软件 ComputerApplicationsandSoftware Vol_25No.8 Aug.2008 一 种对BBS语料进行话题提取的聚类算法 李卓尔胡运发 (复旦大学计算机信息与技术系上海200433) 摘要基于BBS语料的话题提取主要是从大量的BBS论坛讨论信息中,将正在或近期讨论的各种话题提取出来.在自主开发 的一套话题提取系统中采用了一个原始聚类算法,能够对真实的BBS语料进行有效话题提取.随后将语料中的关联信息引入到原 始聚类算法中进行改进,提高了算法的性能,取得了良好的效果. 关键词BBS话题提取关联信息聚类算法 ACLUSTEIUNGALGoIUTHMFoRToPICDETECTIoNANDTRACKINGINBBS LiZhuoerHuYunfa (DepartmentofComputingInformationandTechnology,FudanUniversity,Shanghai200433,China) AbstractTopicdetectionandtrackinginBBSismainlytodetectthetopicsbeingdiscussedorhadbeendiscussedrecentlyfromahostof relatedinformationfromBBS.ThetopicdetectionsystemwithaclusteringalgorithmiseffectivefortopicdetectionandtrackinginBBS.Im— provementismadeontherelatedinformationofBBS,whichisintroducedtotheoriginalclusteringalgorithm.Theperformanceofthealgorithm isimproved,andbetterresultsareachieved. KeywordsBBSTopicdetectionandtrackingRelatedinformationClusteringalgorithm 0引言 近年来随着网络在国内的普及,网民人数大幅攀升,越来越 多的人开始在网络上获取信息,发表看法或评论,并与他人进行 交流.其中网络论坛(简称BBS)作为一个重要的网络媒介,在 民众意见表达的方面起到了举足轻重的作用.如果可以从BBS 这个渠道了解到对各种事件的民意情况,那么对相关部门及时 疏导民意或采取相应措施都将给予极大的帮助.所以如何从在 各种BBS发表的大量信息中及时地获取最新的热点讨论话题, 成为了一个关键的问题. 但是传统的一些话题提取算法一般是基于比较正式的文 本,如报纸杂志,新闻报道,社论专栏,广播等,或者是专业性比 较强的论文,报告,文档之类的.与之相比,在BBS上发表的文 章专业性不强,具有极大的随意性,多则几千上万字,少则寥寥 几句.而且涉及内容相当广泛,几乎可以触及到社会的各个方 面.传统的话题提取算法难以直接运用到基于BBS语料的话 题提取上,因此需要针对BBS语料的特点设计更合适的话题提 取算法. 基于这个前提,我们实验室研究开发了一个针对BBS语料 的话题提取系统.在这个系统中运用了一个聚类算法,是通过 对传统的话题提取算法进行改进,并针对BBS语料的特点设计 而成,有效地解决了在BBS语料的基础上进行话题提取的问 题. 在实际的研究过程中,我们发现人们讨论的话题不是完全 独立的,多多少少都会有互相关联的部分.而这一点,也是目前 获得大家所承认的.尽管这个特点混淆了各个话题之间的界 限,给话题提取带来了一定的难度.但是利用好这个特点,对话 题提取也可以产生积极的影响. 我们将关联信息引入到原始的话题提取算法中去,对其加 以改进.从而得到了一个改进算法,经过实验测试证明,这个算 法更有效地实现了话题提取功能. 1原始话题提取算法 1.1基本思想 BBS上的语料与一般传统的需要进行分类的语料有较大的 区别,这一点已经在上文介绍了.BBS语料在时间上的连续性, 话题需要考虑之前和之后语料的联系,而且BBS语料数量上十 分庞大,难以由人提供大量有效的帮助. 在BBS语料中,一个标题下的大部分回帖都是基于第一篇 文章的,因此我们可以充分利用这个特性.另外我们需要将热 点话题的识别与话题跟踪的技术统一,便于对热点话题的跟踪. 而且我们要求这个算法是无需人工干预的. 1.2算法实现 在我们的系统中使用的聚类算法仍然采用了目前国际上通 用的对文本进行描述的方法(在这里,我们假设对每篇文档的 分词工作已经完成).对于所有BBS语料中的每一篇文章,我 们有如下描述:

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档