Web主题信息监控系统设计与实现.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web主题信息监控系统设计与实现.pdf

第$ 卷第, 期 计算机应用 SGO- $: TG- , ! ! ##$ 年, 月 ;GLC8F/E 3CCO9IDF9GA 38?- : ##$ 文章编号:## % *#,(##$ )#, % ##+ % #$ ./0 主题信息监控系统设计与实现 郭! 辉,蔡庆生 (中国科学技术大学 计算机科学技术系,安徽 合肥$##) ) 摘! 要:介绍了一个./0 主题信息监控系统,此系统根据用户设定的主题对指定的网站进行监 控,实时性好、鉴别准确度高。文中论述了系统的设计思想和相关的算法以及实现技术。 关键词:./0 ;主题信息;监控 中图分类号:12$*;12$*$- #)! ! 文献标识码:3 !#$% ’( )’*$+’,$- -. /0 1’#( 23045, 6.-78’,$- 9-$,-7$% 2:#,8 456 789: ;3 =9?@AB/? ! #$ %’(#)’ *+ ,*($ -’# ./0#)/# 1 2#/3)*4*567 8)09#:0’6 *+ ./0#)/# 1 2#/3)*4*56 *+ ,30)%7 ;#+ #0 )3-0 $##)7 ,30)%= ;0#,7’5, 1B9A CDC/E 9FEGH8I/A D ./0 0DA/H A80J/IF 9KGELDF9G LG9FGE9? AMAF/L- 1B/ AMAF/L LG9FGEA FB/ AC/I9K9I N/0A9F/A DIIGEH9? FG FB/ 8A/E@DAA9?/H A80J/IFA- F BDA D ?GGH E/DO F9L/ C/EKGELDI/ DH CE/I9A9G GK A80J/IF 9H/F9K9IDF9G- 1B9A CDC/E DOAG H9AI8AA/A FB/ H/A9? DH E/DO9PDF9G GK FB/ AMAF/L- =: -7(# ./0Q A80J/IF 9KGELDF9GQ LG9FGE9? ! 引言 ./0 上包含了大量的信息,但是其松散的组织方式使得 对信息的有效检索和利用成为一大难题。以4GG?O/ 为代表 的通用搜索引擎已经成为人们在./0 上检索信息的主要方 式。然而,这些搜索引擎并不能满足所有用户的需要。有一 部分用户对网上信息的利用有着特殊的方式,例如:企业通过 特定网站随时获得竞争对手的情报以及商品原材料的供求信 息;消费者关注购物网站上的特价商品动态;求职者在特定网 站上了解最新的招聘单位信息等等。这一类用户对信息的获 取有共同的特点:目标网站明确集中、目标网页涉及特定的主 题、对信息的实时性要求比较高。通用搜索引擎无法很好的 满足这类用户的要求。 针对这种情况,我们研制了一个互联网主题信息监控系 统:首先,用户预先设定要监控的网站和范围并且定义自己感 兴趣的主题;然后,系统根据用户选择的多种搜索策略对指定 图! 系统结构图 网站中的大量网页进行搜索下载和主题鉴别,如果发现包含 系统基本工作流程分为两个方面: 特定主题的网页则将该网页加上标记并及时通知用户,另外 )网页引入流程 所有下载回来的网页都将被保存一段时间,以方便用户对这 首先,网页搜索子系统根据相应设置采用一定的调度算 些网页进行包括全文检索在内的多种条件的查询以及管理。 法不断从网站上下载网页;然后,主题鉴别子系统将对每一个 该系统采用浏览器R 服务器模式,具有使用方便、设置灵活、监 下载回来的网页进行主题鉴别并根据鉴别结果对其加以标 控范围较大、搜索速度快、

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档