一个内容择优的Web+Word文档自动搜集系统研究.pdf

一个内容择优的Web+Word文档自动搜集系统研究.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8 Web信息系统与技术 Word文档 一个内容择优的Web 自动搜集系统 钱丽萍 (北京建筑工程学院计算机系北京100044) 摘要:本文在通用搜索引擎的基础上,实现了一个专用于搜索网上Word文档的搜索引擎,通过实时解 析Word文档的内容,可以自动发现内容较受用户关注的WebWord文档. 关键词:Web,搜索引擎,Word文档 彳nAutomaticCollectorfor腑bWord DocumentswithUserPreferredContent Qian Liping Abstract:This asearch tocollectWorddocumentsonthewebbasedonthe paperimplementsengine general- search the ofWorddocumentin content real search purposedengines.Beingcapableofparsing time,thisengine can outthewebWorddocumentmore toitsUSer. dig preferring Keywords:Web,SearchDocument Engine,Word 1概述 近年来,因特网信息呈爆炸性增长趋势,其涵盖的信息资源非常丰富,但往往呈分散、 无序式分布,信息质量良莠不齐,导致真正有用的信息反而被淹没在大量的垃圾信息中。 搜索引擎提供了一种便捷的手段,可以更快速、更准确地找到自己所需要的信息,从而极 大地提高了人们获取信息的能力和准确度。 目前的通用搜索引擎主要是采用所谓的网络蜘蛛(Spider),通过预先设定的某些种子 网址不断进行延伸搜索,以找到Web中的所有超链接,从而访问相关的所有信息。但在当 前的网页规模下,单个搜索引擎并不能访问到所有网页【l,2】,不同搜索引擎受搜索机制和算 法等限制,对同一查询请求返回的结果也不尽相同【3】,个别搜索引擎对结果的排序甚至与 商业目的挂钩,导致很多情况下搜索结果并不令人满意,突出表现为搜索结果的准确性或 作者简介 钱丽萍(1970一),女,讲师,主要研究方向为中文信息处理、信息安全等,E.mail: wangzs@vip.sina.com,电话:010 Web信息挖掘与检索 9 可用性不高。要找到真正有用的内容,有时仍需花费大量精力逐页搜寻。 元搜索引擎结合了多个搜索引擎的搜索结果,并在此基础上进行二次加工,所以有可 能提高查全率和查准率。但其处理结果不仅受限于被引用的搜索引擎,同时也受到自身采 用的合并算法的影响。 正是由于搜索结果难以令人满意,因此搜索引擎相关技术一直是近几年的研究热点。 者在此领域也进行了大量研究,例如文献[6】实现了一个结合兴趣模型的元搜索引擎;文献 【7】对自动获取HTML网页的技术进行了探讨;文献【8】实现了一个通过Web页面间的链接 关系自动获取页面信息的通用搜索引擎;文献[9】提出了基于分类图和信息源描述的查询处 理算法及原型系统;文献【10隈出了发现相关信息的SW.HITS算法,并用于网上医药信息 的搜索;文献[II】对链接分析在Web信息搜索、万维网潜在社区发现及建模等方面的应用 进行了综述。 其返回结果只零散地给出了这些专用文档的链接及简短的描述信息。为找到特定文档,还 需进行大量的人工查找并手工搜索后继页面。对于信息检索

文档评论(0)

带头大哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档