一个内容择优的Web+Word文档自动搜集系统研究.pdf

下载文档 降价啦

2
0
约7.39千字
约 5页
2018-01-16 发布于未知
举报
版权申诉
保障服务

一个内容择优的Web+Word文档自动搜集系统研究.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

8 Web信息系统与技术 Word文档一个内容择优的Web 自动搜集系统钱丽萍 (北京建筑工程学院计算机系北京100044) 摘要：本文在通用搜索引擎的基础上，实现了一个专用于搜索网上Word文档的搜索引擎，通过实时解析Word文档的内容，可以自动发现内容较受用户关注的WebWord文档．关键词：Web，搜索引擎，Word文档彳nAutomaticCollectorfor腑bWord DocumentswithUserPreferredContent Qian Liping Abstract：This asearch tocollectWorddocumentsonthewebbasedonthe paperimplementsengine general- search the ofWorddocumentin content real search purposedengines．Beingcapableofparsing time，thisengine can outthewebWorddocumentmore toitsUSer． dig preferring Keywords：Web，SearchDocument Engine，Word 1概述近年来，因特网信息呈爆炸性增长趋势，其涵盖的信息资源非常丰富，但往往呈分散、无序式分布，信息质量良莠不齐，导致真正有用的信息反而被淹没在大量的垃圾信息中。搜索引擎提供了一种便捷的手段，可以更快速、更准确地找到自己所需要的信息，从而极大地提高了人们获取信息的能力和准确度。目前的通用搜索引擎主要是采用所谓的网络蜘蛛(Spider)，通过预先设定的某些种子网址不断进行延伸搜索，以找到Web中的所有超链接，从而访问相关的所有信息。但在当前的网页规模下，单个搜索引擎并不能访问到所有网页【l，2】，不同搜索引擎受搜索机制和算法等限制，对同一查询请求返回的结果也不尽相同【3】，个别搜索引擎对结果的排序甚至与商业目的挂钩，导致很多情况下搜索结果并不令人满意，突出表现为搜索结果的准确性或作者简介钱丽萍(1970一)，女，讲师，主要研究方向为中文信息处理、信息安全等，E．mail： wangzs@vip．sina．com，电话：010 Web信息挖掘与检索 9 可用性不高。要找到真正有用的内容，有时仍需花费大量精力逐页搜寻。元搜索引擎结合了多个搜索引擎的搜索结果，并在此基础上进行二次加工，所以有可能提高查全率和查准率。但其处理结果不仅受限于被引用的搜索引擎，同时也受到自身采用的合并算法的影响。正是由于搜索结果难以令人满意，因此搜索引擎相关技术一直是近几年的研究热点。者在此领域也进行了大量研究，例如文献[6】实现了一个结合兴趣模型的元搜索引擎；文献【7】对自动获取HTML网页的技术进行了探讨；文献【8】实现了一个通过Web页面间的链接关系自动获取页面信息的通用搜索引擎；文献[9】提出了基于分类图和信息源描述的查询处理算法及原型系统；文献【10隈出了发现相关信息的SW．HITS算法，并用于网上医药信息的搜索；文献[II】对链接分析在Web信息搜索、万维网潜在社区发现及建模等方面的应用进行了综述。其返回结果只零散地给出了这些专用文档的链接及简短的描述信息。为找到特定文档，还需进行大量的人工查找并手工搜索后继页面。对于信息检索