天网搜索引擎文档.docxVIP

下载本文档

3
0
约8.01千字
约 11页
2023-04-28 发布于上海
举报
版权申诉

天网搜索引擎文档.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE PAGE 10 天网中英文搜索引擎技术报告国际互连网（Internet）这一个全球性的计算机网络在九十年代得到了迅速的发展，连入的主机数以几乎每年翻一翻的速度增长，并已将它的影响扩大到信息化社会的各个角落。Internet 上丰富的信息资源和便捷的通信手段是其吸引用户的主要因素。WWW（World Wide Web) 是目前 Internet 上使用最广泛的信息服务之一。它利用超文本制标语言 HTML(Hypertext Markup Language)描述超文本和超媒体信息，将分布在网络中各个节点上的文字、声音、图形、图象、视频等多媒体信息有机地联系和组织起来，用户可用友好、方便、多样的界面存取信息，因而在 Internet 上得到了迅速的发展，已成为人们发布和共享信息的重要工具。除此之外，Internet 上还提供 News, Email, Ftp, Telnet, Gopher 等多种服务。 WWW 信息量的增加，给人们带来一个新的问题，即如何在庞大的ＷＷＷ信息网内找到自己所需要的信息．解决这个问题的途径是建立 WWW 搜索引擎，即用一定方法发现 WWW 信息，生成ＷＷＷ资源索引，并为用户提供检索和查询服务．ＷＷＷ搜索擎已成为人们争相研究开发的热点．近年来，国外已先后有一些此类系统（例如Yahoo！，AltaVista，HotBot,MetaCrawler 等）在 Internet 上运行．在我国，由于信息网络的带宽较窄、中文信息占较大比例、大部分用户习惯使用中文、对中文检索需求很大等原因，使得这些搜索引擎不能完全满足用户的需要．在这种情况下，我们设计开发了一个大型、高效的分布式中英文信息发现和资源索引检索服务系统—“天网(WebGather)”中英文搜索引擎，取得了很好的效果．一、系统结构本系统主要由 WWW 信息存取和分析子系统、WWW 信息收集控制子系统、News 收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。各个部分的功能如下： 1、WWW 信息存取和分析子系统根据 WWW 信息收集控制子系统提供的 URL 和相关信息，使用 HTTP 协议，在 Internet 上获取相关资源，并能就对方主机返回的不同状态码作出相应处理。对取回的 Web 页面(主要是 HTML 格式)进行分析，自动对中文编码进行识别和转化，对中文信息进行分词、提取页面的标题、关键词、摘要以及其中的超链（HyperLink）。将分析的结果通过扩展 SOIF 接口提交给信息收集控制子系统。 2、WWW 信息收集控制子系统根据配置文件运用自然语言理解和知识获取技术、引导信息收集系统优先访问特定知识领域和特定地域范围内的信息，向 HTML 存取分析进程发送需访问的 URL 及相关信息，接收其发回的访问和分析结果。将相应的数据存入信息数据库中。并对信息收集的频度和流量加以控制。 3、News 收集分析子系统使用 NNTP 协议访问 News Server，收集所关心的 Newsgroup（在配置文件里配置）中的文章。并进行分析，提取文章的摘要、标题、关键词。将这些信息存入信息数据库中。 4、资源索引数据库存储收集到的 WWW 和 News 信息，以及分析的结果。并对其重新进行基于词的分级优化索引，以加快查询速度． 5、信息检索子系统提供基于 WWW 方式的信息检索服务。用户通过任何标准的 WWW 浏览器直接访问。检索系统可以支持在一次检索中使用多个检索词(中、英文），并支持检索词之间的逻辑关系（与、或）。还可以指定查询的范围：WWW、News，和方式（精确、模糊）。检索结果以 HTML 形式返回给用户。各项结果的标题与它所对应的URL 用超链连接起来。用户只需在浏览器中点中检索结果项的标题，就能马上取得相应页面的实际内容。命中的 URL 页面按它与用户检索关键词的关联程度排序，使用户的检索更有效率。本系统还支持在上一次返回的结果中进行查询。 6、管理和监控子系统提供系统配置，启动、停止、监控、统计等管理功能。 News Server News Server WWW Server WWW 存取、分析 WWW 存取、分析 HTML 文档 News 存取、分析 HTTP 收集控制子系统资源索引数据库信息检索子系统管理和监控子系统 CGI WWW 服务器 WebGather WWW 浏览器 WWW 浏览器图 1 WebGather 系统总体结构示意图信息收集控制子系统与WWW 存取分析进程以及NEWS 存取分析子系统之间的信息交互是通过 TCP Socket 连接来实现的，因此各子系统可以分布运行于网络中不同的主机上。二、技术特征本系统有以下技术特征： 1、

您可能关注的文档

文档评论（0）

tianya189 + 关注: 官方认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

认证主体阳新县融易互联网技术工作室

IP属地上海

统一社会信用代码/组织机构代码: 92420222MA4ELHM75D

1亿VIP精品文档

更多 >

天网搜索引擎文档.docxVIP