20050609InfoMall数据检索服务的设计及全文检索系统的初步实现.doc

20050609InfoMall数据检索服务的设计及全文检索系统的初步实现.doc

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
InfoMall数据检索服务的设计以及全文检索系统的初步实现 InfoMall Data Retrieval Service and its Full Text Retrieval System 姓名:杨 学号: 院系:信息科学技术学院 专业:计算机科学与技术 指导教师: 2005年6月 论文评定 导师评语 为历史存档的网页信息提供全文信息检索,是更好展示和挖掘网页历史信息必不可少的手段。为历史存档网页建立索引提供检索服务,不同于搜索引擎,通常其数据量更大,并且具有自己的特性。杨志丰同学的毕业论文工作,是对这一部分内容有益的探索。 论文所涉及的工作是在中国Web信息博物馆(InfoMall)的基础上完成的。通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。该文进一步设计和实现了InfoMall数据检索服务的系统组成中的主要模块——全文索引系统。主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。 论文内容丰富,所涉及的工作量大,且有较强的系统性,是一篇很有价值的论文。 在毕业设计工作的过程中,该同学态度端正,积极努力,表现出很强的进取精神和踏实的工作作风,为InfoMall的发展做出了贡献。 成绩___优______ 指导教师签字__闫宏飞_______ _2005_年_6_月_9_日 摘要 中国Web信息博物馆是北京大学网络实验室研究和开发的中国万维网(World Wide Web)历史信息的存储和展示系统。但现有系统提供的服务不能满足用户对宝贵的历史网页数据的信息需求,因而限制了它的广泛使用。本文试图从实际出发,探讨和尝试如何利用保存下来历史网页数据提供公共信息服务。 本文通过对InfoMall网页信息博物馆的数据需求的分析,利用基于时间、空间、内容的网页数据三维模型,设计了InfoMall数据检索服务,并规约了服务原语,设计了系统组成。例如,利用我们提供的服务,用户可以查询“1997年2月到2005年2月期间内蒙古自治区范围内所有*.域名下内容包含‘民主’的网页文档的全文”。 本文设计和实现了InfoMall数据检索服务的系统组成中的主要模块――全文索引系统。我们主要针对InfoMall数据的特点和数据检索服务的需求,在空间利用率和系统灵活性两个方面做了探讨和优化。 关键词 InfoMall,历史网页,信息检索,倒排文件,索引 Abstract Web InfoMall is a digital library to store web pages of Chinese World Wide Web periodically and exhibit them to people online, which is designed and developed by Computer Network and Distributed Systems Laboratory of Peking University. However current available services are too limited to meet user’s information needs and prevent it from being widely used. That is a great waste of the valuable archaic web pages. In this article, we present our ideas of how to use these archaic web pages to provide information service to public. In this article, we analyzed the user’s information needs and designed a powerful service called InfoMall Data Retrieval Service, using a three-dimensional model based on time, space and content. We specified the syntax of query and designed the component of the system. In addition, we designed and implement the full text retrieval system that is a ke

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档