基于Lucene的主题搜索引擎的研究与实现-计算机技术专业论文.docxVIP

基于Lucene的主题搜索引擎的研究与实现-计算机技术专业论文.docx

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Lucene的主题搜索引擎的研究与实现-计算机技术专业论文

摘 摘 要 摘 要 随着Internet的高速发展,Web上存储的信息量呈几何级数增长,然而,在信 息浩如烟海的Internet上找到需要的信息是一项极富挑战的工作。通用搜索引擎的 出现使得人们在这方面的需求得到了一定的解决,但是由于其自身的通用性,限制 了人们对信息资源的准确、有效的获取。因此在Internet上获取有价值的信息,就 必须有一套高效实用的解决方案。在这种情况下,主题搜索引擎应运而生,由于其 特有的专业性,能够有效避免干扰信息,极大地提升了检索结果的准确率,因此也 成为这一领域的研究和开发热点。 本文是基于Lucene环境构建的一个关于就业招聘信息主题的搜索引擎,主要涉 及网页数据采集、索引建立、检索结果排序。其中网页结果排序算法的设计是本文 的核心内容。论文在介绍了搜索引擎的理论及Lucene中建立索引的关键技术和主要 算法后,对Lucene中各种排序方法的理论依据、适用条件和范围及优、缺点进行了 分析比较;介绍了Lucene索引过程中文档域(Field)加权的相关理论:以河北搜才 网招聘信息数据为背景,针对招聘信息资源的特点,建立了模型并对检索结果的排 序进行了优化设计。在此基础上设计实现了基于Lucene的主题搜索引擎系统。实验 和测试表明,本文采用的Lucene文档域加权算法,能快速准确地得到满意的检索结 果输出,是一种较为科学实用的搜索结果排序方法。同时,本文亦对可能存在的问 题进行了说明。 关键词搜索引擎;主题搜索引擎;Lucene;Nutch:排序算法 AbstractAbstract Abstract Abstract With the high-speed development of Intemet,Web shows the amount of information stored on several geometric growths.However,the amount of information on a broad array of Internet to find needed information is a challenging task.The emergence of general search engine makes its needs in this area has been a certain solution,but because of its versatility,limiting people’S information resources accurate and effective access to it. Therefore,in order to obtain valuable information on the Internet,you must have a cost—effective solution.The emergence of specialized search engines because of its professional,can effectively avoid”interference with information”.As a result,it can greatly improve the accuracy of search results and it has become a research hotspot in this field. This thesis is on the basis of the open source Lucene full—text retrieval toolkit environment.It is on the bases of the employment job search engines,mainly related to the following areas:Web data collection,Web indexing,Web search results sorting,in which web pages Results sorting algorithm is designed to be the core content of this thesis.This thesis starts with the basic theory of search engines and it begins to explain the theory and the search engine Lucene indexing algorithm,various sorting methods Lucene theoretical,ap

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档