基于Lucene与Heritrix的搜索引擎构建论文.doc

下载文档 降价啦

0
0
约 58页
2017-08-12 发布于湖北
举报
版权申诉
保障服务

基于Lucene与Heritrix的搜索引擎构建论文.doc

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Lucene与Heritrix的搜索引擎构建毕业论文摘要 I Abstract II 第1章绪论 1 1.1课题的背景及意义 1 1.2垂直搜索引擎现存的问题 1 1.2.1垂直搜索引擎的产生 1 1.2.2存在的问题 2 1.3国内外垂直搜索引擎的发展 3 1.4垂直搜索引擎的发展前景 4 1.5课题的主要研究内容 6 第2章搜索引擎实现原理 7 2.1通用搜索引擎的工作流程 7 2.2网页信息采集技术和软件 8 2.2.1网页信息采集软件的工作方式 9 2.2.2网页采集软件的组成模块 10 2.3索引器 12 2.3.1实现原理 12 2.3.2索引数据组织 13 2.3.3索引文件导出过程 14 2.4网页存储器与分析索引器 14 2.5查询器和用户接口的设计 15 2.5.1查询器 15 2.5.2用户接口 16 2.6搜索引擎的性能评价指标 16 2.7小结 18 第3章垂直搜索引擎的关键技术 19 3.1页面分析技术 19 3.2超链接分析算法 20 3.2.1PageRank算法 20 3.2.2HITS算法 22 3.3网页信息的结构化抽取 23 3.3.1网页信息的结构化抽取方式 24 3.3.2结构化信息抽取系统的结构 24 3.3.3中文网页结构化信息抽取的难点 25 3.4暗藏网页的信息抽取 26 3.5小结 27 第4章面向音乐领域垂直搜索引擎的总体设计 28 4.1基本功能需求 28 4.2音乐产品信息搜索引擎系统的体系结构 29 4.3系统开发环境 30 4.4垂直搜索引擎的主要数据库设计 30 4.5 系统功能特点 31 第5章面向音乐领域的垂直搜索引擎的具体实现 33 5.1 音乐信息网页自动搜索算法的具体实现 33 5.1.1元搜索算法 33 5.1.2自动搜索过程的实现 35 5.1.3 网页爬行的控制模块实现 37 5.1.4 HTML标准化与页面解析 38 5.1.5网页爬行的控制模块的性能测试 39 5.2 页面分析与音乐产品信息的自动抽取 41 5.3 Lucene倒排文件索引结构 44 5.4 用户查询功能的实现 45 5.4.1网页形式的音乐产品信息查询与返回 46 5.4.2站内数据库中的音乐产品信息查询与返回 48 5.5 小结 49 结论 50 致谢 52 参考文献 53 第1章绪论 1.1 课题的背景及意义随着网络与通信技术的迅速发展，Web信息爆炸性的增长，互联网已经成为一个巨大的海量信息空间。如何迅速、准确、方便的从如此庞大的信息库获取自己需要的信息，是互联网用户面临的一个重要问题。搜索引擎的出现，整合了众多网站信息，极快的查询起到了信息导航的作用，信息的价值得到众多商家的普遍认可，成为互联网中最有价值的领域。大家熟知的搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代表，为互联网的发展做出了重要的贡献。CNNIC第十四次互联网调查表示，搜索以71.9%的绝对优势成为用户从互联网上获取信息的主要方式[1]，是互联网上使用程序仅次于电子邮箱的服务。互联网的信息量呈爆炸趋势增长，几年前全球式搜索引擎收录的网页量只有几千万页，而现在已经达到几十亿页，数量增加带来的是搜索服务的品质下降，查询的结果集就是海量的，经常是几十万笔的资料，结果里存在大量的重复信息和垃圾信息，用户越来越难迅速找到符合的信息，现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。因此，如何对通用搜索引擎技术进行改进，使查询的结果更加贴近用户的要求，成为搜索引擎行业近期的研究热点。 1.2 垂直搜索引擎现存的问题 1.2.1垂直搜索引擎的产生所谓通用搜索引擎，并不能够囊括所有的网页，据google的人说，也就猜测覆盖了40%不到的网页，也就是说，更多的网页是没有被通用搜索引擎收录的，也就谈不上被搜到了。那些没有机会收录的网页，有些是需要身份验证等之后才可以看到，有些是根本未被通用搜索引擎的蜘蛛爬到。这些信息却往往是宝贵的，更有价值的。每一个行业都是复杂的，从目前计算技术来讲，还是遵循冯.诺依曼的体系，也即是说还是依靠图灵未实现的人工智能之下的计算机逻辑来处理信息，在搜索收录的分析过程中，如果不加上行业特点和特性进行分析，很难说会更准确分析到网页的重要性和分析的准确。这个也是垂直的意义所在[2]。当然，这里面也需要注意到，并非你垂直了，你的搜索收录和搜索结果就一定比通用搜索更准确[3]。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取，也就是将网页的非结构化数据抽取成特定的结构化信息数据，好比网页搜索是以网页为最小单位，基于视觉的网页块分析是以网页块为