一种可扩展的面向中文主题搜索引擎的分析与设计-analysis and design of an extensible chinese topic-oriented search engine.docxVIP

下载本文档

0
0
约6.21万字
约 62页
2018-06-03 发布于上海
举报
版权申诉

一种可扩展的面向中文主题搜索引擎的分析与设计-analysis and design of an extensible chinese topic-oriented search engine.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种可扩展的面向中文主题搜索引擎的分析与设计-analysis and design of an extensible chinese topic-oriented search engine

目录摘要IAbstract II目录IV第一章绪论 11.1 通用搜索引擎 11.1.1 通用搜索引擎的发展 11.1.2 通用搜索引擎的不足 31.2 主题搜索引擎 31.2.1 主题搜索引擎的产生 31.2.2 主题搜索引擎的发展前景 41.3 主题搜索引擎的实现难点 41.4 本文的主要工作和组织 5第二章搜索引擎相关理论 62.1 搜索引擎工作流程 62.1.1 网页的搜集 62.1.2 预处理 72.1.3 查询服务 82.2 实现搜索引擎的关键技术 92.3 搜索引擎评价原则 102.3.1 评价指标体系 102.3.2 其他评测因素 122.4 本章小结 12第三章中文 Web 网页的搜集方式 133.1 搜集 Web 信息 133.2 多线程 143.3 搜集策略 153.4 避免搜集镜像网页及更新策略 163.4.1 避免搜集镜像网页 163.4.2 更新策略 173.5 网络蜘蛛模型 183.5.1 网络蜘蛛原理 183.5.2 网络蜘蛛的体系结构 193.5.3 效率优化 203.5.4 蜘蛛访问规范 203.6 本章小结 20第四章面向主题的网络蜘蛛的设计 214.1 网络蜘蛛功能需求分析 214.2 主题网页链接发现 214.3 初始种子 URL 的更新 234.4 搜索策略的选择 234.5 抓取主题页面 244.5.1 正则表达式 244.5.2 列表网页爬行和抓取 254.5.3 全网爬行和抓取 254.5.4 精确爬行和抓取 264.6 相应的实验设计 264.6.1 主题网页链接发现 264.6.2 主题网页抓取 284.6.3 抓取能力结果分析 304.6.4 指定类型页面解析 304.7 本章小结 30第五章中文 Web 网页预处理315.1 信息抽取技术概述 315.1.1 信息抽取的定义 315.1.2 信息抽取的研究对象 315.1.3 信息抽取的评价指标 325.2 中文 Web 网页解析325.2.1 Web 信息抽取325.2.2 中文 Web 网页解析335.3 中文分词 355.3.1 中文分词的应用 375.4 建立倒排索引 385.5 实现结果与分析 395.6 本章小结 42第六章查询服务实现 436.1 全文检索工具包 Lucene43Lucene 简介43Lucene 的系统结构43Lucene 详细结构分析446.2 索引更新 466.2.1 重构索引 466.2.2 合并索引 466.2.3 增量式更新 466.2.4 选择合适的索引更新策略 466.3 索引压缩 476.4 Lucene 与中文分词技术486.4.1 正向最大匹配算法中长词屏蔽短词的问题 486.4.2 未登录词的识别和处理 486.4.3 基于词库的 Lucene 分词算法496.4.4 由字构词的分词方法 506.5 查询接口实现的关键点 506.5.1 相关关键字的索引问题 516.6 增强用户体验的 Ajax 技术 516.6.1 实时搜索建议 526.7 本章小结 53第七章结论与展望 547.1 本文的主要工作和贡献 547.2 下一步的工作和展望 54参考文献 55致谢 57个人简历、在学期间发表的学术论文与研究成果 58第一章绪论随着互联网的迅速发展和普及，信息搜索成为互联网信息共享领域不可阻挡的用户需求。作为网络信息检索的利器，搜索引擎从全文检索技术中发展而来，经过十几年的发展，越来越贴近用户的需求。目前，搜索引擎技术已成为计算机业界争相研究、开发的热点技术。搜索引擎是以一定的策略在信息资源中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。用户的查询途径主要包括自由词、全文检索、主题词检索、分类检索及其它特殊信息的检索。1.1 通用搜索引擎1.1.1 通用搜索引擎的发展在互联网发展的最初阶段，网站的数量相对较少，信息查找比较容易。随着互联网的迅猛发展，用户很难找到所需的资料。这是，对搜索引擎的需求就出现了，一些为满足大众信息检索需求的专业搜索网站也应运而生了。搜索引擎是以一定的策略在信息资源中搜集、发现信息，对信息进行理解、提取、组织和处理，并为用户提供检索服务，从而起到信息导航的目的。用户的查询途径主要包括自由词、全文检索、主题词检索、分类检索及其它特殊信息的检索等。搜索引擎技术已经经历了萌芽、起步、发展和繁荣 4 个阶段[1] [2]。萌芽阶段以 Archie 和 Gopher 为代表。Archie 是 1990 年由 Montreal 的 McGill University 学生 Alan Emtage