Web垂直搜索引擎实现过程的研究.docVIP

下载本文档

3
0
约7.1万字
约 14页
2017-01-13 发布于贵州
举报
版权申诉

　Web垂直搜索引擎实现过程的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　Web垂直搜索引擎实现过程的研究

Web垂直搜索引擎实现过程的研究 Web垂直搜索引擎实现过程的研究从2000年开始，Web垂直搜索引擎开始赢得用户的亲睐[1?2]。视频、音乐、图片、软件、贴吧、地图分门别类展开搜索，专业性更强，主题相关性更高。然而Web垂直搜索引擎的应用主题并不局限，拥有非常广阔的发展空间，例如面对电子商务的商品搜索，数码产品信息搜索以及近年开始出现的微博搜索。垂直搜索的出现主要有两个方面的原因：一是通用搜索引擎索引Web的全部内容变得越来越难，而垂直搜索引擎索引数据量较小且专业，投入成本也相对较低；二是垂直搜索引擎提供的搜索质量较高，因为它可以搜索到通用搜索引擎不能搜寻到的页面，而且在可搜索页面上提供更强有力的搜索功能。垂直搜索引擎与通用搜索引擎的最大区别在于对网页信息进行结构化信息抽取，即将网页的非结构化数据提取成特定的结构化数据。构建一个垂直搜索引擎主要有两种方法：一种方法是通过爬虫爬取某种主题网页而构建专业索引；另一种方法是为用户提供专业化搜索的接口。　　Web搜索引擎是种复杂、多组件信息检索系统的具体应用[3]，也因其应用在拥有超大规模数据的互联网中，使构建Web搜索引擎变得比较困难。已有众多的研究者参与到Web搜索引擎的研究中，Brin和Page发表论文首次公开大规模Web搜索引擎Google的设计原型[4]，提出Web搜索引擎的基本组件包括爬虫、索引组件、搜索组件、排序系统以及反馈组件。高效Web垂直搜索的关键之一在于爬虫能否精确爬取主题相关的Web文档，Soumen等人提出聚焦爬虫[5]，利用一种能够评估网页是否与主题相关的分类器选择性地爬取与预定义主题相关的页面，实现了以目标为导向的爬取。文献[6]开发了一种潜语义索引分类器，将链接分析和文本内容结合起来，目的是抓取指定主题域的Web文档。文献[7]设计并实现了一种基于网格架构的大型Web搜索引擎，讨论实现流程和细节，对Web垂直搜索引擎的研究提供了宝贵的经验。信息检索领域的研究本文由论文联盟http://收集整理成果对Web搜索引擎有着较高的参照价值，特别是检索模型的研究更加重要，Web搜索引擎的排序组件好坏很大程度上决定了用户体验。信息检索模型得到了飞速发展，传统的检索模型包括布尔模型、向量空间模型、概率模型、语言模型。现代检索模型的建立大多通过排序学习方法得到，即利用机器学习技术在数据集上自动创建排序模型[8]。这些研究成果很多通过开源软件实现，这些工具不仅为开发软件提供先进的技术支持，而且大大缩短了开发周期。本文提出了一种Web垂直搜索引擎的实现过程，以该过程为基础开发了一个查询与手机相关信息的Web垂直搜索引擎，并且对实现原理和细节进行了详细的阐述。此垂直搜索引擎可以为搜索手机相关信息的用户提供直观的、快捷的、有效的手机信息搜索服务，验证了这种实现过程的有效性和完整性。　　1 Web垂直搜索引擎的实现过程　　Web垂直搜索引擎与通用搜索引擎原理类似，都需要从互联网上下载网页、建立索引，响应用户查询。但是垂直搜索引擎可以返回结构化的数据，这些数据经过人工分析与整理再存入数据库中。本文将Web垂直搜索引擎的实现过程分为3层，分别为：数据准备层、提供查询服务层、前台交互层。这3层可互相独立开发，最终整合到一起形成一套完整的Web垂直搜索引擎。图1为一种Web垂直垂直搜索引擎实现过程。　　数据准备层　　数据准备层的目的是准备用于检索的数据，这些数据最终存放在关系数据库中并建立倒排索引。Web垂直搜索引擎的目的是为用户提供更专业、主题性更强的搜索服务，这种服务与大量主题相关的数据为基础，数据处理分为两个阶段，第一个阶段为采集原始数据，原始数据来自互联网某些主题性较强的、数据来源可靠的网站。原始数据大多是未经处理的无结构网页，这些原始网页无法支持搜索服务并返回给用户查看。第二阶段为数据分析与处理，将原始无结构网页中的数据转换为结构化数据，并将这些结构化数据存储在关系数据库中，这些存储在数据库中数据最终以更加直接的形式展示给用户。然而，关系数据库中模糊查询难以应对海量数据查询，所以需要建立一种面向词汇的数据结构，即倒排索引，以实现毫秒级的查询性能。　　数据准备层主要包含以下5个过程：　　选择主题信息来源网站和网页　　认真选择主题信息来源网站以确保原始数据的可靠性，通常需要遵循以下4个原则：来源网站没有屏蔽爬虫对网页的爬取；网页内容不是JavaScript动态生成的。爬虫不需要模拟浏览器解释脚本去生成网页内容，否则会严重影响爬虫效率；网站中网页URL有统一的风格。这样的URL更容易被爬虫抓取，数据更加准确；选择访问量比较大的知名网站，保证数据源可靠性。　　网站和网页内容分析　　分析网页的目的是定向抓取网页，在确定主