垂直搜索引擎相关技术及商业应用模式浅析.docVIP

下载本文档

5
0
约2.72千字
约 7页
2018-06-23 发布于福建
举报
版权申诉

垂直搜索引擎相关技术及商业应用模式浅析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

垂直搜索引擎相关技术及商业应用模式浅析

垂直搜索引擎相关技术及商业应用模式浅析　　摘要：本文提出目前搜索引擎领域使用的通用搜索引擎和垂直搜索引擎，然后详细分析垂直搜索引擎的优势、相关技术及其商业应用模式。　　关键词：搜索引擎垂直搜索爬行策略分词技术抽取技术　　0引言　　随着因特网在世界范围的迅速发展和普及，所有的人都能通过网络搜索引擎，随意搜索查询分布于世界各地的数据、图表、文献等各种信息，而目前在搜索引擎领域使用的主要是通用搜索引擎技术和垂直搜索引擎技术。　　1 垂直搜索引擎的含义　　所谓搜索引擎，是指在Internet环境下，网站根据用户输入的查询条件，自动从 web资源里提取出与用户输入条件相关信息的一类网站。而垂直搜索引擎是针对某一个行业的专业搜索引擎，是搜索引擎的细分和延伸，是对网页库中的某类专门的信息进行一次整合，取出需要的数据后再进行处理，最后以某种形??反馈给用户[1]。这点类似于数据仓库，具有面向主题、集成的特点，将来自于分散型的操作数据中用户所需的数据提取出来，进行加工与集成。　　2垂直搜索引擎的优势　　通用搜索引擎是面向所有Internet用户提供搜索服务的，其用户规模十分庞大，如果想要搜索特定信息就需要用户详细定义关键词，尽量减少信息冗余。通用搜索引擎经过多年的商业应用后，其弊端也逐渐显现出来，而最为突出的就是搜索信息的海量化和无序化，造成用户定位信息的困难，而垂直搜索就在这个背景下出现了，他的服务方式有着自己独特的优势：其一就是用户提取信息更加容易；其二是搜索信息定位更加准确；其三是信息的时效性强；其四是搜索信息具有一定的深度和广度。这种优势针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务，其特点就是“专、精、特、深”，且更具有行业色彩，有效地拟补了通用搜索引擎的不足。　　3垂直搜索引擎的相关技术　　垂直搜索引擎所使用的相关技术主要包括：页面显示排序技术、数据存储及分布式技术、网络蜘蛛技术、中文分词技术、信息抽取技术等。　　3.1页面显示排序技术　　页面排序是针对用户关键字查询到的网页列表，采用何种策略将网页列表显示在用户面前，使用户最想知道的结果显示在最前面页数发生的概率最大。主要的实现算法有：PageRank算法、HITS算法。　　3.2数据存储及分布式技术　　尽管垂直搜索引擎保存的网页数量相对通用垂直搜索引擎小很多，但是，作为一个优秀的商业垂直搜索引擎，必须在提高性能的同时减低成本，提升竞争力。可以采用数据压缩的技术对数据进行压缩存储，采用数据库技术，如索引等提高数据读取速度，也可以采用分布式技术，通过多台服务器相互合作，以提高数据采集和更新速度。　　3.3网络蜘蛛的爬行策略　　网络蜘蛛的搜索策略是指当网络蜘蛛搜索到一个文档之后，下一步应该转移到哪一个文档的方法问题。目前比较常见的有IP 地址搜索策略、深度优先搜索策略、广度优先搜索策略、深度和广度搜索策略。　　3.4中文分词技术　　中文之间没有空格分割，所以分词更加困难，这种技术就应用在中文搜索当中。分词技术的过程是，对处理的材料进行分析，得到相应的单字出现的概率，然后对相邻的字出现概率进行统计，若远大于单字出现的概率之和，则可能成为一个词[2]。在实际应用当中，统计分词方法都是与字典结合起来使用的，这样既发挥匹配分词的切分速度快、效率高的特点，又能利用词典结合上下文识别生词，并能消除其歧义。　　3.5信息抽取技术[3] 　　信息抽取是指从一段文本中抽取指定的一类信息，并将其转化为结构化的数据存入一个数据库中供用户查询使用的过程。　　Web信息抽取技术有多种分类方式，根据抽取方法所采用的原理不同，可分为四类：基于自然语言理解的方式、基于包装器归纳的方式、基于Ontology的方式和基于HTML结构的方式，其中，使用最为厂泛的就是基于自然语言理解的方式。　　在Web环境中，基于自然语言理解的方法需要事先通过训练样本建立自然语言语料库，并对语料库中词项等基本元素进行语义标注。可以由人工编制抽取规则，也可从人工标注的语料库中自动学习获得。这类信息抽取主要适用于源文档中含有大量文本的情况，特别是合乎语法的文本。但是他也有其缺点，就是没有利用Web文档独特于普通文本的层次特性，抽取规则表达能力有限，缺乏健壮性。　　4垂直搜索的商业应用模式　　垂直搜索引擎技术应用在各种商业网站上，孕育而生了几种典型的运作模式。这些模式的使用在一定程度上提高了网站的盈利额。　　4.1关键字竞价排名　　垂直搜索网站的关键字竞价服务是指为网站会员提供的在“媒体信息”搜索结果页面上，每个关键字搜索结果页面设置特别推荐位，优先显示给消费者[4]。企业对特别推荐位进行竞价，竞价成功后，