垂直搜索技术.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
垂直搜索技术

搜索引擎对页面的分析 页面分析首先是对页面(下载到搜索引擎本地的页面-网页快照)建立索引,以实现对页面的快速定位;然后,提取页面的正文信息(过滤掉HTML标签),并对正文信息进行切词以及为这些词(即关键字)建立索引,从而得到页面与关键字的之间对应关系(一个页面对应多个关键字),最后,对所有关键字进行重组,并建立关键字与网页间对应关系的反向索引列表(一个关键字对应多个网页URL),从而实现根据关键字快速定位至相应的网页。(包括:网页索引表、切词后形成的关键字索引表、页面与关键字的一对多的关系列表、重组关键字与页面的一对多的关系列表)。 * 页面分析处理流程 * 页面与关键字关系 * 搜索引擎对页面排序 页面排序: 搜索引擎结合页面的内外部因素计算出页面与某个关键字的相关程度,从而得到与该关键字相关的页面排序列表。 影响页面排序因素:页面相关性、链接权重、用户行为等。 * 影响页面排序因素 页面相关性:是指页面内容与用户所查询的关键字在意义上的接近程度。主要由关键字匹配度、关键字密度、关键字分布、关键字权重标签等决定。 链接权重:链接主要分为内部链接、外部链接两种。某一页面得到的链接(包括内、外部链接)越多,那么该页面的链接权重值就越高。 ?用户行为:搜索引擎会根据用户对搜索结果的点击次数来对排序结果进行定期改进。 * 索引介绍 索引是搜索引擎的核心功能之一,它的结构决定了搜索引擎检索的速度,目前,无论是通用搜索还是垂直搜索,大多数使用的是倒排索引。 倒排索引,也称作反向索引,它是一种数据结构,存储字或词语在单个文档或多个文档集合中出现的频率和位置的映射。 * 倒排索引结构 * 倒排索引 倒排索引的主要流程为: 建立正向索引,分析网页后,得到以网页编号为主键的正向索引表; 创建反向索引,数据规模增大后可以采用分组索引; 再归并索引的策略。 * 分词的意义 中文分词作为搜索引擎的后台核心功能之一,决定了搜索信息的索引和检索的精度。在搜索引擎建立索引时,写入的索引是一个个的词条。检索也同样如此,用户在输入检索短语或语句后,首先进行分词处理,形成一个个的词条,然后再在索引库中进行查找,是否存在相同的词条。因而好的分词工具将决定一个搜索系统的搜索准确度和精度。 * 中文分词 中文分词:指的是将一个汉字序列切分成汉语词组序列。英语单词之间是用空格作为分界符的,而中文在词上无一个明显的分隔符,只在字、句和段落间有分隔符来划分,当然英文中也存在短语划分问题,不过在词的层面上,中文相对于英文来说,划分更复杂和困难。 * 中文分词方法 基于字符串匹配的分词方法 基于统计模型的分词方法 基于理解的分词方法 * 比较成功的中分分词系统 ICTCLAS-即中科院计算所汉语词法分析系统,是最早的中文开源分词项目之一。 Paoding 分词器-是一个开源中文分词组件,使用 Java 语言编写,并且提供对 Lucene 和 solr 的接口,它采用面向对象设计,具有高效率和扩展性。 JE 分词器-基于 Java 语言的开源工具,其接口简单,功能强大,能较好地完成中文分词,而且具有歧义分析功能,添加和删除词典等功能。 * 目录精细化 向深度挖掘型搜索发展 向交易平台发展 垂直搜索引擎的发展方向 * 目录精细化 与早期的网址分类搜索引擎相似,但垂直搜索引擎只选定了某一特定行业或某一主题进行目录的细化分类,结合机器抓取行业相关站点的信息提供专业化的搜索服务。这种专业化的分类目录(或称主题指南、列表浏览),很容易让用户迅速知道自己要找的是什么,并且按目录点击就能找到。 * 向深度挖掘型搜索发展 深度挖掘型垂直搜索引擎通过对元数据信息进行深度NT,为用户提供网页搜索引擎无法做到的专业性、功能性、关联性,有的加入了用户信息管理以及信息发布互动功能,能很好地满足用户对专业性、准确性、功能性、个性化的需求。专业的元数据属性构造背后需要一个强大专业人士组成的团队。这些专业人士对该领域的元数据模型进行专业的分析、关联整合,再通过搜索技术按这些元数据模型把这些信息组织呈现给用户。 * 向搜索交易平台发展 垂直搜索引擎由于自身对行业的专注,使得它可以提供行业信息深度和广度的整合以及更加细致周到的服务。对消费领域可以推出针对某一行业的搜索交易平台,比如美容搜索、餐饮搜索、购物搜索、机票旅游搜索。这种交易平台针对需要通过开展电子商务来获得更多顾客的商家。搜索交易平台让行业内商家和顾客直接沟通、咨询,不再需要转到第三方平台再进行交易。搜索交易平台有可能发展成ebay,taobao那样的购物平台。 * * 2014年1月,CNNIC第33次中国互联网络发展状况调查统计报告数据。 * * 垂直搜索引擎和普通的网页搜索引擎的

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档