15.搜索引擎-倒排文档.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎数据库存储结构 搜索引擎数据库存储结构 搜索引擎数据库存储结构 搜索引擎数据库存储结构 倒排文档 倒排索引 倒排索引 倒排文档的结构 倒排文档结构的改进 倒排文档结构的改进 倒排文档结构的改进 倒排文档结构的改进 倒排文档结构的改进 例子 例子 (1)存储爬虫采集的网页的主要目的,是为了响应用户的检索。由于数据的存储结构直接影响着查询效率,所以研究网页的存储结构是一个不可忽视的问题。 (2)文本检索的演化进程大致如下:全文扫描(Full text scanning)、文件签名(Signature File)和倒排文档(Inverted file)。 全文扫描是一个顺序查找过程,在这种搜索模式下,人们已经研究出多种关于字符串匹配的算法,比如KMP算法、Boyer-Moore算法以及FSA算法等等。 优点:便捷的文本插入和更新,而且不需要额外的存储空间,其最大的缺点是较差的检索响应时间 文件签名方法通过把原始文档转化为签名文档,很大程度上减小了文档的长度,来加快查找速度 由于这种方式仍旧是顺序查找,所以并没有从根本上改变响应不够灵敏的缺点。 随着需要处理的文本逐渐增多,针对这种情况,人们开始把文档中的关键词建立索引,并在索引后面记录该关键词的信息(比如文档标识,关键词的位置及其权重等),这种检索模式可以满足在大语料库中快速查询。 倒排文档起初的做法是把文档中的关键词(KeyWord)建立索引,后来为了满足对任意检索单位检索的需求,逐渐形成了全文检索模式(ruU text retrieval),即对文档中的所有单词建立索引,由于中文的词语切分、概念切分还没有很好地得到解决,所以大都采用了单汉字标引技术 这种索引表中的每一项都包括一个属性值和具有 该属性值的各记录的地址。 由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。 在搜索引擎收集完数据的预处理阶段,搜索引擎往往需要一种高效的数据结构来对外提供检索服务。而现行最有效的数据结构就是“倒排索引”。 倒排索引的生成过程如图: 倒排文档,一个倒排文档由两个部分组成: 索引文件(Indexing File):索引文件中的每一个条目(Item)对应文献中的一个可检索单位。 后缀文件(Postings File):每一个后缀文件则记录包含该索引单位的文献信息以及其它相关信息(比如索引在文献中的权值) 建立索引文件时,根据中文的内码特点,可以方便地把所有GB2312的汉字哈希到一个94X94的二维数组,使查询时快速访问到索引文件中的索引项 倒排文档的存储结构,直接决定了搜索引擎系统的检索速度,并且在一定程度上也影响到检索结果的准确度。 网络上的网页繁多,更新迅速,而且信息冗余量大。对数据存储方式的改进也正是根据这些特点 中英文自动摘要 对Spider搜索到的每~个网页做200字的摘要。建立全文索引是对每一篇摘要建立索引,而非原始文本。 因为摘要中的字词能够更有力地表达网页的主题,检索结果当然也就更准确。 另外摘要的篇幅比原文短,可以大幅度减小后缀文件的大小,从而提高检索效率。 统计结果表明,新浪、新华网、中国新闻网三个网站的新闻平均纯文本大小是4.35k字节(17,386个文件的大小是75,695,220字节)。因此200汉字的摘要是原文长度的1/10。 对于索引文件和后缀文件结构的改进 建立索引文件时,如果以单汉字作为标引项,可以简化标引难度,并且可以在处理检索时能够采用统一的规则,而且能够检索任意字符串。但是这种方式也有明显的缺点: (1)单汉字与文档间的相关度难以精确计算 仅仅依赖汉字出现频率来计算汉字在文档中的权重并不恰当 一篇标题为“各种马的区别”的网页中,“马”这个字出现次数非常多 当用户检索“马大哈”这个条目时,如果根据单汉字方式处理,把这个网页当作一个比较符合要求的结果返回,显然不能让用户满意 对于索引文件和后缀文件结构的改进 (2)汉字间错误的组合导致不符合要求的检索结果 完全基于汉字的处理方式,总是不能避免如下的错误 查询“天真”返回了包含“今天真热”的文档 在著名的搜索引擎Google中,返回的结果第5条就是以“事发十天真相难明”为标题的网页(2002年) 查询“明天”返回了包含“小明天天迟到’’的文档, 查询“如果”返回包含“薯片不如果冻好吃”的文档 查询“和服”返回结果中包含许多“电脑的销售和服务’’之类的网页 对于索引文件和后缀文件结构的改进 为了解决上述两个问题,必须把网页提升到概念的层面来处理 处理方法是:先把搜索到的网页解析出纯文本,进行概念提取,对于没有被词典中的词切分出的汉字组合

文档评论(0)

优美的文学 + 关注
实名认证
文档贡献者

优美的文学优美的文学优美的文学优美的文学优美的文学

1亿VIP精品文档

相关文档