基于给定的文档生成倒排索引.pdfVIP

  • 105
  • 1
  • 约2.64万字
  • 约 15页
  • 2015-09-15 发布于安徽
  • 举报
第二十六章:基于给定的文档生成倒排索引的编码与实践 作者:July、yansha。 出处:结构之法算法之道 引言 本周实现倒排索引。实现过程中,寻找资料,结果发现找份资料诸多不易:1、网上搜倒排索引实现,结果千篇一 律,例子都是那几个同样的单词;2、到谷歌学术上想找点稍微有价值水平的资料,结果下篇论文还收费或者要求注册之 类;3、大部分技术书籍只有理论,没有实践。于是,朋友戏 :网上一般有价值的东西不多。希望,本blog的出现能改 变此现状。 在第二十四章、倒排索引关键词不重复Hash编码中,我们针对一个给定的倒排索引文件,提取出其中的关键词,然 后针对这些关键词进行Hash不重复编码。本章,咱们再倒退一步,即给定一个正排文档(暂略过文本解析,分词等步 骤,日后会慢慢考虑这些且一并予以实现),要求生成对应的倒排索引文件。同时,本章还是基于Hash索引之上 (运用 暴雪的Hash函数可以比较完美的解决大数据量下的冲突问题),日后自会实现B+树索引。 与此同时,本编程艺术系列逐步从为面试服务而转到实战性的编程当中了,教初学者如何编程,如何运用高效的算 法解决实际应用中的编程问题,将逐步成为本编程艺术系列的主旨之一。 OK,接下来,咱们针对给定的正排文档一步一步来生成倒排索引文件,有任何问题,欢迎随时不吝赐教或批

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档