移动搜索引擎精要.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
移动搜索引擎精要

历史:(选择) 搜索技术的历史—萌芽阶段:Archie 、Gopher 搜索技术的历史—起步阶段:Robot 、Spider 搜索技术的历史—发展阶段: Excite 、Galaxy、Yahoo 搜索技术的历史—繁荣阶段: Infoseek 、Alta Vista、Google、Baidu 搜索技术应用现状—采用分布式体系结构提高规模与性能 搜索技术应用现状—支持目录式分类结构和全文搜索 现在的搜索引擎都在3代,4代的在发展中 其中,第一代搜索引擎以早期 Yahoo 为代表,第二代以 Google 的创立为标志,之后Google 经过改进 Pagerank 和一系列技术,演化至第三代,而第四代搜索引擎有大量公司如Cuil,Quora 探索,但还未形成成熟的产品。 将信息分割成一个个关键字,并辅以关键字所在位置(例如第几页),从而构成一个倒排基本单位。是根据关键字查相应位置 1.收集待建索引的原文档(Document) 2.将原文档传给词条化工具(Tokenizer)进行文本词条化 3.将第二步得到??词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term) 4.将得到的词项(Term)传给索引组件(Indexer),建立倒排索引 4、信息检索系统的基本知识—评价信息检索系统的标准 信息检索系统的评价,主要是用户对所获取的结果进行评价。比如,是否喜欢系统,系统界面是否友好,是否能够找到用户所需要的信息。以下是评价信息检索系统的5个指标: 信息是否完全 信息检索的响应时间 召回率 精度 自然程度 5、索引创建过程 6、● 文档(Document)与域(Field)是Lucene中的重要概念,事实上任何与索引文档相关的操作,都是在document类与field类的基础上实现的。 ● Document在lucene中是一种逻辑文件,Lucene本身无法对物理文件建立索引,只能识别处理Document类型的文件。 Document和物理文件没有关系,是一种数据源的集合,负责向lucene提供原始的要索引的文本内容。 ● NOTE:Document是负责收集数据,甚至可以不使用物理文件来构建,一段文本、几个数字甚至是链接都可以作为构建Document的数据源。 7、Field的属性一般分为3类 是否存储 是否索引 是否分词 8、Lucene所以创建过程一般分为三个主要步骤: 将原始文档转为文本(Denormalization) 分析文本 将分析好的文本保存到索引中 9、删除索引中的文档: deleteDocuments(Term) 删除包含特定项的所有文档 deleteDocuments(Term[ ]) 删除包含数组任一元素的所有文档 deleteDocuments(Query) 删除匹配查询语句的所有文档 deleteDocuments(Query[ ]) 删除匹配查询语句数组任一元素的所有文档 deleteAll() 删除索引全部文档,与writer先关闭在用参数create =true重新打开登记,deleteAll()方法好处是不用关闭writer 10、使用IndexReader类的UndeleteALL()方法,可以恢复不是优化方式(物理)删除的文档。 File indexDir = new File(“D:\\luceneIndex); IndexReader ir = IndexReader.open(indexDir); ir.undeleteAll(); ir.close(); 11、加权是指对文档和域的重要性通过加权因子进行人为地干预。 加权操作可以在索引期间完成,也可以在搜索期间完成。搜索期间的加权操作会更加动态化, 每次搜索操作都可以根据不通的加权因子独立选择加权或者不加权,但这个策略也可能要稍微多消耗点CPUX效率。 NOTE:无论在什么时候进行加权都需要小心,过多的加权操作,特别是在用户界面没有提示的相应文档已经被加权操作的情况下。这可能会使用户搜索到很多用户不关心的东西(如百度的竞价排名)。 文档的加权操作:doc.setBoots(float) 域的加权操作: Field subjectField =new Field(author, author,Field.Store.YES,Field.Index.ANALYZED)); subjectField. setBoots(1.2F); 默认的加权因子是1.0 12、(简答题)实现简单的搜索——Lucene的搜索流程 初始化Lucene的检索工具类IndexSe

文档评论(0)

shuwkb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档