移动搜索引擎精要.docxVIP

下载本文档

6
0
约4.13千字
约 12页
2017-05-09 发布于湖北
举报
版权申诉

移动搜索引擎精要.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

移动搜索引擎精要

历史：（选择）搜索技术的历史—萌芽阶段：Archie 、Gopher 搜索技术的历史—起步阶段：Robot 、Spider 搜索技术的历史—发展阶段： Excite 、Galaxy、Yahoo 搜索技术的历史—繁荣阶段： Infoseek 、Alta Vista、Google、Baidu 搜索技术应用现状—采用分布式体系结构提高规模与性能搜索技术应用现状—支持目录式分类结构和全文搜索现在的搜索引擎都在3代，4代的在发展中其中，第一代搜索引擎以早期 Yahoo 为代表，第二代以 Google 的创立为标志，之后Google 经过改进 Pagerank 和一系列技术，演化至第三代，而第四代搜索引擎有大量公司如Cuil,Quora 探索，但还未形成成熟的产品。将信息分割成一个个关键字，并辅以关键字所在位置（例如第几页），从而构成一个倒排基本单位。是根据关键字查相应位置 1.收集待建索引的原文档(Document) 2.将原文档传给词条化工具(Tokenizer)进行文本词条化 3.将第二步得到??词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理，得到词项(Term) 4.将得到的词项(Term)传给索引组件(Indexer),建立倒排索引 4、信息检索系统的基本知识—评价信息检索系统的标准信息检索系统的评价，主要是用户对所获取的结果进行评价。比如，是否喜欢系统，系统界面是否友好，是否能够找到用户所需要的信息。以下是评价信息检索系统的5个指标：信息是否完全信息检索的响应时间召回率精度自然程度 5、索引创建过程 6、● 文档（Document）与域（Field）是Lucene中的重要概念，事实上任何与索引文档相关的操作，都是在document类与field类的基础上实现的。 ● Document在lucene中是一种逻辑文件，Lucene本身无法对物理文件建立索引，只能识别处理Document类型的文件。 Document和物理文件没有关系，是一种数据源的集合，负责向lucene提供原始的要索引的文本内容。 ● NOTE：Document是负责收集数据，甚至可以不使用物理文件来构建，一段文本、几个数字甚至是链接都可以作为构建Document的数据源。 7、Field的属性一般分为3类是否存储是否索引是否分词 8、Lucene所以创建过程一般分为三个主要步骤：将原始文档转为文本（Denormalization）分析文本将分析好的文本保存到索引中 9、删除索引中的文档： deleteDocuments（Term）删除包含特定项的所有文档 deleteDocuments（Term[ ]）删除包含数组任一元素的所有文档 deleteDocuments（Query）删除匹配查询语句的所有文档 deleteDocuments（Query[ ]）删除匹配查询语句数组任一元素的所有文档 deleteAll() 删除索引全部文档，与writer先关闭在用参数create =true重新打开登记，deleteAll（）方法好处是不用关闭writer 10、使用IndexReader类的UndeleteALL（）方法，可以恢复不是优化方式（物理）删除的文档。 File indexDir = new File(“D:\\luceneIndex); IndexReader ir = IndexReader.open(indexDir); ir.undeleteAll(); ir.close(); 11、加权是指对文档和域的重要性通过加权因子进行人为地干预。加权操作可以在索引期间完成，也可以在搜索期间完成。搜索期间的加权操作会更加动态化，每次搜索操作都可以根据不通的加权因子独立选择加权或者不加权，但这个策略也可能要稍微多消耗点CPUX效率。 NOTE：无论在什么时候进行加权都需要小心，过多的加权操作，特别是在用户界面没有提示的相应文档已经被加权操作的情况下。这可能会使用户搜索到很多用户不关心的东西(如百度的竞价排名)。文档的加权操作：doc.setBoots(float) 域的加权操作： Field subjectField =new Field(author, author,Field.Store.YES,Field.Index.ANALYZED)); subjectField. setBoots(1.2F); 默认的加权因子是1.0 12、（简答题）实现简单的搜索——Lucene的搜索流程初始化Lucene的检索工具类IndexSe