- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
移动搜索引擎精要
历史:(选择)
搜索技术的历史—萌芽阶段:Archie 、Gopher
搜索技术的历史—起步阶段:Robot 、Spider
搜索技术的历史—发展阶段: Excite 、Galaxy、Yahoo
搜索技术的历史—繁荣阶段: Infoseek 、Alta Vista、Google、Baidu
搜索技术应用现状—采用分布式体系结构提高规模与性能
搜索技术应用现状—支持目录式分类结构和全文搜索
现在的搜索引擎都在3代,4代的在发展中
其中,第一代搜索引擎以早期 Yahoo 为代表,第二代以 Google 的创立为标志,之后Google 经过改进 Pagerank 和一系列技术,演化至第三代,而第四代搜索引擎有大量公司如Cuil,Quora 探索,但还未形成成熟的产品。
将信息分割成一个个关键字,并辅以关键字所在位置(例如第几页),从而构成一个倒排基本单位。是根据关键字查相应位置
1.收集待建索引的原文档(Document)
2.将原文档传给词条化工具(Tokenizer)进行文本词条化
3.将第二步得到??词条(Token)传给语言分析工具(Linguistic modules)进行语言学预处理,得到词项(Term)
4.将得到的词项(Term)传给索引组件(Indexer),建立倒排索引
4、信息检索系统的基本知识—评价信息检索系统的标准
信息检索系统的评价,主要是用户对所获取的结果进行评价。比如,是否喜欢系统,系统界面是否友好,是否能够找到用户所需要的信息。以下是评价信息检索系统的5个指标:
信息是否完全
信息检索的响应时间
召回率
精度
自然程度
5、索引创建过程
6、● 文档(Document)与域(Field)是Lucene中的重要概念,事实上任何与索引文档相关的操作,都是在document类与field类的基础上实现的。
● Document在lucene中是一种逻辑文件,Lucene本身无法对物理文件建立索引,只能识别处理Document类型的文件。 Document和物理文件没有关系,是一种数据源的集合,负责向lucene提供原始的要索引的文本内容。
● NOTE:Document是负责收集数据,甚至可以不使用物理文件来构建,一段文本、几个数字甚至是链接都可以作为构建Document的数据源。
7、Field的属性一般分为3类
是否存储
是否索引
是否分词
8、Lucene所以创建过程一般分为三个主要步骤:
将原始文档转为文本(Denormalization)
分析文本
将分析好的文本保存到索引中
9、删除索引中的文档:
deleteDocuments(Term)
删除包含特定项的所有文档
deleteDocuments(Term[ ])
删除包含数组任一元素的所有文档
deleteDocuments(Query)
删除匹配查询语句的所有文档
deleteDocuments(Query[ ])
删除匹配查询语句数组任一元素的所有文档
deleteAll()
删除索引全部文档,与writer先关闭在用参数create
=true重新打开登记,deleteAll()方法好处是不用关闭writer
10、使用IndexReader类的UndeleteALL()方法,可以恢复不是优化方式(物理)删除的文档。
File indexDir = new File(“D:\\luceneIndex);
IndexReader ir = IndexReader.open(indexDir);
ir.undeleteAll();
ir.close();
11、加权是指对文档和域的重要性通过加权因子进行人为地干预。
加权操作可以在索引期间完成,也可以在搜索期间完成。搜索期间的加权操作会更加动态化, 每次搜索操作都可以根据不通的加权因子独立选择加权或者不加权,但这个策略也可能要稍微多消耗点CPUX效率。
NOTE:无论在什么时候进行加权都需要小心,过多的加权操作,特别是在用户界面没有提示的相应文档已经被加权操作的情况下。这可能会使用户搜索到很多用户不关心的东西(如百度的竞价排名)。
文档的加权操作:doc.setBoots(float)
域的加权操作: Field subjectField =new Field(author, author,Field.Store.YES,Field.Index.ANALYZED));
subjectField. setBoots(1.2F);
默认的加权因子是1.0
12、(简答题)实现简单的搜索——Lucene的搜索流程
初始化Lucene的检索工具类IndexSe
原创力文档


文档评论(0)