网站大量收购闲置独家精品文档,联系QQ:2885784924

开源搜索技术与FirteX检索平台.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
开源搜索技术与FirteX检索平台 郭瑞杰 中国科学院计算技术研究所 ruijieguo@ 2007.4.18 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做FirteX? 使用FirteX 理解和扩展FirteX 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做FirteX? 使用FirteX 理解和扩展FirteX 一个简单的搜索引擎体系结构 Web采集 页面分析和信息抽取 全文索引 检索 开源检索平台—工程类 Apache Lucene: (Java) 功能强大的搜索平台,包括全文索引和检索 支持增量、差量索引,支持各种文档索引支持多种检索方式。 架构和代码可读性非常好,堪称开源搜索引擎的的经典 Lucene的其他版本: C++版(CLucene,非官方开发,代码可读性不是很好,bug也不少) C#版(L,纳入官方开发) C版(Lucy,官方开发,还没有正式发布代码) 缺点: 性能较差: Java编写、实现算法 不太适合信息检索实验 对中文支持不是很好 (仅提供单字索引) 开源检索平台—工程类(cont.) Nutch (Java) 是Lucene Project的一个子项目,一个完整的搜索引擎,包括web采集,web内容分析,链接分析,分布式文件系统(Hadoop),索引和检索(采用Lucene) 可扩展,基于插件式架构: URL Normalizers and Filters 插件 网络协议插件(HTTP,FTP等) 分析器插件 索引和查询插件 Hadoop (分布式文件系统) 基于Google File System 采用Google提出的MapReduce 开源检索平台—工程类(cont.) YACY:基于P2P的分布式Web 索引(Java) Hyper Estraier :支持P2P架构,开放式API,C开发,Linux/Windows平台 Swish-e:快速,灵活的开源搜索引擎,支持多种文件格式的索引. C开发,windows/linux SWISH++ :基于Swish-e 的文件索引和搜索引擎,C开发,Unix平台 Zebra :结构化文本索引和检索系统,C开发,windows/Linux平台 ht://Dig :完备的索引和搜索系统,针对domain和intranet,C++开发,Unix,Linux平台 Xapian: C++开发, GPL 开源检索平台—实验类 Lemur: (C++,跨平台) 语言模型和信息检索的工具包,由麻州大学和卡内基梅隆大学合作开发 支持Unix,Linux,Windows等操作系统 Indexing、Retrieval、Distributed IR、Document Clustering 、Summarization 、Simple text processing等 缺点:仅仅是一个实验系统,索引数据库不具有移植性,性能较差,系统架构一般 开源检索平台—实验类 (cont.) Zettair (C,跨平台,来自RMIT大学) Justin Zobel, IR领域大牛 Wumpus (C++, GPL, Linux, 来自Waterloo大学) 主要定位:文件系统搜索 支持多用户,支持在线索引 功能强大,性能也不错 代码扩展性较差 Terrier (Java) 不能自由下载,需申请 MG Managing Gigabytes: Compressing and Indexing Documents and Images 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做FirteX? 使用FirteX 理解和扩展FirteX 国内开源搜索平台的现状 国内,开源平台方面在FirteX之前是空白 工程应用上,大多基于Lucene架构,自主研发的不多 科学实验上,多数采用Lemur,修修补补,自己开发实验平台的很少,跟着别人走 现有开源平台存在的一些问题: 以Lucene为代表的工程应用类: 性能欠佳,处理的数据规模有限 不支持在线索引 对中文支持较差(单字索引,效率和准确率差) 以Lemur为代表的实验平台类: 仅限于检索模型方面和查询扩展等效果方面的实验 无法实现索引、检索算法,在线索引等性能方面的实验 对中文支持较差(单字索引,不符合中文特种) 目标和动机 大纲 搜索技术与开源平台 搜索技术简介 Lucene、Lemur等开源平台及相关工具介绍 FirteX-高性能全文索引与检索平台 为什么做Firt

文档评论(0)

kaku + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8124126005000000

1亿VIP精品文档

相关文档