- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                Lucene写搜索引擎
                    简单搜索引擎的设计与实现 向永清 Email : sunxyq@163.com  理科2号楼2320  北京大学信息科学技术学院 * Outline 搜索引擎基础知识 搜索引擎基本结构 一个简单的实例 开发环境的配置 简单爬虫的编写 简单索引器的编写 简单检索器的编写 系统演示 小结   搜索引擎基础知识 什么是搜索引擎? 搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。  为什么需要搜索引擎? 互联网上信息剧增 浏览器的出现 PC处理能力大大提高 搜索引擎基础知识 基本工作原理 抓取网页 即所谓的网络爬虫  处理网页 包括分词、索引、排序等处理  提供检索服务 快速、精确的检索服务 搜索引擎基础知识 几个比较重要的阶段 1990 Archie—FTP搜索 1994 Yahoo—目录搜索引擎 1998 Google—全文搜索引擎 2000 Baidu—中文全文搜索引擎 2007 kooxoo、aibang—生活搜索 搜索引擎基础知识 搜索引擎分类 目录搜索引擎:yohoo以及早期的sohu 全文搜索:Google、Baidu 元搜索引擎:/ 商业模式 竞价排名 点击付费   搜索引擎基本结构         环境安装与配置 安装JDK,配置好环境变量,包括path和classpath JAVA_HOME = C:\Program Files\Java\jdk1.5.0 path = %JAVA_HOME%\bin Classpath = %JAVA_HOME%\lib\tools.jar;%JAVA_HOME%\lib\dt.jar 环境安装与配置 安装tomcat,并配置环境变量 在classpath加入路径C:\Program Files\Apache Software Foundation\Tomcat 5.0\server\lib\servlets-common.jar;这是tomcat servlet包所在路径 下载Lucene2.1.0开发包,并配置classpath,Lucene2.1.0中开发包的路径信息  搜索引擎基本结构 四个主要部分 搜索器 即 网络爬虫 索引器 用于建立倒排索引 分词器 分词处理 检索器 用于排序返回结果 一个简单爬虫 爬虫的本质 超链接分析器 实现方法 深度优先或者宽度优先搜索 实现代码见clawer.java 该爬虫仅实现对一个页面的超链分析,读者可以用深度或者宽度优先策略来实现对整个互联网的超链分析  建立索引类 索引类即一个简单索引器 利用Lucene的索引工具,主要三步:  1.分别建立对Document\Field\IndexWriter  2.把field加入Document  3.把document加入IndexWriter 详细代码见TextFileIndexer.java 建立检索类 检索类就是一个简单的检索器 利用Lucene提供的分词和检索工具 IndexSearcher:是lucene中最基本的检索工具,所有的检索都会用到IndexSearcher工具; Query:查询,lucene中支持模糊查询,语义查询,短语查询,组合查询等等,如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery等一些类。 QueryParser: 是一个解析用户输入的工具,可以通过扫描用户输入的字符串,生成Query对象。 Hits:在搜索完成之后,需要把搜索结果返回并显示给用户,只有这样才算是完成搜索的目的。在lucene中,搜索的结果的集合是用Hits类的实例来表示的。 Analyzer:分析器,主要用于分析搜索引擎遇到的各种文本。常用的有StandardAnalyzer分析器,StopAnalyzer分析器,WhitespaceAnalyzer分析器等。 建立检索类 在网页中显示接口 编写一个servlet,文件名为query.java,见代码 配置servlet映射文件 部署servlet 访问执行 结语 搜索引擎四个核心模块 爬虫 索引器 分词器 检索器  * * 
                您可能关注的文档
最近下载
- 电力分析软件:PSSE二次开发all.docx VIP
- 冠脉介入培训试题及答案.docx VIP
- 电力调度软件:PSSE二次开发all.docx VIP
- 电力分析软件:PSSE二次开发_(4).PSSE编程环境与语言.docx VIP
- 电力调度软件:PSSE二次开发_(6).PSSE高级功能与优化.docx VIP
- 电力调度软件:PSSE二次开发_(3).Python在PSSE中的应用.docx VIP
- 电力分析软件:PSSE二次开发_(24).未来电力系统趋势与PSSE的发展.docx VIP
- 既有管线保护专项施工方案(已审批).doc
- 不同人群的运动处方.pptx VIP
- 电力调度软件:PSSE二次开发_(5).PSSE案例分析与实践.docx VIP
 原创力文档
原创力文档 
                        

文档评论(0)