- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.研究方法-北京大学网络所.doc
Report of WBIA Project
北京大学互联网信息工程研发中心
Report of WBIA Project 2
课程名称:WBIA
授课老师:彭波
助理教师:曹霖
学生: 赵帅 1001213656
裴雨龙 1001213635
李金平 1001213193
目录
TOC \o 1-3 \h \z \u HYPERLINK \l _Toc278923395 摘要 PAGEREF _Toc278923395 \h 3
HYPERLINK \l _Toc278923396 1. 背景介绍 PAGEREF _Toc278923396 \h 3
HYPERLINK \l _Toc278923397 2. 研究方法 PAGEREF _Toc278923397 \h 3
HYPERLINK \l _Toc278923398 2.1 建立索引和查询系统 PAGEREF _Toc278923398 \h 3
HYPERLINK \l _Toc278923399 2.2 Lucene默认的Ranking代码分析 PAGEREF _Toc278923399 \h 4
HYPERLINK \l _Toc278923400 2.3改进Ranking算法及其评估方法 PAGEREF _Toc278923400 \h 6
HYPERLINK \l _Toc278923401 3. 实验结果 PAGEREF _Toc278923401 \h 7
HYPERLINK \l _Toc278923402 3.1 搜索显示 PAGEREF _Toc278923402 \h 7
HYPERLINK \l _Toc278923403 3.2 对改进Ranking算法的评估结果 PAGEREF _Toc278923403 \h 8
HYPERLINK \l _Toc278923404 4. 总结 PAGEREF _Toc278923404 \h 9
HYPERLINK \l _Toc278923405 5. 参考文献 PAGEREF _Toc278923405 \h 9
摘要
本次试验的研究内容是Inverted Index and Retrieval System,主要分为三个步骤: 配置Lucene, 对ccer数据建立索引和查询系统;阅读代码,分析Lucene的ranking算法,并写一个简短的报告文档;改进ranking算法,并进行评估。
背景介绍
Apache HYPERLINK /t/lucene/Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。它提供的一组解读,过滤,分析文件,编排和使用索引的API,使使用者可以随时应自已需要自订其功能。
Lucene使你可以为你的应用程序添加索引和搜索能力。Lucene可以索??并能使得可以转换成文本格式的任何数据能够被搜索。Lucene并不关心数据的来源、格式甚至它的语言,只要你能将它转换为文本。这就意味着你可经索引并搜索存放于文件中的数据:在远程服务器上的web页面,存于本地文件系统的文档,简单的文本文件,微软Word文档,HTML或PDF文件或任何其它能够提取出文本信息的格式。
Lucene具有四大特点:索引文件格式独立于应用平台;提供了索引的扩展机制;设计了独立于语言和文件格式的文本分析接口;
研究方法
2.1 建立索引和查询系统
读取文件
由于是对文本建立索引,所以目前只需要网页文件,在遍历过程中对所有的
文件做了一下判断,只取shtml、html、asp、php、htm等后缀的文件。通过
读取所有文件名,并将其保存在一个String中,以“/”将文件名隔开,之后便可
以使用使用String []list=s.split(/);得到文件名列表。
(2)建立索引
通过CCER抓取到的数据存放的位置建立一个File,然后为其下面的所有
网页文件建立索引writer = new IndexWriter(FSDirectory.open(new
File(indexPath)),analyzer, true,
IndexWriter.MaxFieldLength.LIMITED);
并通过 如图2-1所示的
您可能关注的文档
- 13-PRRP(4R)并联机构的设计-农业工程学报.doc
- 13.1.3应用第三方插件.ppt
- 13.3基于流套接字的客户服务器通信.ppt
- 13.3基于神经网络的系统辨识示例-北京科技大学自动化学院.ppt
- 13.学校运动空间与使用满意度之研究以辅仁大学为例-辅仁大学体育学系.doc
- 14-4-5多维式资料库.ppt
- 1604网络基本操作.ppt.ppt
- 160823Partnership_OfficeassistantJD160930.doc-互满爱人与人.doc
- 17挂机短信(商信宝).ppt
- 18-30.观念系统资料表.doc
- 2023学年诸暨中学高三年级第二学期3月第二次模拟考试(政治)公开课教案教学设计课件资料.docx
- 运动的合成与分解(二)公开课教案教学设计课件资料.pptx
- 近五年浙江省各地图形的翻折(轴对称)原题公开课教案教学设计课件资料.doc
- 如何做教师-2019-11-13-中关村一小相关公开课教案教学设计课件资料.pptx
- 生活中的圆周运动 (水平面)正式版公开课教案教学设计课件资料.pptx
- 专题10 条件概率与全概率公式公开课教案教学设计课件资料.docx
- 金华市东阳市2019学年第二学期期末测试卷公开课教案教学设计课件资料.doc
- 5 琥珀(第二课时)【慕课堂版】公开课教案教学设计课件资料.pptx
- 项目五 打印米老鼠模型公开课教案教学设计课件资料.ppt
- (打印版)9月25日地理周练公开课教案教学设计课件资料.docx
文档评论(0)