2.研究方法-北京大学网络所.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2.研究方法-北京大学网络所.doc

Report of WBIA Project 北京大学互联网信息工程研发中心 Report of WBIA Project 2 课程名称:WBIA 授课老师:彭波 助理教师:曹霖 学生: 赵帅 1001213656 裴雨龙 1001213635 李金平 1001213193 目录  TOC \o 1-3 \h \z \u  HYPERLINK \l _Toc278923395 摘要  PAGEREF _Toc278923395 \h 3  HYPERLINK \l _Toc278923396 1. 背景介绍  PAGEREF _Toc278923396 \h 3  HYPERLINK \l _Toc278923397 2. 研究方法  PAGEREF _Toc278923397 \h 3  HYPERLINK \l _Toc278923398 2.1 建立索引和查询系统  PAGEREF _Toc278923398 \h 3  HYPERLINK \l _Toc278923399 2.2 Lucene默认的Ranking代码分析  PAGEREF _Toc278923399 \h 4  HYPERLINK \l _Toc278923400 2.3改进Ranking算法及其评估方法  PAGEREF _Toc278923400 \h 6  HYPERLINK \l _Toc278923401 3. 实验结果  PAGEREF _Toc278923401 \h 7  HYPERLINK \l _Toc278923402 3.1 搜索显示  PAGEREF _Toc278923402 \h 7  HYPERLINK \l _Toc278923403 3.2 对改进Ranking算法的评估结果  PAGEREF _Toc278923403 \h 8  HYPERLINK \l _Toc278923404 4. 总结  PAGEREF _Toc278923404 \h 9  HYPERLINK \l _Toc278923405 5. 参考文献  PAGEREF _Toc278923405 \h 9  摘要 本次试验的研究内容是Inverted Index and Retrieval System,主要分为三个步骤: 配置Lucene, 对ccer数据建立索引和查询系统;阅读代码,分析Lucene的ranking算法,并写一个简短的报告文档;改进ranking算法,并进行评估。 背景介绍 Apache HYPERLINK /t/lucene/Lucene是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。它提供的一组解读,过滤,分析文件,编排和使用索引的API,使使用者可以随时应自已需要自订其功能。 Lucene使你可以为你的应用程序添加索引和搜索能力。Lucene可以索??并能使得可以转换成文本格式的任何数据能够被搜索。Lucene并不关心数据的来源、格式甚至它的语言,只要你能将它转换为文本。这就意味着你可经索引并搜索存放于文件中的数据:在远程服务器上的web页面,存于本地文件系统的文档,简单的文本文件,微软Word文档,HTML或PDF文件或任何其它能够提取出文本信息的格式。 Lucene具有四大特点:索引文件格式独立于应用平台;提供了索引的扩展机制;设计了独立于语言和文件格式的文本分析接口; 研究方法 2.1 建立索引和查询系统 读取文件 由于是对文本建立索引,所以目前只需要网页文件,在遍历过程中对所有的 文件做了一下判断,只取shtml、html、asp、php、htm等后缀的文件。通过 读取所有文件名,并将其保存在一个String中,以“/”将文件名隔开,之后便可 以使用使用String []list=s.split(/);得到文件名列表。 (2)建立索引 通过CCER抓取到的数据存放的位置建立一个File,然后为其下面的所有 网页文件建立索引writer = new IndexWriter(FSDirectory.open(new File(indexPath)),analyzer, true, IndexWriter.MaxFieldLength.LIMITED); 并通过 如图2-1所示的

文档评论(0)

170****0532 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8015033021000003

1亿VIP精品文档

相关文档