软谋vip10教程十期代码lucene.pdfVIP

下载本文档

0
0
约1万字
约 8页
2024-09-01 发布于北京
举报
版权申诉

软谋vip10教程十期代码lucene.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

lucene.NET详细使用与优化详解

1lucene简介

1.1什么是lucenepoweredby2

Lucene是一个全文搜索框架，而不是应用产品。因此它并不像或者

Desktop那么拿来就能用，它只是提供了一种工具让你能实现这些产品。

1.2lucene能做什么

要回答这个问题，先要了解lucene的本质。实际上lucene的功能很单一，说到底，就是你给

它若干个字符串，然后它为你提供一个全文搜索服务，告诉你你要搜索的出现在哪里。

知道了这个本质，你就可以发挥想象做任何符合这个条件的事情了。你可以把站内都索引

了，做个资料库；你可以把一个数据库表的若干个字段索引起来，那就不用再担心因为

“%like%”而锁表了；你也可以写个自己的搜索引擎……

1.3你该不该选择lucene

下面给出一些测试数据，如果你觉得可以接受，那么可以选择。

测试一：250万记录，300M左右文本，生成索引380M左右，800线程下平均处理时间

300ms。

测试二：37000记录，索引数据库中的两个varchar字段，索引文件2.6M，800线程下平

均处理时间1.5ms。

2lucene的工作方式

lucene提供的服务实际包含两部分：一入一出。所谓入是写入，即将你提供的源（本质是字符

串）写入索引或者将其从索引中删除；所谓出是读出，即向用户提供全文搜索服务，让用户可

以通过定位源。

2.1写入流程

源字符串首先经过analyzer处理，包括：分词，分成一个个单词；去除stopword（可

选）。

将源中需要的信息加入document．各个Field中，并把需要索引的Field索引起来，把需要

的Field起来。

将索引写入器，器可以是内存或磁盘。

2.2读出流程

用户提供搜索，经过analyzer处理。

对处理后的搜索索引找出对应的document．

用户根据需要从找到的document．提取需要的Field。

3一些需要知道的概念

lucene用到一些概念，了解它们的含义，有利于下面的讲解。

3.1

Analyzer是分析器，它的作用是把一个字符串按某种规则划分成一个个，并去除其中的

无效，这里说的无效是指英文中的“of”、“the”，中文中的“的”、“地”等，这些

在文章中大量出现，但是本身不包含什么关键信息，去掉有利于缩小索引文件、提高效

率、提高。

分词的规则千变万化，但目的只有一个：按语义划分。这点在英文中比较容易实现，因为英文

本身就是以单词为单位的，已经用空格分开；而中文则必须以某种方法将连成一片的句子划分

成一个个。具体划分方法下面再详细介绍，这里只需了解分析器的概念即可。

3.2document

用户提供的源是一条条记录，它们可以是文本文件、字符串或者数据库表的一条记录等等。一

条记录经过索引，就是以一个document．形式在索引文件中的。用户进行搜索，也

是以document．表的形式返回。

3.3field

一个document．以包含多个信息域，例如一篇文章可以包含“标题”、“正文”、“最后修改时

间”等信息域，这些信息域就是通过Field在document．的。

Field有两个属性可选：和索引。通过属性你可以控制是否对这个Field进行；通

过索引属性你可以控制是否对该Field进行索引。这看起来似乎有些废话，事实上对这两个属

性的正确组合很重要，下面举例说明：

还是以刚才的文章为例子，我们需要对标题和正文进行全文搜索，所以我们要把索引属性设置

为真，同时我们希望能直接从搜索结果中提取文章标题，所以我们把标题域的属性设置为

真，但是由于正文域太大了，我们为了缩小索引文件大小，将正文域的属性设置为假，当

需要时再直接文件；我们只是希望能从搜索解果中提取最后修改时间，不需要对它进行搜

您可能关注的文档

文档评论（0）

lzjbook118 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

软谋vip10教程十期代码lucene.pdfVIP