- 2
- 0
- 约1.3万字
- 约 45页
- 2017-06-11 发布于湖北
- 举报
帮助文档 入库逻辑 入 库者定义到库中文档的结构,比如需要把网站内容加载到全文检索库,让用户通过“站内检索”搜索到相关的网页内容。入库文档结构与关系型数据库中的表结构类 似,每个入库的文档由多个字段构成,假设这里需要入库的网站内容包括如下字段:文章标题、作者、发布时间、原文链接、正文内容(一般作为网页快照)。 包含N个字段的文档(DOCUMENT)在真正入库前需要经过切词(或分词)索引,切词的规则由语言分析器(ANALYZER)完成。 切分后的“单词”被注册到索引树上,供查询时用,另外也需要把其它不需要索引的内容入库,所有这些是文件操作均由STORAGE完成。 Lucene的索引树结构非常优秀,是Lucene的一大特色。 查询逻辑 查询者输入查询条件,条件之间可以通过特定运算符进行运算,比如查询希望查询到与“中国”和“北京”相关的记录,但不希望结果中包括“海淀区中关村”,于是输入条件为“中国+北京-海淀区中关村”; 查询条件被传达到查询分析器中,分析器将将对“中国+北京-海 淀区中关村”进行分析,首先分析器解析字符串的连接符,即这里的加号和减号,然后对每个词进行切词,一般最小的词元是两个汉字,则中国和北京两个词不必再 切分,但对海淀区中关村需要切分,假设根据切词算法,把该词切分为“海淀区”和“中关村”两部分,则最后得到的查询条件可以表示为:“中国” AND “北京” AND NOT
您可能关注的文档
- SAESPC管理系统.ppt
- SANGFOR_AC_v11.0_2016年度渠道初级认证培训02_基础知识.ppt
- SANGFOR_AC_v11.0_2016年度渠道高级认证培训06_上网策略.ppt
- SANGFOR_AD_V5.1_2013年度培训03_链路负载与服务器负载配置_20130821.ppt
- LTE随机接入.ppt
- 湘教版七年级地理下册复习(全面、综合、实用)课案.ppt
- 湘教版五年级语文下册《留住今天的太阳》课案.ppt
- SANGFOR_NGAF_V6.6_2016年度渠道高级认证培训03_网页防篡改1.0.ppt
- 湘潭大学国际金融第五章 国际金融市场课案.ppt
- 世界降水分布规律(修改)课案.ppt
- 1+X软件开发实操考核真题及参考答案.docx
- 贵州省县中新学校计划项目高一上学期期中物理试卷(解析版).docx
- 2025年海南省海口市五校中考一模历史试题.docx
- 贵州省黔东南苗族侗族自治州2024-2025学年高一上学期1月期末英语试题.pdf
- 贵州省贵阳市修文县外研版(三起)五年级上册期末质量检测英语试卷(解析版).docx
- 2025届贵州省贵阳市第一中学高三一模考试语文试题.pdf
- 贵州省毕节市威宁彝族回族苗族自治县高一上学期期末考试政治试卷(原卷版).docx
- 贵州省毕节市威宁彝族回族苗族自治县高一上学期期末考试政治试卷(解析版).docx
- 贵州省六盘水市钟山区九年级上学期期末检测数学试题(解析版).docx
- 2026年中国皮鞋剥离试验机市场调查研究报告.docx
原创力文档

文档评论(0)