- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
                        查看更多
                        
                    
                采用Lucene.Net与盘古分词器网上书城站内搜索方法
                    采用Lucene.Net与盘古分词器网上书城站内搜索方法
    摘要:该文针对网上书城对信息实时性与准确性高的要求,提出了使用lucene与盘古分词器相结合的站内搜索系统解决方案。通过分析lucene内置分词器与盘古分词器的性能差异,选择了针对中文开发的盘古分词器,提高了搜索的准确性;通过采用“生产者与消费者”多线程模式与“单例”设计模式相结合的方法,实现了数据的实时更新。实验结果证明了设计方案的有效性。 
  关键词:lucene;盘古分词;网上书城;站内搜索 
  中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)20-0184-04 
  站内搜索是指对网站内部信息的精确检索和资源挖掘, 它为用户提供准确、快速的站内信息检索服务,站内搜索效果直接决定着网站商品的销量。现有的网上书城网站大多采用链接google和baidu网站的方法实现搜索,不利于数据的实时更新,此外,还存在着书籍信息准确性不高的缺点。 
  Lucene是目前最流行开源检索工具包之一, 已经在许多搜索项目中得到了应用。盘古分词也是一个比较成熟的中文分词组件,而且采用多元分词技术,可以很好的实现对中文的分词。因而本文针对中小网上书城提出了一个基于lucene.net与盘古分词的站内搜索技术方案,提高网站的竞争力。 
  1 站内搜索方案设计 
  网上书城站内搜索系统框图如图1所示。 
  本文提出的站内搜索方案将系统分为书籍编辑模块、索引模块、检索模块和展示模块4个部分。书籍编辑模块主要负责收集书籍的信息并且转换为纯文本信息,即lucene可识别的信息。索引模块主要针对数据库创建和维护索引库,即每当增加或修改书籍的信息到数据库时,就更新索引库。 检索模块主要针对用户输入的关键字进行分析,然后查询索引库找到相关联书籍,并且按相关性程度排序。展示模块主要负责接受用户输入的关键字,并展示搜索的结果中书籍的信息以及如何展示。根据搜索结果,可以定制个性化的展示。 
   
  图1 网上书城站内搜索系统框图 
  2 盘古分词器性能分析 
  盘古分词是一个中英文分词组件。它的作者通过分析比较中文分词的一元分词、二元分词,多元分词和精确分词的性能,得出多元分词适用性更强。但采用多元分词产生了一些问题,第一,多元分词和搜索引擎结合得到较多的匹配结果,同时也增加了索引文件的大小;第二,由于将一些单词进行了拆分,搜索结果的排序会受到影响。为了克服这两个缺点,盘古分词提出了多元分词的冗余度(Redundancy)和多元分词结果的权重级别(Rank)的概念。盘古分词支持3级冗余。比如“湖北大学”,冗余度为0、1、2时,分词结果分别是“湖北大学”、“湖北,湖北大学,大学”、“湖北,湖北大学,大,大学,学”。盘古分词将多元分词出来的单词根据其词长,词的间隔以及未登录词的取舍等条件给定了不同的权重。在搜索时对分解出来的关键字,我们指定权重来影响搜索结果,以实现结果有效排序。比如搜“湖北大学”时,可以将“湖北大学”设置较高的权重,而“大学”和“湖北”设置较低权重,则包含“湖北大学”的记录就优先于包含“湖北”或“大学”的记录,这样就解决了排序问题。 
  为了说明盘古分词优于lucene内置分词器,做了如下表格的对比。从表中可以看出,StopAnalyzer针对非字母字符拆分文本,然后小写英文字母,再过滤掉停用词;KeywordAnalyzer将整个文本当作一个词处理;SimpleAnalyzer和StopAnalyzer类似;WhitespaceAnalyzer根据空格拆分词汇单元;StandardAnalyzer按每个汉字拆分词,PanGuAnalyzer按有意义的中文词语分词,显然效果最佳。因而本文选择盘古分词器,提高搜索的准确性。 
  分词比较的结果如下表1所示。 
  表1 盘古分词器与lucene内置分词器性能比较 
  [分词器 
  结果 
  分词内容\Lucen.NET分析与应用 机械工业出版社 吴众欣 
  \StopAnalyzer\lucene|net分析与应用|机械工业出版社|吴众欣\KeywordAnalyzer\lucene分析与应用 机械工业出版社 吴众欣\SimpleAnalyzer\lucene|net分析与应用|机械工业出版社|吴众欣\WhitespaceAnalyzer\lucene.NET分析与应用|机械工业出版社|吴众欣\StandardAnalyzer\|lucene|分|析|与|应|用|机|械|工|业|出|版|社|吴|众|欣\PanGuAnalyzer\|lucene|分析|与|应用|机械|工业出版社|吴众欣\] 
  3 站内搜索的实现 
  3.1 书籍编辑模块 
  为了可以批量添加书籍信息,使
                您可能关注的文档
最近下载
- GB50702-2011砌体结构加固设计规范.docx VIP
- SY-BA-29-2011整车后碰撞试验规范.doc VIP
- 2024年广西玉林市中考物理模拟试卷五.docx VIP
- 2025吉林省国资委监管企业招聘527人(2号)考试备考题库及答案解析.docx VIP
- 2024年广西玉林市中考物理试卷与参考答案.docx VIP
- XX卫生院“十五五”发展规划(2025年-2029年).docx VIP
- 第四章 熔化焊与热切割安全用电教案 邢建章.docx VIP
- 弟子规全文带拼音排版好可直接打印.doc VIP
- 污泥处理系统设计计算.pdf VIP
- (高清版)DB32∕T 4025-2021 污水处理中恶臭气体生物净化工艺设计规范.pdf VIP
 原创力文档
原创力文档 
                        

文档评论(0)