支持智能中文分词的互联网搜索引擎的构建.pdfVIP

  • 4
  • 0
  • 约2.53万字
  • 约 4页
  • 2015-09-26 发布于重庆
  • 举报

支持智能中文分词的互联网搜索引擎的构建.pdf

支持智能中文分词的互联网搜索引擎的构建

第27 卷 第23 期 计算机工程与设计 2006 年12 月 V ol . 27 N o . 23 Computer Engineering and Design Dec. 2006 支持智能中文分词的互联网搜索引擎的构建 曹羽中, 曹勇刚, 金茂忠, 刘 超 ( 北京航空航天大学计算机学院,北京 100083) 摘 要:中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch 的源代码结构的基础上, 基于JavaCC 实现了一个可扩展的词法分析器并将其与Nutch 集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch- Enhanced 。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnh anced 的搜索质量与Nutch 、Google、 百度进行了对比评测。结果表明它远优于 ,其查全率达到了 ,前 个搜索结果的查准率达到了 ,总体上具有与 Nutch 0.74 30 0.86 Google ,百度接近的中文搜索质量。 关键词:中文分词 分词算法 搜索引擎 词法分析器 检索精度 ; ; ; ; 中图法分类号: 文献标识码: 文章编号: ( ) TP391.3 A 1000-7024 2006 23-4395-04 Construction of web search engine supporting intelligent Chinese word segmentation CAO Yu-zhong, CAO Yong-gang, JIN Mao-zhong, LIU Chao (School of Computer Science and Engineering, Beij ing University of Aeronautics and Astronautics, Beij ing 100083, China) : Abstract Chinese word segmentation has a vital effect on the precision and the recall of web search engine for Chinese. By analyzing an open source web search engine Nutch, a scalable lexical analyzer is implemented based on JavaCC. Then through integrating it with Nutch, a web search engine NutchEnhanced which supports intelligent Chinese word segmentation is constructed, and is used as a plat- form for testing the effect of various Chinese word segmentation algorithms in search engine. The experimental result show, for Chinese query, NutchEnhanced outperforms Nutch on the precision. With recall of 0.74 and precision of top 30 results getting 0.86, its Chinese search qual

文档评论(0)

1亿VIP精品文档

相关文档