基于Java的搜索引擎Nuth中文搜索技术研究..docVIP

基于Java的搜索引擎Nuth中文搜索技术研究..doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Java的搜索引擎Nuth中文搜索技术研究..doc

可口可乐奥运营销对品牌传播的启示 [ ]随着市场竞争的升级tch是一个优秀的基于Java 的开放源码搜索引擎,为了使它能够支持中文搜索,本文在 分析了 Nutch结构的基础上,采用词表分词技术和前向匹配 分词算法对中文信息进行分词,以JavaCC脚本实现上下文 相关文法中文分析模块,成功实现了 Nutch中文搜索功能。 关键词:搜索引擎;分词;正规 Abstract: InordertoenableChi nesesearchinNutch, whichisanexcellent cesearchengine,thi tructureofNutchand ineseinformationba naryandforwardmatc eseanalysismodulei Java-basedopensour spaperanalysesthes separateswordsinCh sedonChinesedictio hingalgorithm. Chin sgeneratedbyJavaCC script; thatresults insupportingChines esearchinNutch. Ke ywords:SearchEngin e; WordSegmentation ; RegularExpression 1前言 搜索引擎[1]是当今网络应用的核心问题,已经受到各 企业和研究部门的广泛关注。Lucene和Nutc h是针对国外 英文系统环境的搜索引擎,本文在研究了中文分词技术和 JavaC C技术的基础上,成功地实现了 Luce ne和Nucth的中 文分析模块,使L ucene和Nucth能够实现中文信息检索。 2Nutch分析 Luce ne是开放源码的基于Java的全文检索引擎,其贡 献者DougCutting是一位资深全文索引/检索专家。作为一 个全文检索系统,在进行检索之前需要建立索引,索引的过 程是先读取文章中的词语,然后一一存放在称为倒排索引文 件的索引数据库(IndexDataba se)中。索引数据库记录了词 语出现的位置,频率等相关信息,以备后面读取。Nutch是 Cutting创建的另一个Java开源项目,目的是提供全功能的 搜索引擎,其底层借助了 Lucene的部分功能,并且索引结 构与Lucen e兼容。 Lucene和Nutch并没有规定数据源的格式,而只提供了 一个通用的结构来接受索引的输入,因此输入的数据源可以 是数据库、WORD文档、PDF文档和 文档,只要能够设计 相应的解析转换器将数据源构造成Do cuement对象即可进行 索引。对于大批量的数据索引,还可以通过调整In dexerWrite的文件合并频率属性来提高批量索引的效率。用 户输入查询字符串,然后经过分析器的分析,就会产生一个 Query对象。真正搜索时,使用IndexSearcher类的se arch 方法,它返回Hits对象。通过遍历Hits对象的所有文档(doc ument),就可以找到所有被搜索到的文章。查询字符串的语 法定义为: Q uery:: = (Clause)* C lause: : = (Query)) 中间的逻辑包括:andor+-| |等符号,而且还有短语查 询和针对西文的前缀/模糊查询等。总的来说,这是其他很 多搜索引擎都不具备的功能。通过修改QueryParser的语法 生成脚本,还可以修改或扩展查询分析器的功能,使它更加 适用于中文环境。所有的问题都通过一个额外抽象层来方便 以后的扩展和重用,通过重新实现来迗到自己的目的,而对 其他模块而不需要。可以简单的应用入口 Searcher, Index er 并调用底层一系列组件协同的完成搜索任务。所有的对象的 任务都非常专一,比如搜索过程QueryParser分析将查询语 句转换成一系列的精确查询的组合(Query),通过底层的索 引读取结构IndexReader进行索引的读取,并用相应的打分 器给搜索结果进行打分/排序等。所有的功能模块原子化程 度非常高,因此可以通过重新实现而不需要修改其他模块。 除了灵活的应用接口设计,Lucene和Nutch还提供了 一些适 合大多数应用的语言分析器实现,这也是新用户能够很快上 手的重要原因之一。 3Nutch中文搜索 中文分词 在搜索引擎和各种语言处理的需要中,分词可以说是最 基本的操作。汉语句子是由词语组成的,人们在使用汉语时, 可以直接理解并使用它。对于计算机,是不可能迗到人类的 智能的,也不能理解人类语言。但是,由于人类仍然希望计 算机能理解人类的语言,并且迫切的希望使用在各种商业和 技术领域中,因此提出了计算机形式文法[2]。但是现有形 式文法是建立在事先分词的基础上的。对于某些语言,单

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档