基于Java的搜索引擎Nuth中文搜索技术研究..docVIP

下载本文档

4
0
约7.34千字
约 13页
2018-11-02 发布于广东
举报
版权申诉

基于Java的搜索引擎Nuth中文搜索技术研究..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Java的搜索引擎Nuth中文搜索技术研究..doc

可口可乐奥运营销对品牌传播的启示［］随着市场竞争的升级tch是一个优秀的基于Java 的开放源码搜索引擎，为了使它能够支持中文搜索，本文在分析了 Nutch结构的基础上，采用词表分词技术和前向匹配分词算法对中文信息进行分词，以JavaCC脚本实现上下文相关文法中文分析模块，成功实现了 Nutch中文搜索功能。关键词：搜索引擎；分词；正规 Abstract： InordertoenableChi nesesearchinNutch, whichisanexcellent cesearchengine,thi tructureofNutchand ineseinformationba naryandforwardmatc eseanalysismodulei Java-basedopensour spaperanalysesthes separateswordsinCh sedonChinesedictio hingalgorithm. Chin sgeneratedbyJavaCC script； thatresults insupportingChines esearchinNutch. Ke ywords：SearchEngin e； WordSegmentation ； RegularExpression 1前言搜索引擎［1］是当今网络应用的核心问题，已经受到各企业和研究部门的广泛关注。Lucene和Nutc h是针对国外英文系统环境的搜索引擎，本文在研究了中文分词技术和 JavaC C技术的基础上，成功地实现了 Luce ne和Nucth的中文分析模块，使L ucene和Nucth能够实现中文信息检索。 2Nutch分析 Luce ne是开放源码的基于Java的全文检索引擎，其贡献者DougCutting是一位资深全文索引/检索专家。作为一个全文检索系统，在进行检索之前需要建立索引，索引的过程是先读取文章中的词语，然后一一存放在称为倒排索引文件的索引数据库(IndexDataba se)中。索引数据库记录了词语出现的位置，频率等相关信息，以备后面读取。Nutch是 Cutting创建的另一个Java开源项目，目的是提供全功能的搜索引擎，其底层借助了 Lucene的部分功能，并且索引结构与Lucen e兼容。 Lucene和Nutch并没有规定数据源的格式，而只提供了一个通用的结构来接受索引的输入，因此输入的数据源可以是数据库、WORD文档、PDF文档和文档，只要能够设计相应的解析转换器将数据源构造成Do cuement对象即可进行索引。对于大批量的数据索引，还可以通过调整In dexerWrite的文件合并频率属性来提高批量索引的效率。用户输入查询字符串，然后经过分析器的分析，就会产生一个 Query对象。真正搜索时，使用IndexSearcher类的se arch 方法，它返回Hits对象。通过遍历Hits对象的所有文档(doc ument),就可以找到所有被搜索到的文章。查询字符串的语法定义为： Q uery：: = (Clause)* C lause: : = (Query)) 中间的逻辑包括：andor+-| |等符号，而且还有短语查询和针对西文的前缀/模糊查询等。总的来说，这是其他很多搜索引擎都不具备的功能。通过修改QueryParser的语法生成脚本，还可以修改或扩展查询分析器的功能，使它更加适用于中文环境。所有的问题都通过一个额外抽象层来方便以后的扩展和重用，通过重新实现来迗到自己的目的，而对其他模块而不需要。可以简单的应用入口 Searcher, Index er 并调用底层一系列组件协同的完成搜索任务。所有的对象的任务都非常专一，比如搜索过程QueryParser分析将查询语句转换成一系列的精确查询的组合(Query)，通过底层的索引读取结构IndexReader进行索引的读取，并用相应的打分器给搜索结果进行打分/排序等。所有的功能模块原子化程度非常高，因此可以通过重新实现而不需要修改其他模块。除了灵活的应用接口设计，Lucene和Nutch还提供了一些适合大多数应用的语言分析器实现，这也是新用户能够很快上手的重要原因之一。 3Nutch中文搜索中文分词在搜索引擎和各种语言处理的需要中，分词可以说是最基本的操作。汉语句子是由词语组成的，人们在使用汉语时，可以直接理解并使用它。对于计算机，是不可能迗到人类的智能的，也不能理解人类语言。但是，由于人类仍然希望计算机能理解人类的语言，并且迫切的希望使用在各种商业和技术领域中，因此提出了计算机形式文法［2］。但是现有形式文法是建立在事先分词的基础上的。对于某些语言，单