分词技术说明.doc

下载文档

8
0
约3.4千字
约 5页
2017-05-28 发布于江苏
举报
版权申诉
保障服务

分词技术说明.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分词技术说明

分词技术文档说明一.基本介绍 1.分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。数据处理我们要理解分词技术先要理解一个概念。那就是查询处理，当用户向搜索引擎提交查询后，搜索引擎接收到用户的信息要做一系列的处理。步骤如下所示：1).首先是到数据库里面索引相关的信息，这就是查询处理。那么查询处理又是如何工作的呢？很简单，把用户提交的字符串没有超过3个的中文字，就会直接到数据库索引词汇。超过4个中文字的，首先用分隔符比如空格，标点符号，将查询串分割成若干子查询串。举个例子。“什么是百度分词技术” 我们就会把这个词分割成“ 什么是，百度，分词技术。”这种分词方法叫做反向匹配法。 2).然后再看用户提供的这个词有没有重复词汇如果有的话，会丢弃掉，默认为一个词汇。接下来检查用户提交的字符串，有没有字母和数字。如果有的话，就把字母和数字认为一个词。这就是搜索引擎的查询处理。（1）.正向最大匹配法就是把一个词从左至右来分词。举个例子：”不知道你在说什么” 这句话采用正向最大匹配法是如何分的呢？“不知道，你，在，说什么”。（2）.反向最大匹配法不知道你在说什么反向最大匹配法来分上面这段是如何分的。“不，知道，你在，说，什么”，这个就分的比较多了，反向最大匹配法就是从右至左。（3）.就是最短路径分词法。就是说一段话里面要求切出的词数是最少的。 “不知道你在说什么”最短路径分词法就是指，把上面那句话分成的词要是最少的。“不知道，你在，说什么”，这就是最短路径分词法，分出来就只有3个词了。（4）.双向最大匹配法。而有一种特殊的情况，就是关键词前后组合内容被认为粘性相差不大，而搜索结果中也同时包含这两组词的话，百度会进行正反向同时进行分词匹配。开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎 ik?：采用了特有的“正向迭代最细粒度切分算法“，多子处理器分析模式paoding?：Lucene中文分词“庖丁解牛” Paoding Analysis主要优势在于原生支持词库更新检测。主要劣势为作者已经不更新甚至不维护了。mmseg4j?：用?MMSeg 算法?实现的中文分词器在complex基础上实现了最多分词(max-word)，但是还不成熟，还有很多需要改进的地方。 Smartcn(一) ：ik Analyzer 说明：在IKAnalyzer2012中分词器有两个：一个是IKAnalyzer，另外一个是IKSegmenter。前者继承Lucene，而后者是可以独立。IK2012具有160万字/秒（3000KB/S） IK Analyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始， IKAnalyzer已经推出了4个大版本。最初，它是以开源项目Luence为应用主体的，结合词典分词和文法分析算法的中文分词组件。从3.0版本开始，IK发展为面向Java的公用分词组件，独立于Lucene项目，同时提供了对Lucene的默认优化实现。在2012版本中，IK实现了简单的分词歧义排除算法，标志着IK分词器从单纯的词典分词向模拟语义分词衍化。 IK Analyzer 2012特性: 优点： 1.采用了特有的“正向迭代最细粒度切分算法”，具有60万字/秒的高速处理能力。 2.采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。 3.优化的词典存储，更小的内存占用。支持用户词典扩展定义。 (1).基于Lucene实现需要IKAnalyzer-5.0.1.jar和lucene相关jar包 (2).独立Lucene实现只需要引用IKAnalyzer-5.0.1.jar即可 . paoding?Analyzer 说明：支持不限制个数的用户自定义词库，纯文本格式，一行一词，使用后台线程检测词库的更新，自动编译更新过的词库到二进制版本，并加载在PIII 1G内存个人机器上，1秒?可准确分词?100万?汉字 1.高扩展性：能非常方便的扩充字典，也可以非常方便的添加停用词。 2.效率极高-极高效率的字典查找算法；尽量避免无谓试探查找。? 3.算法简练-简单易理解的算法，但效率却是非常高效的。 4.轻松支持最大/最小切词。缺点： 1.分词精确度不好，涉及了汉语语义的问题，几乎不可完全解决。如：“和服”实例。安装步骤： 1.需要jar包 paoding-analysis.jar ，lucen