海量中文智能分词的技术白皮书(0).docVIP

下载本文档

2
0
约7.24千字
约 11页
2018-05-17 发布于未知
举报
版权申诉

海量中文智能分词的技术白皮书(0).doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

★ 保密 ★ 目录序言 2 第一章产品概述 3 1.1 产品简介 3 1.2 产品的适用范围 3 1.3 产品结构 3 第二章产品技术特点 3 2.1 分词准确率高 4 2.2 分词效率高 4 2.3 功能接口丰富，使用灵活方便 4 第三章产品功能介绍 4 3.1 分词功能模块的介绍 4 3.2 开发接口 4 3.3 功能列表 5 第四章典型应用 7 4.1 KM知识管理系统 7 4.2 搜索引擎 7 4.3 辞书出版 7 4.4 信息服务 7 4.5 网站信息发布 7 第五章产品性能指标 8 第六章运行环境 8 6.1 WINDOWS 8 6.2 LINUX 8 6.3 UNIX 9 第七章成功案例 9 7.1商务印书馆 9 7.2慧聪搜索引擎 9 7.3其他案例 10 序言 1.什么是中文分词?分词就是将连续的字序列按照一定的规范成词序列的过程。，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段可以通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，虽然英文也同样存在短语的划分问题，但是在词这一层上，中文比之英文要复杂的多、困难的多。中文分词的应用??? 中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。??? 通过近几年发展互联网上的信息也在急剧膨胀，各类信息混杂在一起，要想充分利用这些信息资源就要对它们进行整理，如果面对中文信息不采用分词技术，那么整理的结果就过于粗糙，而导致资源的不可用，例如：“制造业和服务业是两个不同的行业”和“我们出口日本的和服比去年有所增长”中都有“和服”，，结果是检索“和服”的相关信息，会将他们都检索到。通过引入分词技术，可以使机器对信息的整理更准确更合理，在“制造业和服务业是两个不同的行业”中“和服”不会被一个词来处理，那么检索“和服”当然不会将它检索到，使得检索结果更准确，效率也会大幅度的提高。中文分词的意义和作用要想说清楚中文分词的意义和作用，到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说，智能计算就是让机器“能看会想，能听会讲”。要想实现这样的一个目标，首先就要让机器理解人类的语言，只有机器理解了人类的语言文字，才使人与机器的交流成为可能。，“词是最小的能够独立活动的有意义的语言成分”，所以对于中文来讲，将词确定下来是理解自然语言的第一步，只有跨越了这一步，中文才能英文那样过渡到短语划分、概念抽取以及主题分析，以至于自然语言理解，最终达到智能计算的最高境界，实现人类的梦想。1）信息检索领域如：全文检索、主题检索 2）汉字处理领域如：智能拼音输入、手写识别输入、中文OCR 识别、自动校对、简繁转换 3）语音处理领域如：语音合成、语音识别 4）内容识别与分析领域如：信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘 5）自然语言理解领域如：机器翻译、自然语言接口 1.3 产品结构第二章产品技术特点多年以来，中文分词技术一直是阻碍中文信息处理技术进一步发展的瓶颈。因为词是能独立活动的有意义的最小语言单位。在词的界定方面，中文不同于西文之处在于，西文词之间是有自然分隔符的，而中文却不具备，需要通过一定的技术手段进行处理，才能将词准确的分离出来，这就是分词技术。所以，西文基本上不用经过分词就可以直接进入到检索技术、短语划分、语义分析等更高一层的技术领域，而对于中文，只有越过这个技术瓶颈问题，分词的准确率足够高、分词速度足够快，中文的信息处理技术才有可能和西文的信息处理技术在一个起跑线上。分词是中文信息处理从字符处理水平向语义处理水平提升的关键技术之一，是中文智能计算技术的基础。目前，中文分词技术普遍存在分词准确率低和分词效率不高两方面的问题，海量中文智能分词技术在这两方面都有所突破。通过研究发现，中文自动分词准确率低主要受以下几方面因素的困扰： 1）词表收录 2）分词规范 3）新词识别 4）歧义切分从纯技术角度来看，新词识别和歧义切分是困扰分词的两大技术难点。海量中文智能分词采用复方概念平衡各算法，使海量分词在大规模语料测试中的准确率达到了99.7%（北大语料封闭测试），分词效率2000 万字/分钟（测试环境为：PC单机 CPU：Amd 2500+；内存512M DDR），该指标目前处于国内领先水平，已经达到实用要求。正因如此，海量承担了2000 年度国家863 计划课题——“智能信息内容分析方法研究”。海量在中文分词技术基础之上推出了海量中文智能分词基础件，作为国内