网易视频云：漫谈中文分词汇编.docx

下载文档 降价啦

1
0
约5.64千字
约 6页
2017-04-14 发布于湖北
举报
版权申诉
保障服务

网易视频云：漫谈中文分词汇编.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

网易视频云：漫谈中文分词汇编

网易视频云专家分享：漫话中文分词网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术，为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PASS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在线音视频平台。现在，网易视频云与大家分享一下中文分词。一、背景美国小伙Tom在中国已经半年了，自认为中文已经不错，就想测试一下自己的水平到底有多高。于是，他收到了下面这样一份试题，请说出以下题目中两句话的区别在哪里：1、冬天：能穿多少穿多少；夏天：能穿多少穿多少。2、剩女的原因主要有两个，一个是谁都看不上，另外一个是谁都看不上。3、单身人的来由：原来是喜欢一个人，现在是喜欢一个人。4、地铁里一个女孩给男友打电话，”我已经到西直门了，你也出发吧。如果你到了，我还没到，你就等着吧。如果我到了，你还没到，你就等着吧。”考完试后，老外的眼角是含着泪的，不知道是不是因为他爱这片土地爱得深沉。看吧，这就是自然语言处理的魅力所在。完整的中文自然语言处理过程一般包括以下五种中文处理核心技术：分词、词性标注、命名实体识别、依存句法分析、语义分析。其中，分词是中文自然语言处理的基础，搜素引擎、文本挖掘、机器翻译、关键词提取、自动摘要生成等等技术都会用到中文分词，可以说分词是自然语言大厦的地基，下面就让我们从它开始谈起。1）什么是中文分词中文分词就是将中文语句中的词汇按照使用时的含义切分出来的过程，也就是将一个汉字序列切分成一个个有单独含义的词语。自20世纪80年代以来，中文自动分词就一直是一个研究热点，由于中文语言的复杂性使之一直处于发展阶段。目前，分词主要包含细粒度分词和粗粒度分词两种，在不同的应用场景需要用到不同的粒度。细粒度分词是指将原始语句切分成最基本的词语，而粗粒度分词是指将原始语句中的多个基本词组合起来切成一个词，进而组成语义相对明确的实体。原始串：浙江大学坐落在西湖旁边细粒度：浙江/大学/坐落/在/西湖/旁边粗粒度：浙江大学/坐落/在/西湖/旁边2）为什么要中文分词有人会问到：”为什么要进行中文分词呢？”某人答：”因为搜索引擎要用，所以很重要。”甚至有人认为：”中国之所以没有进行工业革命，就是因为中文没有自动分词。对于专业书籍来说，完全依靠人进行分词是很慢很困难的，直接影响到了知识的传播。”当然，最后还是要看官方给出的回答。– 词是最小的能够独立活动的有意义的语言成分。– 汉语是以字为基本的书写单位，词语之间没有明显的区分标记。– 正确的分词是中文信息处理的基础与关键。对于中文而言，词是承载语义的最小单元，由词构成语句，又由语句构成篇章。但是，中文文本是由连续的字序列构成，词与词之间是没有天然的分隔符。在自然语言处理领域，国外已经做出了很多卓有成效的研究，但是那些研究大多基于英文（存在天然的分隔符），也就是说是以正确切分出单词为前提的。于是，NLP对于中文而言要想取得较好的科研成果，就需要准确识别词与词之间的边界，也就是分词。接下来我们就以搜索为例，具体的阐述一下分词的重要性与必要性。大家都知道，目前的搜素引擎是基于一种叫做倒排索引的结构，以什么作为索引的key值，直接影响到整个搜索引擎的准确度、召回率以及性能。１、如果不使用中文分词，可以采用单个汉字索引方式。例如，”网易”，会先索引”网”字，再索引”易”字。搜索过程中，也是先寻找”网”字关联的所有文档，再寻找”易”字关联的所有文档，最后对所有被检索出的文档做”与”运算，同时”网”，”易”位置连续的文档才算符合要求。这种方式存在一个非常挑战性的问题，常用汉字总共3000左右，每次查询过程中进行“与”操作的计算量会相当大。对于大数据量的搜索引擎来讲，每天面临亿万级别的查询，这样的索引结构无疑是灾难性的。２、为了优化上面提到的速度问题，还有另外一种索引结构也是可以避开中文分词的，那就是ｎ元组合索引方式。用２元索引来说，”中国人”，会先索引”中国”，再索引”国人”。在搜索过程中，也是对”中国”和”国人”检索出的文章进行”与”操作。这样的搜索过程会大大减少在搜索过程中的计算量，但是仍会面临另外一个问题：准确度。有很多这样的例子，搜”北大”会检索出”东北大学”，搜”的士”会出现”不想当将军的士兵不是好士兵”。对于大数据量的搜索引擎系统来说，这样的用户体验是极差的。这个时候，就体现到分词的重要性了，我们往往使用有意义的词来进行代替以上两种方法来建立索引。3）中文分词面临的挑战在知道分词的重要性之后，那么我们会面临一个新的问题，如何才能把一个字序列准确的切分成词序列，就像下面的例子会有不止一种的切分方式。原串：结婚的和尚未结婚的切分一：结婚/的/和尚/未/结婚/的切分二：结婚/的/和/尚未/结婚/的还有更极端的例