网站大量收购独家精品文档,联系QQ:2885784924

汉语分词研究.pptx

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;

一、汉语分词概述

二、汉语分词算法

二、中文分词工具测评;

汉语分词概述

1汉语分词定义

2汉语分词原因

3汉语分词难点

4汉语分词研究现状;

汉语分词概述

·1.什么是汉语分词?

汉语以字为基本书写单位,词语之间没有明显的区分标记。

汉语分词,指的是将一个汉字序列切分成一个个单独的词。

通俗地讲,就是要由机器在中文文本中词与词之间加上标记。

输入:

我是学生。

输出:

我/是/学生/。;

汉语分词概述·2.为什么要分词?

1研究背景

2分词作用;

研究背景

·计算机发展;

分词作用

·英文

Knowledgeispower

单词之间有空格,很容易进行词语匹配

·中文的语义与字词的搭配关系

南京市/长江大桥

南京市长/江大桥

词的正确切分是进行中文文本处理的必要条件;

分词作用

·分词应用

互联网绝大多数应用都需要分词,典型应用实例如下:

汉字处理:拼音输入法、手写识别、简繁转换…信息检索:Google、Baidu…

内容分析:机器翻译、广告推荐、内容监控….语音处理:语音识别、语音合成.….

...;

汉语分词概述

●分词难点

◆歧义无处不在

交集歧义(多种切分交织在一起)

对于汉字串ABC,AB、BC同时成词

例:结合/成,结/合成;

内塔尼亚胡说的确实在理

组合歧义

对于汉字串AB,A、B、AB同时成词

例:这个人/手上有痣

公司缺人手

混合型歧义

同时包含交叉型歧义和组合型歧义

例:这样的/人/才能/经受住考验

这样的/人才/能/经受住考验

这样的/人/才/能/经受住考验

据统计交集型歧义字段约占全部歧义字段的85%-90%;

汉语分词概述

●分词难点

◆歧义无处不在

真歧义

歧义字段在不同的语境中确实有多种切分形式

例:这块/地/面积/还真不小

地面/积/了厚厚的雪

伪歧义

歧义字段单独拿出来看有歧义,但在所有真实语境中,仅有一种切分形式可接受

例:挨/批评(V)挨批/评(×)

对于交集型歧义字段,真实文本中伪歧义现象远多于真歧义现象;

汉语分词概述

●分词难点

◆新词(未登录词)层出不穷

实体名词和专有名词

中国人名:李明、张三、老王等

中国地名:三义庙、中关村、白沟等

翻译人名:奥巴马、布什、科比、梅西

翻译地名:阿尔卑斯山、新奥尔良、洛杉矶机构名:联想集团、国际卫生组织华为

商标字号:非常可乐同仁堂

专业术语和新词语

专业术语:万维网、主机板、模态、逻辑、贝叶斯算法缩略词:三个代表、打假、计生办

新词语:卡拉OK;

汉语分词概述

●分词难点

◆未登录词识别

未登录词识别困难

(1)未登录词没有明确边界,缺少英语中的分隔符、大小写、词的形态、冠词等语法信息

例:张掖市民乐县

(2)许多未登录词的构成单元本身可以独立成词例:张建国

(3)呈现一定的句法结构

例:好又多、我爱我家房地产经纪公司

通常每一类未登录词都要构造专门的识别算法

识别依据

内容构成规律(用字规律)

外部环境(上下文);

汉语分词概述

●分词难点

◆未登录词识别现状

较成熟

中国人名、译名、中国地名

较困难

商标字号、机构名

很困难

专业术语、缩略词、新词语;

汉语分词概述

●分词难点

普通词与未登录词互用

高明表演真好(演员)/他的表演很高明汪洋到洞庭湖看到一片汪洋

◆普通词与未登录词交织在一起

克林顿对内塔尼亚胡说

胡锦涛听取龚学平等同志的汇报;

汉语分词概述

●汉语分词研究现状

研究队伍

目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,

几乎没有了。

分词准确率超过

◆搜索引擎中的汉语分词99%,业界最好

Google的中文分词技术采用的是美国一家名叫BasisTechnology的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技提供的分词技术。;

汉语分词概述

●汉语分词研究现状

常见项目

SCW

文档评论(0)

专注于各类教育类资料、资格考试类资料、实用模板类资料、行业资料等十余年。

1亿VIP精品文档

相关文档