汉语分词模板.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一些抽取出的新词(二元组) * xx 2021-1-28 人名识别 规则方法:利用语言规则来进行人名识别。优点:识别较准确;缺点:很难列举所有规则,规则之间往往会顾此失彼,产生冲突,系统庞大、复杂,耗费资源多但效率却不高 统计方法:一种是仅从字、词本身来考虑,通过计算字、词作人名用的概率来实现,另一种结合基于统计的汉语词语边界划分来实现。统计方法占用的资源少、速度快、效率高,但准确率较低。其合理性、科学性及所用统计源的可靠性、代表性、合理性难以保证。搜集合理的有代表性的统计源的工作本身也较难。 混合方法:取长补短 * xx 2021-1-28 一种基于统计和规则的人名识别方法 中文姓名用字特点(82年人口普查结果) 729个姓氏用字 姓氏分布很不均匀,但相对集中 有些姓氏可用作单字词 名字用字分布较姓氏要平缓、分散 名字用字涉及范围广 某些汉字既可用作姓氏,又可用作名字用字 * xx 2021-1-28 人名识别系统资源 语料库:95、96两年的人民日报语料全集。共约4000万字。 人名库:包含共约31000多个人名。是95、96两年人民日报语料的所有人名的集合。 人名库和语料库的一致性对保证统计数据的准确性至关重要。 * xx 2021-1-28 人名识别系统知识库 姓氏用字频率库和名字用字频率库:653个单姓氏,15个复姓,1894个名字用字 * xx 2021-1-28 人名识别系统知识库 名字常用词表 朝阳 劲松 爱国 建国 立新 黎明 宏伟 朝晖 向阳 海燕 爱民 凤山 雪松 新民 剑峰 建军 红旗 光明 * xx 2021-1-28 xx xx * 汉语分词 * xx 2021-1-28 主要内容 分词歧义 分词规范 主要分词方法 生词识别 * xx 2021-1-28 分词的提出和定义 汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题 添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词 * xx 2021-1-28 分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。 王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha) * xx 2021-1-28 分词面临的主要难题 如何面向大规模开放应用是汉语分词研究亟待解决的主要问题 如何识别未登录词 如何低廉地获取语言学知识 词语边界歧义处理 实时性应用中的效率问题 * xx 2021-1-28 分词歧义 交集型切分歧义 组合型切分歧义 * xx 2021-1-28 交集型切分歧义 汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。 [例] “结合成分子” 结合 | 成 分|子 | 结合|成|分子| 结 | 合成 |分子| [例] “美国会通过对台售武法案” [例] “乒乓球拍卖完了” * xx 2021-1-28 组合型切分歧义 汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词 [例]组合型切分歧义:“起身” 他站 | 起 | 身 | 来。 他明天 | 起身 | 去北京。 * xx 2021-1-28 “真歧义”和“伪歧义” 真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义 伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等 * xx 2021-1-28 未登录词 虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词 分类: 专有名词:中文人名、地名、机构名称、外国译名、时间词 重叠词:“高高兴兴”、“研究研究” 派生词:“一次性用品” 与领域相关的术语:“互联网” * xx 2021-1-28 分词规范 词是自然语言的一种客观存在 汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异 汉语信息处理

文档评论(0)

WUYH168 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档