构造汉语的统计计算语言模型 哈工大社会计算与信息检索研究中心.ppt

构造汉语的统计计算语言模型 哈工大社会计算与信息检索研究中心.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
构造汉语的统计计算语言模型 哈工大社会计算与信息检索研究中心

汉语分词 汉语分词 主要内容 分词歧义 分词规范 主要分词方法 生词识别 分词的提出和定义 汉语文本是基于单字的,汉语的书面表达方式也是以汉字作为最小单位的,词与词之间没有显性的界限标志,因此分词是汉语文本分析处理中首先要解决的问题 添加合适的显性的词语边界标志使得所形成的词串反映句子的本意,这个过程就是通常所说的分词 分词的意义 正确的机器自动分词是正确的中文信息处理的基础 文本检索 和服 | 务 | 于三日后裁制完毕,并呈送将军府中。 王府饭店的设施 | 和 | 服务 | 是一流的。 如果不分词或者“和服务”分词有误,都会导致荒谬的检索结果。 文语转换 他们是来 | 查 | 金泰 | 撞人那件事的。(“查”读音为cha) 行侠仗义的 | 查金泰 | 远近闻名。(“查”读音为zha) 分词面临的主要难题 如何面向大规模开放应用是汉语分词研究亟待解决的主要问题 如何识别未登录词 如何低廉地获取语言学知识 词语边界歧义处理 实时性应用中的效率问题 分词歧义 交集型切分歧义 组合型切分歧义 交集型切分歧义 汉字串AJB被称作交集型切分歧义,如果满足AJ、JB同时为词(A、J、B分别为汉字串)。此时汉字串J被称作交集串。 [例] “结合成分子” 结合 | 成 分|子 | 结合|成|分子| 结 | 合成 |分子| [例] “美国会通过对台售武法案” [例] “乒乓球拍卖完了” 组合型切分歧义 汉字串AB被称作组合型切分歧义,如果满足条件:A、B、AB同时为词 [例]组合型切分歧义:“起身” 他站 | 起 | 身 | 来。 他明天 | 起身 | 去北京。 “真歧义”和“伪歧义” 真歧义指存在两种或两种以上的可实现的切分形式,如句子“必须/加强/企业/中/国有/资产/的/管理/”和“中国/有/能力/解决/香港/问题/”中的字段“中国有”是一种真歧义 伪歧义一般只有一种正确的切分形式,如“建设/有”、“中国/人民”、“各/地方”、 “本/地区”等 未登录词 虽然一般的词典都能覆盖大多数的词语,但有相当一部分的词语不可能穷尽地收入系统词典中,这些词语称为未登录词或新词 分类: 专有名词:中文人名、地名、机构名称、外国译名、时间词 重叠词:“高高兴兴”、“研究研究” 派生词:“一次性用品” 与领域相关的术语:“互联网” 分词规范 词是自然语言的一种客观存在 汉语书写过程中并不分词连写,对词组和词、单字语素和单字词的划分因人而异,甚至因时而异 汉语信息处理现在需要制订统一的分词标准,否则将严重影响计算机的处理 《信息处理用现代汉语分词规范及自动分词方法》:结合紧密、使用频繁 具体的分词标准实例 二字或三字词,以及结合紧密、使用稳定的:发展 可爱 红旗 对不起 自行车 青霉素 四字成语一律为分词单位:胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组:社会主义 春夏秋冬 由此可见 五字和五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分: 时间/就/是/生命/ 失败/是/成功/之/母 具体的分词标准实例 结合紧密、使用稳定的词组则不予切分:不管三七二十一 惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位: 妇女能顶/半边天/ 他真小气,象个/铁公鸡/ 略语一律为分词单位:科技 奥运会 工农业 分词单位加形成儿化音的“儿” :花儿 悄悄儿 玩儿 具体的分词标准实例 阿拉伯数字等,仍保留原有形式:1234 7890 现代汉语中其它语言的汉字音译外来词,不予切分:巧克力 吉普 不同的语言环境中的同形异构现象,按照具体语言环境的语义进行切分: 把/手/抬起来 这个/把手/是木制的 常见的动词分词规范 动词前的否定副词一律单独切分:不/写 不/能 没/研究 未/完成 用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不予切分:说/没/说 看/不/看 相信/不/相信 动宾结构的词或结合紧密、使用稳定的:开会 跳舞 解决/吃饭/问题 孩子该/念书/了 结合不紧密或有众多与之相同结构词组的动宾词组一律切分:吃/鱼 学/滑冰 写/信 常见的动词分词规范 动宾结构的词或词组如中间插入其它成分,则应予切分:吃/两/顿/饭 跳/新疆/舞 动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分:打倒 提高 加长 做好 “2十1,1”或“1十2”结构的动补词组一律切分:整理/好 说/清楚 解释/清楚 打/得/倒 提/不/高 偏正结构的词,以及结合紧密的词不予切分:胡闹 瞎说 死记 常见的动词分词规范 复合趋向动词一律为分词单

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档