- 1、本文档共103页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自然语言理解-词法分析
词法分析 语言根据词的形态结构分类 分析型语言 没有专门表示语法意义的附加成分 汉语,藏语 黏着型语言 词内有专门表示语法意义的附加成分 芬兰语,日语 曲折性语言 用词的形态变化表示语法关系 英语,德语,法语 什么是词? 词是语言中最小的能独立运用的单位,是信息处理的基本单位。 界定词的困难所在 单字词与语素之间的划界 词与短语之间的划界 汉语自动分词 把没有明显分界标志的字串自动切分为词串 汉语词法分析所面临的问题 分词词表 重叠词、词缀 分词和理解,孰先孰后? 歧义切分字段 专有名词的识别 汉语双字形容词的重叠形式 汉语单字形容词的重叠形式 汉语双字动词的重叠形式 汉语单字动词的重叠形式 汉语其他词类的重叠形式 名词 哥哥,人人 山山水水,是是非非,方方面面,头头脑脑 数词 一一做了回答,两两结伴而来 量词 个个都是好样的,回回考满分 副词 常常,仅仅,的的确确 汉语重叠词的特点 汉语词能否重叠具有很强的个性特点 研究研究√ 工作工作× 有些词重叠后词性发生了变化 形容词重叠后一般成为状态词 个别量词重叠后可以成为其他词性 回回:副词 个个:名词 汉语词缀 前缀 老鹰、老虎、老三、老王 超豪华、超标准、超高速 非党员 后缀 骨头、砖头、甜头、苦头、盼头、想头 桌子、椅子、孩子、票子、房子 文学家、指挥家、艺术家 科学性、可能性、学术性 碗儿、花儿、玩儿、份儿、片儿 汉语切分歧义 例子 公路局处理解放大道路面积水问题。 南京市长江大桥说:…… ? 歧义切分字段 ? 混合型歧义:由交集型歧义和组合型歧义自身嵌套或两者交叉组合而产生的歧义 人才能:这样的人才能经受住考验。 人才能:这样的人才能经受住考验。 人才能:这样的人才能经受住考验。 真歧义和伪歧义 真歧义 确实能在真实语料中发现多种切分形式 比如“应用于”、“地面积” 伪歧义 虽然有多种切分可能性,但在真实语料中往往取其中一种切分形式 比如“挨批评”、“市政府” 交集型歧义字段的链长 链长:交集型歧义字段中含有交集字段的个数,称为链长。 链长为1:和尚未 链长为2:结合成分 链长为3:为人民工作 链长为4:中国产品质量结合成分子时 链长为6:努力学习语法规则 链长为7:治理解放大道路面积水 真实语料中歧义字段的分布 汉语真实文本中的分词歧义情况 材料一:孙茂松等1999 一个1亿字真实汉语语料库中抽取出的前4,619个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20%,其中4279个属伪歧义(占92.63%,如“和软件”、“充分发挥”、“情不自禁地”),覆盖率高达53.35%。 材料二:刘开瑛2000,第4章 78248个交集型歧义字段中, 伪歧义:94% 真歧义:6% 汉语真实文本中的分词歧义情况(续) 分词歧义的四个层级(何克抗等1991, 50883字语料) 词法歧义:84.1% (“用方块图形式加以描述”) 句法歧义:10.8% (“他一阵风似的跑了”) 语义歧义:3.4% (“学生会写文章”) 语用歧义:1.7% (“美国会采取措施制裁伊拉克”) 一个具体系统 前处理 在前处理中解决的问题 文本的一致性 文本中的控制词 文本的一致性 中文编码 GB:中文词 、GB 标点、GB字符。 ASCII: ASCII 标点 、ASCII字符. 同一文本中会出现GB和ASCII 例 鲁 迅 说 : “ 世 上 本 没 有 路 ! ” 鲁 迅 说 : 世 上 本 没 有 路 ! 鲁 迅 说 : “ 世 上 本 没 有 路 ! ” 例 鲁 迅 说 : “ 世 上 本 没 有 路 ! ” C2B3 D1B8 A3BA A1B0 B0CB B5CA C0C9 B1BE C3BB D3D0 C2B7 A3A1 A1B1 鲁 迅 说 : 世 上 本 没 有 路 ! C2B3 D1B8 A3BA 3A 22 B5CA C0C9 B1BE C3BB D3D0 C2B7 21 22 鲁 迅 说 : “ 世 上 本 没 有 路 ! ” C2B3 D1B8 A3BA 3A B0CB B5CA C0C9 B1BE C3BB D3D0 C2B7 21 A1B1 GB、ASCII混用问题 数据结构 GB two bytes ASCII one byte 系统必须正确识别,不然就会出现乱码。 解决方法 将ASCII扩展到两个字节 控制词问题 控制此并不影响人的理解,但影响系统的识别 怎样做? “鹬蚌相争” 是词组(成语)。 “鹬蚌相?争”还是成语吗?
文档评论(0)