自然语言理解-词法分析.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

词法分析

分析型语言01没有专门表示语法意义的附加成分02汉语,藏语03黏着型语言04词内有专门表示语法意义的附加成分05芬兰语,日语06曲折性语言07用词的形态变化表示语法关系08英语,德语,法语09语言根据词的形态结构分类

21词是语言中最小的能独立运用的单位,是信息处理的基本单位。单字词与语素之间的划界把没有明显分界标志的字串自动切分为词串界定词的困难所在词与短语之间的划界汉语自动分词4365什么是词?

?背景汉语的特点:?汉语是大字符集的语言英语有26个字母,而常用的汉字就有六七千个,总数超过五万?书面汉语的词与词之间没有明确的分隔标记

23145例如:复数、单数,过去、现在,阴性、阳性等等?印欧语系多有形态变化,而汉语缺少形态变化?汉语中兼类现象严重例如:“和”根据《现代汉语词典》可以有五种读音,六种词性,以及十六种不同的词义?背景

汉语词法分析所面临的问题分词词表重叠词、词缀分词和理解,孰先孰后?歧义切分字段专有名词的识别

?汉语词的抽象定义(既“词是什么”)与具体判定(既“什么是词”)问题,语言学界并未完全解决01?词表对自动分词而言,是最基础的“构件”02?分词词表

?分词词表?01?《信息处理用现代汉语分词规范》02?迄今也没有一个公认的、具有权威性的词表,这是分词问题所面临的第一个困难03

汉语双字形容词的重叠形式

汉语单字形容词的重叠形式

汉语双字动词的重叠形式

汉语单字动词的重叠形式

名词哥哥,人人山山水水,是是非非,方方面面,头头脑脑数词一一做了回答,两两结伴而来量词个个都是好样的,回回考满分副词常常,仅仅,的的确确汉语其他词类的重叠形式

01汉语词能否重叠具有很强的个性特点02研究研究√03工作工作×04有些词重叠后词性发生了变化05形容词重叠后一般成为状态词06个别量词重叠后可以成为其他词性07回回:副词08个个:名词汉语重叠词的特点

前缀老鹰、老虎、老三、老王超豪华、超标准、超高速非党员后缀骨头、砖头、甜头、苦头、盼头、想头桌子、椅子、孩子、票子、房子文学家、指挥家、艺术家科学性、可能性、学术性碗儿、花儿、玩儿、份儿、片儿汉语词缀

213?分词和理解,孰先孰后??计算机分词仍然面临知识短缺的大问题?计算机大概永远做不到像人那样先理解后分词4?不可企求百分之百的正确切分,这是自动分词所面临的第二个困难

例子01公路局处理解放大道路面积水问题。02南京市长江大桥说:……03汉语切分歧义

?歧义切分字段定义1.1 交集型歧义:字串ABC,其中汉字字串A、B、C的长度均大于零,该字串可以切分为AB/C或A/BC,则称该字串为交集型歧义字串。例如:出现在————出现/在(切分1)出现在————出 /现在(切分2)

01?歧义切分字段?02定义1.2 组合型歧义:字串AB,其中汉字字串A、B的长度均大于零,该字串可以切分成AB或A/B,则称该字串为组合型歧义字串。03例如:04上————马/上(切分1)05马上————马上(切分2)

混合型歧义:由交集型歧义和组合型歧义自身嵌套或两者交叉组合而产生的歧义人才能:这样的人才能经受住考验。人才能:这样的人才能经受住考验。人才能:这样的人才能经受住考验。歧义切分字段?

比如“挨批评”、“市政府”虽然有多种切分可能性,但在真实语料中往往取其中一种切分形式伪歧义比如“应用于”、“地面积”确实能在真实语料中发现多种切分形式真歧义真歧义和伪歧义

链长:交集型歧义字段中含有交集字段的个数,称为链长。链长为1:和尚未链长为2:结合成分链长为3:为人民工作链长为4:中国产品质量结合成分子时链长为6:努力学习语法规则链长为7:治理解放大道路面积水交集型歧义字段的链长

真实语料中歧义字段的分布

真歧义:6%0678248个交集型歧义字段中,04材料一:孙茂松等199901材料二:刘开瑛2000,第4章03伪歧义:94%05一个1亿字真实汉语语料库中抽取出的前4,619个高频交集型歧义切分覆盖了该语料库中全部交集型歧义切分的59.20%,其中4279个属伪歧义(占92.63%,如“和软件”、“充分发挥”、“情不自禁地”),覆盖率高达53.35%。02汉语真实文本中的分词歧义情况

分词歧义的四个层级(何克抗等1991,50883字语料)词法歧义:84.1%(“用方块图形式加以描述”)句法歧义:10.8%(“他一阵风似的跑了”)语义歧义:3.4%(“学生会写文章”)语用歧义:1.7%(“美国会采取措施制裁伊拉克”)汉语真实文本中的分词歧义情况(续)

?歧义切分字段分词模型句子侯选切分集切分歧义之解决结果待切分生成解空间在解空间中求解切分阶

文档评论(0)

SYWL2019 + 关注
官方认证
文档贡献者

权威、专业、丰富

认证主体四川尚阅网络信息科技有限公司
IP属地四川
统一社会信用代码/组织机构代码
91510100MA6716HC2Y

1亿VIP精品文档

相关文档