人工智能Artificial Intelligence文档.ppt

  1. 1、本文档共80页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
人工智能Artificial Intelligence文档

大规模真实文本的处理(5) 汉语自动分词 由于汉语句子的最小构成单位是字,有 意义的最小单位却是词,而汉语词与词 之间又没有分割符号(英语词和词之间 是空格)。因此,汉语理解首先要进行 汉语自动分词。 可以概括为两大类方法, 无词典分词,它完全依靠整段文章中汉字之间的搭配的频率算出成词可能 有词典分词,是一种更有普遍意义的分词方法。有词典分词主要有最大匹配法,逆向最大匹配法,逐词遍历匹配法,设立切分标志法,以及正向最佳匹配和逆向最佳匹配法,而这些方法的一个基本思想都是要依次分出待切分串的可能最长成词 大规模真实文本的处理(6) 基于统计结果的分词算法 首先,根据汉语词典(有56800条词汇)进 行统计,发现:虽然词典中的最长词可 以达到为20多个字节(十几个汉字), 但是大多数汉语词都可以由前两字唯一 确定,这样的词占绝大多数(如在上述词典中占总词汇量的85%以上)。 大规模真实文本的处理(7) 两个首字相同的词的个数的统计 根据前两字可确定的词个数 词总数 所占百分比(%) 1 48431 85.22 2 2801×2 9.86 3 514×3 2.71 4 118×4 0.83 5 46×5 0.40 6 30×6 0.32 7 16×7 0.20 8 6×8 0.08 9 8×9 0.13 10 5×10 0.09 14 2×14 0.05 15 3×15 0.08 18 1×18 0.03 大规模真实文本的处理(8) 机械分词 主要是在字典索引的支持下进行的,索引结构可以分为两级。 一级索引就用汉字内码,查找算法用散 列方法。 而二级索引采用整个词长。 大规模真实文本的处理(8) 最大匹配法。最大匹配法简称MM方法。其思想是:在计算机磁盘中存放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定长的汉字串,通常为为词典中的最大词长,这个字符串的长度称作最大词长。将这个具有最大词长的字符串与词典中的词进行匹配,若匹配成功,则可确定这个字符串为词,计算机程序的指针向后移动与给定最大词长相应个数的汉字,继续进行匹配;否则,把该字符串从右边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。 逆向最大匹配法。逆向最大匹配法简称RMM法。这种方法的基本原理与MM法相同,所不同的是分词时对待切分文本的扫描方向。MM方法从待切分文本中截取字符串的方向是从左到右,而RMM方法则是从右向左。在与词典匹配不成功时,将所截取的汉字串从左至右逐次减去一个汉字,再与词典中的词进行匹配,直到匹配成功为上。实验表明,RMM法的切词正确率要比MM法高 大规模真实文本的处理(9) 汉语分词的其他难点主要有 分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的,歧义切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的问题。对歧义字段的处理水平,直接影响着自动分词系统的分词准确率。 未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大,对它们识别正确与否直接影响着分词系统的正确率。然而,目前对于这些词语的自动辨识尽管作了不少的研究,但要想达到实际应用的要求,仍还有不少的困难。 大规模真实文本的处理(10) 除了由于未登录词而引起的歧义,切分歧义主要有三种类型: 交集型歧义,即汉字串ABC既可切成AB/C,又可切成A/BC。 组合型歧义,即汉字串既可切分成AB,又可切分成A/B。 混合型歧义,是前两种的自我嵌套或三者的交叉组合产生的。 为了既能得到较高的准确率,又有较小的开销,可以 着重解决相对数量较大又较容易解决的交集型歧义。 大规模真实文本的处理(11) 词类分析 汉语的发展是先有字后有词,所以关于 词的研究还存在一些问题,比较突出的 是汉语词类的兼类问题。例如,大量的 双字动词兼作名词。要进行汉语理解, 如果不把词类先确定下来的话,那么下 一步的分析也难以进行。 汉语词类的兼类处理方法 两种方法 根据规则消除兼类, 根据预料库统计消除兼类 本章主要内容 自然语言理解的一般问题 词法分析 句法分析 语义分析 大规模真实文本的处理 Web

文档评论(0)

bodkd + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档