人工智能ArtificialIntelligence第八章.pptVIP

下载本文档

0
0
约1.43万字
约 10页
2024-12-25 发布于北京
举报
版权申诉

人工智能ArtificialIntelligence第八章.ppt

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

匹配法分词*史忠植人工智能：自然语言处理*最大匹配法。最大匹配法简称MM方法。其思想是：在计算机磁盘中存放一个分词用词典，从待切分的文本中按自左到右的顺序截取一个定长的汉字串，通常为为词典中的最大词长，这个字符串的长度称作最大词长。将这个具有最大词长的字符串与词典中的词进行匹配，若匹配成功，则可确定这个字符串为词，计算机程序的指针向后移动与给定最大词长相应个数的汉字，继续进行匹配；否则，把该字符串从右边逐次减去一个汉字，再与词典中的词进行匹配，直到成功为止。逆向最大匹配法。逆向最大匹配法简称RMM法。这种方法的基本原理与MM法相同，所不同的是分词时对待切分文本的扫描方向。MM方法从待切分文本中截取字符串的方向是从左到右，而RMM方法则是从右向左。在与词典匹配不成功时，将所截取的汉字串从左至右逐次减去一个汉字，再与词典中的词进行匹配，直到匹配成功为上。实验表明，RMM法的切词正确率要比MM法高0102汉语分词的难点*史忠植人工智能：自然语言处理*分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的，歧义切分是自动分词中不可避免的现象，是自动分词中的一个比较棘手的问题。对歧义字段的处理水平，直接影响着自动分词系统的分词准确率。未登录词的识别问题。未登录词是指没有在词典中出现、在汉语文本中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大，对它们识别正确与否直接影响着分词系统的正确率。然而，目前对于这些词语的自动辨识尽管作了不少的研究，但要想达到实际应用的要求，仍还有不少的困难。汉语分词的难点*史忠植人工智能：自然语言处理*除了由于未登录词而引起的歧义，切分歧义主要有三种类型：交集型歧义，即汉字串ＡＢＣ既可切成ＡＢ／Ｃ，又可切成Ａ／ＢＣ。组合型歧义，即汉字串既可切分成ＡＢ，又可切分成Ａ／Ｂ。混合型歧义，是前两种的自我嵌套或三者的交叉组合产生的。为了既能得到较高的准确率，又有较小的开销，可以着重解决相对数量较大又较容易解决的交集型歧义。汉语分词的难点*史忠植人工智能：自然语言处理*根据规则消除兼类，根据预料库统计消除兼类两种方法词类分析汉语的发展是先有字后有词，所以关于词的研究还存在一些问题，比较突出的是汉语词类的兼类问题。例如，大量的双字动词兼作名词。要进行汉语理解，如果不把词类先确定下来的话，那么下一步的分析也难以进行。汉语词类的兼类处理方法内容提要*史忠植人工智能：自然语言处理*01概述02词法分析 03句法分析 04语义分析05语用分析 06语料库 07信息检索 08机器翻译 09问答系统 10小结信息检索*史忠植人工智能：自然语言处理*信息检索(informationretrieval，IR)是指将信息按一定的方式组织和存储起来，并根据用户的需要找出有关信息的过程。1950年,穆尔(MooreC)根据图书馆的参考咨询和文摘索引提出了信息检索。信息检索包括信息存储和检索。在检索之前必须将信息收集起来，按科学方法进行整理，并按一定准则存储起来，形成书本式检索工具或者计算机可读数据库。在检索时，用户根据自身需求提交查询给信息检索系统，系统利用存储信息所依据的准则，在文档集中找出与查询条件相关的文档子集，并按照它们与查询条件的相关性进行排序，最后为用户返回一个有序的文档子集。信息检索*史忠植人工智能：自然语言处理*从广义上讲，信息检索包括两个过程，一是信息存储(informationstorage)，即信息的标引、加工和存储过程：二是信息检索(informationretrieval)，即信息用户的查找过程。从狭义上讲，信息检索仅指后一部分。信息检索的本质是一个匹配的过程即用户的信息需求和信息存储的信息集合进行比较和选择的过程信息检索过程*史忠植人工智能：自然语言处理*信息检索的类型*史忠植人工智能：自然语言处理*文献检索数据检索事实检索概念检索按信息检索的内容划分01超文本检索是对每个节点中储存的信息以及信息链构成的网络信息进行的检索。与传统文本的线性顺序不同，超文本检索强调中心节点之间的语义联结结构，靠系统提供的工具进行图示穿行和节点展示，提供浏览式查询，可进行跨库检索。全文本检索多媒体检索超文本检索按信息检索的组织方式划分02内容提要*史忠植人工智能：自然语言处理*概述01词法分析 02句法分析 03语义分析04语用分析