- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
8.3.1 短语结构语法 短语结构语法和乔姆斯基语法是描述自然语言和程序设计语言强有力的形式化工具,可用于在计算机上对被分析的句子的形式化描述和分析。 短语结构语法G的形式化定义: G =(T ,N ,S ,P) 式子中,T是终结符的集合, N是非终结符的集合, 显然T和N不相交,T和N共同组成了符号集V,因此有: V =T∪N, T∩N =空集; S是起始符,它是集合N的一个成员; P是产生式规则集,形式如下: a→b 由一部短语结构语法定义的语言L(G)就是可以从起始符S推导出的符号串W的集合。即一个符号串属于L(G)必须满足: (1)该符号串只包含终结符; (2)该符号串能根据语法G从起始符S推导出来。 例8.1 the/a man killed the/a deer the/a man like the/a deer The/A man like the/a deer. 经词法分析得到上面类型的符合语法G 详见转移网络语法。 8.3.2 乔姆斯基形式语法 根据形式语法中所使用的规则集,乔姆斯基定义了4种类型的语法: (1)无约束短语结构语法,又称0型语法; (2)上下文有关语法,又称1型语法; (3)上下文无关语法,又称2型语法; (4)正则语法,又称3型语法; 型号越高所受约束越多,生成能力月若,能生成的语言集越小,也就是说它的描述能力越弱。 ATN就是基于上下文无关思想实现的一直自然语言句法分析技术。 正则语法又称有限状态语法,只能生成非常简单的句子。有2种形式:左线型语法和右线型语法。 8.3.4 转移网络 转移网络在自动机理论中用来表示语法。句法分析中的转移网络有借点和带有标记的弧组成,节点表示状态,弧对应于符号,基于该符号,可以实现从一个给定的状态转移到另一个状态。 The man laughed 8.3.5 扩充转移网络 8.5 大规模真实文本处理 8.5.1 语料库语言学及其特点 研究语言知识所用的真实文本称为语料,大量的真实文本即构成语料库。为从语料库中获取理解语言的各种知识,而对语料库进行适当的处理与加工,使之由生语料变为有价值的熟语料。 大规模真实文本处理的数学方法主要是统计方法。 基于大规模真实文本处理的语料库语言学,与传统的基于句法—语义分析的方法比较,有以下特点: 1.实验规模的不同 2.语法分析的范围要求不同 3.处理方法的不同 4.所处理的文本设计的领域不同 5.对系统评价方式的不同 8.5.2 统计学方法的应用及所面临的问题 目前,语言学处理的一个总的趋势是部分分析代替全分析,部分理解带她全理解,部分翻译代替全翻译。随着语料库语言学的快速发展,一个知道注意的研究方法是: 随机语言模型的建模工作正在由基本的线性词汇统计转向结构化的语法领域,尝试一次为基础解决句法结构的歧义性问题。 除了随机结构化语言模型以外,加大语言处理基本单元的力度也是重要的发展趋势。 由于从大规模语料获取知识的统计模型并不十分完善,因而,从语料库中采集、整理、表示和应用知识人人比较困难。 如何对语料库进行更有效的加工、处理,如何从中抽取语言知识,如何在自然语言理解的方法上实现突破等问题,还需不断深入地进行研究。 8.5.3 汉语语料库加工的基本方法 1.汉语自动分词 2.汉语词性标注 3.汉语词义标注 8.5 语用分析 对于理解自然语言来说,句法和语义分析是基础,但并不足够。语用概念在自然语言理解中同等重要。 语用分析与知识、上下文和推理等因素有关。 为了实现语用上下文分析,需要认真考虑: (1)关注对话的有关部分 (2)对个体的信念进行建模 (3)识别出用于理解的目标和计划 (4)言语动作 8.5 机器翻译 机器翻译是利用计算机把一种自然语言转变成另一种自然语言的过程,用以完成这一过程的软件叫做机器翻译系统。机器翻译是语言学、人工智能、计算机技术、认知科学等学科相结合的产物。 机器翻译是有计算机根据一定程序进行的翻译。简单说,原理就是让机器模拟人的翻译过程。 机器翻译的一般过程包括:源语文输入、识别与分析、生成与综合及目标语言输出。 机器翻译应用系统的设计应遵循以下原则: (1)适应多种平台操作的原则 (2)适应技术进步的原则 (3)适应信息处理的智能化原则 (4)适应信息处理的集成化原则 (5)适合于网络多用户并用原则 8.8 Web信息抽取 搜索引擎 搜索器 分析器 索引器 检索器 用户接口 搜索引擎的中文分词技术 目前,中文自动分词比较成熟的技术是基于分词词典的机械分词方法。 8.9 小结 什么是自然语言理解? 自然语言理解过程有哪些层次?各层次的功能如何? 什么是语义问法?
您可能关注的文档
最近下载
- 三甲医院必备医疗设备清单大全.doc VIP
- 1_MSDS_柴油-GB 30000 S(化学品安全技术说明书).pdf VIP
- 职业学校建设项目投资估算方案(参考范文).docx
- 2024-2025学年人教版八年级上册历史期末综合训练(含答案).docx VIP
- 《马克思主义基本原理》教案 专题六 劳动价值论.doc VIP
- 建筑施工承插型盘扣式钢管脚手架安全技术标准2021.pdf VIP
- 2025年事业单位考试(医疗卫生类E类)综合应用能力试卷及答案指导.docx VIP
- 人教部编版部编版七下《阿长与山海经》优秀课件(公开课一等奖).pptx VIP
- 食品营养与健康绪论.ppt VIP
- 贫血的中医治疗.pptx VIP
文档评论(0)