《自然语言处理》03-形式语言与自动机.pptVIP

《自然语言处理》03-形式语言与自动机.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Introduction of Artificial Intelligence * 第 3 章 形式语言与自动机 自然语言处理 * 第3章 形式语言与自动机 语言是由组合语法规则制约、旨在传达语义的记号形式系统 程序设计语言 自然语言 形式语言:给出了语言的语法规则和分类的形式化方法。 通过数学可描述或机器可处理的公式来定义语言。 定义字母、单词、句子等。 自动机:基于语言的形式化定义,用来识别语言构造和结构的自动装置。 * 第3章 形式语言与自动机 3.1 基本概念 3.2 正则文法和有穷自动机 3.3 上下文无关文法和下推自动机 * 第3章 形式语言与自动机 3.1 基本概念 3.2 正则文法和有穷自动机 3.3 上下文无关文法和下推自动机 * 3.1.1 字母表、符号串及语言 * 3.1.1 字母表、符号串及语言 * 3.1.1 字母表、符号串及语言 语言:特定字母表上符号串的集合 语言作为一个集合,可以定义运算: 示例 L={A,B,……,Z,a,b,……,z} D={0,1,……,9} L U D= {A,B,……,Z,a,b,……,z,0,1,……,9} LD:520个长度为2的串的集合 L4:所有由四个字母构成的串的集合 L*:所有字母构成的集合,包括ε。 L+(L U D): D+: * 3.1.2 文法 语言:特定字母表上符号串的集合 这一定义过于宽泛。 语言通常具有特定的结构,需要满足特定的规则约束。这需要一种约束机制,通过规则的约束更加准确的描述语言。即形式文法。 以形式文法描述英语句子的构成 * 3.1.2 文法 语言:特定字母表上符号串的集合 这一定义过于宽泛。 语言通常具有特定的结构,需要满足特定的规则约束。这需要一种约束机制,通过规则的约束更加准确的描述语言。即形式文法。 以形式文法描述英语句子的构成 * 3.1.2 文法 * 3.1.2 文法 * 3.1.2 文法 * 3.1.2 文法 形式语言 * 3.1.2 文法 * 3.1.3 自动机 一种可以识别并检查语言正确性的计算模型 自动机扫描输入符号串,从一个状态不停跳转到下一个状态。事先定义自动机中的某些状态是“接受”状态,给定符号串,从自动机开始状态出发,经过若干次转换,到达一个“接受”状态,则判定输入符号串是一个特定的词法单元或者语法结构。 核心是跳转函数,该函数基于当前状态和当前输入符号,输出下一个目标状态 状态转换图可以更直观的表示有穷自动机的运行过程 * 第3章 形式语言与自动机 3.1 基本概念 3.2 正则文法和有穷自动机 3.3 上下文无关文法和下推自动机 * 3.2.1 正则表达式与正则文法 3.2.1 正则表达式与正则文法 正则表达式可以用3型文法(正则文法)来描述,它们之间存在等价关系。 * 3.2.2 有穷自动机 3型正则文法对应于有穷自动机,又称为有穷状态自动机。 自动机是识别器,对每个输入串回答yes or no。 分为两类 不确定的有穷自动机(Nondeterministic Finite Automate,NFA) 确定的有穷状态自动机(Deterministic Finite Automate,DFA) * 3.2.2 有穷自动机 DFA和NFA的不同: 一个符号标记离开同一状态的多条边 vs. 对于每个状态和字母表中的每个字符,有且仅有 一条离开该状态、以该符合为标号的边 可以有边的标号是ε vs. 没有标记为ε的边 相同:都可以识别正则语言,两者之间存在等价性 * 3.2.2 有穷自动机 * 3.2.2 有穷自动机 DFA的模拟运行 输入串01 输入串00 * 3.2.2 有穷自动机 * 3.2.2 有穷自动机 模拟NFA运行 输入aa 输入aaaaa * 3.2.3 在自然语言处理中的应用 描述文档中出现的以.cn结尾的只包含数字和字母的电子邮箱地址 * 3.3 上下文无关文法和下推自动机 上下文无关文法(Context-Free Grammar, CFG) 比正则文法具有更强的表达能力 更适合描述程序设计语言和自然语言 基于CFG,可以构造高效的语法分析技术解析语言构造 * 3.3.1 上下文无关文法 * Introduction of Artificial Intelligence

文档评论(0)

扬州牧 + 关注
实名认证
文档贡献者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档