nlg自然语言生成(搜集的内容).docVIP

下载本文档

1
0
约1.45万字
约 17页
2019-09-09 发布于江苏
举报
版权申诉

nlg自然语言生成(搜集的内容).doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1 自然语言生成自然语言生成是人工智能和计算语言学的分支，它的重点在于建成一个计算机系统，这个系统能生成用英语或其他人类语言表示的可理解文本，它的输入是一些非语言表示的信息，它会利用相关的语言知识和领域知识来自动地生成文件，报告，说明，帮助信息，以及其它类型的文本。（《buiding natrual language generation systems》）。 1.1 自然语言生成与自然语言理解事实上，自然语言生成是自然语言处理的一部分，自然语言处理大体包括了自然语言理解和自然语言生成两个部分：自然语言理解是需要消除输入语句的歧义来产生机器表示语言，而自然语言生成的工作过程与自然语言理解相反，即它是从抽象的概念层次开始，决定如何用语言来表示这个抽象的概念，通过选择并执行一定的语义和语法规则生成文本。（《自然语言生成综述》）　自然语言处理，即实现人机间自然语言通信，或实现自然语言理解和自然语言生成是十分困难的。（ambiguity）。　　例如，一个中文文本从形式上看是由汉字（包括标点符号等）组成的一个字符串。由字可组成词，由词可组成词组，由词组可组成句子，进而由一些句子组成段、节、章、篇。无论在上述的各种层次：字（符）、词、词组、句子、段，……还是在下一层次向上一层次转变中都存在着歧义和多义现象，即形式上一样的一段字符串，在不同的场景或不同的语境下，可以理解成不同的词串、词组串等，并有不同的意义。一般情况下，它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的。也就是说，从总体上说，并不存在歧义。这也就是我们平时并不感到自然语言歧义，和能用自然语言进行正确交流的原因。但是一方面，我们也看到，为了消解歧义，是需要极其大量的知识和进行推理的。如何将这些知识较完整地加以收集和整理出来；又如何找到合适的形式，将它们存入计算机系统中去；以及如何有效地利用它们来消除歧义，都是工作量极大且十分困难的工作。这不是少数人短时期内可以完成的，还有待长期的、系统的工作。以上说的是一个中文文本或一个汉字（含标点符号等）串可能有多个含义。它是自然语言理解中的主要困难和障碍。反过来，一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示，所以一个中文文本或一个汉字（含标点符号等）串可能有多个含义同样也是自然语言生成的主要困难和障碍。　（《WAPEDIA》）　因此，自然语言的形式（字符串）与其意义之间是一种多对多的关系。其实这也正是自然语言的魅力所在。从自然语言理解的角度看，我们必须消除歧义，即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示。而从自然语言生成的角度看，我们也要消除歧义，从抽象概念生成符合语义，语法，语用的无歧义文本，所以不论从哪方面看，自然语言的魅力都给我们带来了巨大的困难。历史上对自然语言理解研究得较多，而对自然语言生成研究得较少。但这种状况近年来已有所改变。 1.2 　自然语言生成的研究从20世纪40年代算起，自然语言处理的研究已经接近有70年的历史，而自然语言生成正是在自然语言处理的发展中逐渐清晰化的其中一个部分，大概兴起于70年代早期，在1983年~1993年这十年期间，自然语言生成的研究取得了令人瞩目的成就。自然语言生成迄今已走过了近四十年的历程，在这段时间里，从事该领域研究的专家们不断提出新的理论和方法，设计出新的生成模型，使语言生成的研究不断取得新的进展。目前语言生成的研究侧重于以下几个方面：在特定的语法理论框架内更加广泛深入地处理语言现象，如 :生成系统。在同一语法环境下生成多语言，例如英国大学的多语种生成系统（包括英语、德语、）日语、法语、荷兰语、西班牙语），上海交通大学的多语言天气预报发布系统。面向实际应用的开发，如国内有北京交通大学和北京颐和园的导游系统、中国科技大学的机器人足球现场解说系统以及人机接口等；国外的有英国大学所设计的在线文件剪接系统。在生成过程中对所要表达的信息进行语义和句法方面的聚合亦是目前研究重点之一。当前语言生成的研究方向主要是在语言表示形式、信息内容规划以及语言生成模型等方面。自然语言生成的研究将继续在诸多语言学科、计算机领域和其他学科的通力协作下获得新的成果。（《自然语言生成综述》） 2 自然语言生成的内容　传统来说，自然语言生成的任务大致分为两个个部分：内容选择，即“应该表达什么”；以及内容表示，即“怎样去表达”。但随着自然语言生成的发展，我们还应解决一个问题，那就是“为什么要用这种方式表达？”，所以提出了更为标准的自然语言生成结构，它由三部分构成：内容（文本）规划（也称宏观规划），句子规划（微观规划）和句子实现。标准自然语言生成结构见图1：（《Natural Language Generat