《自然语言处理》11-篇章分析.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
1第 11 章 篇章分析自然语言处理 2篇章分析截至目前,本书讨论的重点是针对单个句子的自然语言处理技术。然而,人们在交际或写作中不是使用孤立的句子,而是围绕一定话题,组织具有一定结构的多个句子或段落来传递信息和表达思想。篇章分析重点讨论这种跨越单句范围的文本具有的特点,从整体上分析篇章结构及其构成单元之间的关系,尝试解释由句构段、由段构篇的机理。 3第11章 篇章分析11.1 概述11.2 共指消解11.3 话题分割11.4 篇章关系分析11.5 连贯性分析 411.1.1 什么是篇章?篇章(discourse),也称为语篇或话语,是指由一系列子句(clause)或句子构成的连贯的语言整体单位。一篇文章或一段话都可以视为篇章,包含多个子句的句子也可以视为篇章。本章主要处理独白类型文本独白对话 篇章需要具备一定基本特征使其逻辑合理、前后连贯典型的篇章特征包括连贯性、衔接性、信息性、意图性等连贯和衔接是篇章的两个最基本特征 511.1.2 连贯与衔接连贯(coherence)是篇章的本质特征,是一种内在、抽象的语义一致性,强调每个篇章单元对整体的作用都可以解释,体现篇章的整体性。读者应该能够理解篇章整体表达的意思,而不是篇章内各个 句子的意思的拼接。连贯:[刘翔获得了雅典奥运会 110 米栏的冠军, ]子句1[他的成绩打破了奥运会纪录。 ]子句2 不连贯:[刘翔获得了雅典奥运会 110 米栏的冠军, ]子句1[星巴克的咖啡还算不错。]子句2 611.1.2 连贯与衔接衔接(cohesion):篇章不同部分之间的语法和词汇联系,可分为语法衔接和词汇衔接。语法衔接(grammatical cohesion)包括指代、替代、省略和连接词等。举例:[刘翔获得了雅典奥运会110米栏的冠军, ]子句1[他的成绩打破了奥运会纪录。 ]子句2 711.1.2 连贯与衔接衔接(cohesion):篇章不同部分之间的语法和词汇联系,可分为语法衔接和词汇衔接。词汇衔接(lexical cohesion)通过词汇间的语义关系将文本单元联系在一起。词汇衔接的主要手段包括重述和搭配举例2 “韩梅梅咬了一个桃子。但这个桃子还没有成熟。”举例3 “韩梅梅的英语很流利。她还打算学习西班牙语。” 举例4 “韩梅梅吃了一个桃子。她喜欢吃水果。” 举例5 “巴士转过街角驶来,我示意司机停下。 ”举例6 “那就是白杨树,西北极普通的一种树,然而实在不是平凡 的一种树。那是力争上游的一种树,笔直的干,笔直的枝。”在上面这段话中,{白杨树,树,树,树,干,枝} 构成一个词汇链,白杨树和树是上下位关系,干、枝和树是整体部分关系 11.1.3 篇章分析任务篇章的连贯是通过运用衔接等具体的语言手段实现的。衔接和连贯在形式和内容上共同作用保证了篇章的信息性和意图性。篇章分析 (discourse analysis) 或称为篇章处理 (discourse processing),是指一组自然语言处理任务,它们能够自动地对篇章中不同层次的语言结构进行建模并支持实际应用。 指代结构、线性话题结构、篇章关系结构等8 9第11章 篇章分析11.1 概述11.2 共指消解11.3 话题分割11.4 篇章关系分析11.5 连贯性分析 11.2.1 共指消解基本概念为了理解篇章的内容和结构,必须了解篇章中讨论的对象。在自然语言表达中,人们常用不同的方式来指示前面提及过的同一对象。哈尔滨工业大学(Harbin Institute of Technology) 始建于 1920 年。1954 年进入国家首批重点建设的 6 所高校行列。哈工大有哈尔滨、深圳、威海三个校区。她的校训是“规格严格、功夫到家”。 10 11.2.1 共指消解基本概念篇章中指代事物的具体表达式称为指称或表述 (mention),基本类型可以是人称代词(如他、她)、指示代词(如这、那)、有定描述 (如 the president,现任总统)、普通的名词短语和省略等,其中省略也称为零指代。指称指向的对象被称为所指对象 (referent) 或实体 (entity)。 所指对象是现实中存在的或者在特定语境下是确定的,如哈尔滨工业大学是现实中的一所大学,而文本中出现的哈尔滨工业大学、哈工大或她都是同一实体的不同指称。 11 11.2.1 共指消解基本概念共指(coreference)是指两个名词指称(包括代词和名词短语)指向现实世界中同一实体。指向同一实体的指称构成一个共指链(coreference chain)。前面例子中可以找到一条共指链:{哈尔滨工业大学,哈工大,她}。 共指消解(coreference resolution)问题,即为文本中的指称确定其在现实世界中指向的实体,将指向同一

文档评论(0)

扬州牧 + 关注
实名认证
文档贡献者

资料收集自互联网,若有侵权请联系删除,谢谢~

版权声明书
用户编号:8036120077000004

1亿VIP精品文档

相关文档