浅析篇章的文本分析.docxVIP

下载本文档

9
0
约1.71万字
约 14页
2023-11-24 发布于广东
举报
版权申诉

浅析篇章的文本分析.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅析篇章的文本分析 1 文献综述及综述分析文章的内部结构，并理解文章单元（可以是句子、句子或段落）之间的意义关系。它是一种续词、句子之后的文本分析粒度,需要对文本单元的上下文进行全局分析。因而,篇章分析更能挖掘出文本内部丰富的结构化信息,对自然语言理解和自然语言生成有着至关重要的作用。篇章分析技术自底向上可以分为三个研究子方向: 其一是面向语言学为主的篇章理论研究,主要解决篇章的表示问题,即篇章的建模。在英文方面,代表性的篇章理论主要有基于实体关系的中心理论(Centering)、基于树状模型的修辞结构理论(Rhetorical Structure Theory,简称RST)、篇章词汇化树型连接语法(Discourse Lexicalized Tree Adjoining Grammar,简称D-LTAG)和基于图的篇章模型等。在中文方面,代表性的篇章理论主要有句群理论和复句理论。其二是基于篇章理论之上的篇章分析器(Discourse Parsing)的自动构建问题。在英文方面,篇章分析器的代表性成果主要有基于RST-DT(Rhetorical Structure Theory-Discourse Treebank,简称RST-DT)和基于PDTB(Penn Discourse TreeBank,简称PDTB)风格的篇章分析器。在中文方面,目前的工作主要是在模拟英文篇章分析器的基础之上展开的。其三是基于篇章分析技术的与自然语言处理相关的上层应用,即通过使用篇章分析技术直接或间接地提升上层NLP(Natural Language Processing)系统的性能。由于篇章分析技术的应用范围非常广泛,所以它受到了学术界和产业界的高度重视。各大高校和科研院所都从不同角度从事篇章分析技术方面的研究。近10年来,在ACL、EMNLP、COLING、《软件学报》、《计算机研究与发展》、《中文信息学报》等相关的自然语言处理国际顶级会议和国内外核心期刊上都发表了很多高质量的篇章分析方面的研究论文。但是到目前为止,并没有文献对篇章分析技术的综合研究成果进行整体上的介绍,而且近年来关于篇章分析的研究仍有很多高质量的研究成果出现。鉴于此,综述这方面的工作有重要意义。本文对主流的中英文篇章分析技术工作进行了分类、对比和综述。第2节阐述了中英文篇章分析技术的应用;第3节介绍了主流的英文篇章分析理论、英文篇章语料库及评测;第4节分别针对PDTB和RST-DT篇章语料库详细分析了完整的英文篇章分析器的自动构建过程;第5节阐述了与中文篇章分析有关的篇章理论、篇章语料库和篇章分析器的自动构建等内容。最后总结全文,并展望未来的研究工作。 2 基于乐章分析技术的研究据引言所述,篇章分析技术具有重要意义,在NLP各传统领域和新型领域都具有相关应用1,我们以下逐一介绍。统计机器翻译(Statistical Machine Translation,简称SMT)是自然语言处理最直接的上层应用,篇章分析技术在此起到关键作用。现有研究主要从篇章连接词的翻译角度、从采用中心理论和指代消解等篇章理论或技术角度、从修辞关系角度等来提升SMT的性能。自动文摘(Text Summarization,简称TS)的主要任务是对给定的一篇或多篇文档,由计算机自动生成相应文档或文档集对应的摘要。传统的自动文摘技术主要采用词串等方法,如考虑词的TF-IDF(Term Frequency-Inverse Document Frequency)特性和命名实体等信息来抽取相关的句子,但用这些方法生成的文摘质量通常不太高。相比较而言,篇章分析技术可以发挥重要作用。文献提出了一种基于有向图的篇章多级依存结构的机内表示法。文献分析了篇章结构和篇章的意义表示,通过基于篇章理解的技术达到消除句子歧义的目的,并探索了句子级别和上下文级别两个层次的自动文摘问题。自动问答系统(Question Answering,简称QA)的主要任务是用计算机对人们提出的问句自动生成答案的过程,它有两个步骤: 其一是问句的理解;其二是答案的抽取。篇章分析技术对此两个步骤都具有重要应用。文献提出了一个富于语义的有向无环图篇章表示模型,在问句理解步骤,作者将每个问题和对应的答案都对应为一个篇章状态,然后采用图模型中的优化算法去求解。文献在研究问题构成序列时扩充了中心理论的参照、前向和转换等模型。文献针对阅读理解的Why型问题提出了基于话题和修辞识别的方法,其核心思想是先利用基于倒文档频率和基于语义角色的两种相似度计算方法识别出对应问题话题的句子,然后进一步识别出这些句子中与问题话题存在因果关系的句子或短语作为返回答案。文献研究了一种包括用户目的、用户可能性、用户态度和用户知识四个方面在内的用户模型,基于Schema和Pr