多知识源融合的自动摘要系统研究与实现①.docVIP

下载本文档

2
0
约1.04万字
约 6页
2018-01-26 发布于河南
举报
版权申诉

多知识源融合的自动摘要系统研究与实现①.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多知识源融合的自动摘要系统研究与实现①

多知识源融合的自动摘要系统研究与实现① 陈燕敏②　王晓龙　刘秉权楼喜中（哈尔滨工业大学计算机科学与技术学院，黑龙江哈尔滨 150001） Email: chenyanmin@ 摘要提出一种多知识源融合的自动摘要方法，有效地融合改进的浅层主题特征分析方法、改进的词汇链方法、话语结构方法的分析结果来生成文摘，在捕获文章特征的同时较好地保持了原文的内容及内在逻辑结构。评测结果显示系统生成具有良好连贯性和流畅性的文摘；与采用单一方法的自动摘要系统相比较，生成的文摘质量有明显提高。关键词自动摘要　特征词　词汇链　话语结构　融合 0 引言摘要是通过对文档内容处理，从中提取出满足用户需求的重要信息，经过重组修饰后生成比原文更精炼的文摘过程。目前主要的自动摘要技术有三类：基于浅层分析的方法、基于实体分析的方法、基于话语结构的方法[1]。基于浅层分析的方法对文档中蕴含的一些浅层特征如词频、位置、线索词等进行统计分析，据此选择出文档核心内容[2]。浅层分析具有易于实现、处理速度快、无受限域的优点，但这一方法是建立在文本表层的形式特征基础上的，缺乏对文本内容的深层次分析，难以保证生成文摘的逻辑连贯性，文摘质量的进一步提高将受到限制。基于实体分析的方法先分析文本内部的概念性表示，然后提取出文档中各实体并建立起实体间的相互关系，通过对文档实体及其相互关系建模来确定各实体对表述文档内容的作用，如词汇链方法[3]。实体特征的获取通常需要比较复杂的算法，特征的选择也需要考虑多方因素。这种方法易于描述意义上统一性强的文本。基于话语结构的方法主要通过对文档格式、主题线索、修辞结构、文体结构等的分析对全文宏观结构建模，以准确把握全文的内容结构[4]。因为结构分析不受文章领域限制，文档结构信息往往能较为准确地标示出语言单元间的逻辑关系，为自动文摘生成提供重要线索。由于上述几种方法各自的优缺点，为解决单一方法存在的知识获取不足的问题，提高自动文摘质量，增强文摘系统的通用性，采用混合方法是自动摘要技术的必然趋势。多种方法的有机结合能实现优势互补，可以在捕获文章特征的同时较好地保持原文的内容及内在逻辑结构。为此文中系统采用将浅层分析与实体分析、话语结构分析相结合的方法，有效地融合文档的主题特征和内容结构，同时对原有单一方法进行改进，在满足系统处理性能的同时进一步提高生成文摘的质量。本文的第1部分介绍了相关工作，第2部分描述了多知识源融合的自动摘要系统结构及各个模块的算法，第3部分给出实验结果及评价，第4部分给出结论。 1 相关工作浅层分析的主题特征根据标题词、关键词、用户指定词等确定，可以是单个词、多个词或句子，不包括高频词、虚词等停用词（停用词由于出现在很多文档里, 故对信息分析没什么贡献）。专业摘要者就常常集中注意力于文章表层特征和比较规范的部分，特别是标题，他们的经验对自动摘要研究有很大价值[5]。但标题词等特征词可能存在一些抽象语义含义的内容，目前许多文摘系统在分析文档的特征词时，对不同类型的特征词作相同处理，这样常常会给系统加入一些无用的甚至误导性的特征。因此对主题特征词的分析需要进一步改进。词汇集聚[6]是把文本中相关的词构成一个链的过程，使得这些相关的词保持词义上的连贯性。它不仅存在于单词对之间，还存在于文本中围绕某个主题的许多相关的词之间，这些相关词的序列就称为词汇链。词汇链是一种词汇间语义关系引起的凝聚力，它与文本的结构有一种对应关系，提供了关于文本结构和主题的重要线索，也提供了解释词、概念和句子的语义环境，故计算词汇链很有用。词汇链技术可用于词语误用的检测纠正、自动摘要、信息检索、主题追踪等[7][8]。基于词汇链技术构造文摘的方法使用WordNet等词典作为计算词汇链的主要知识库，根据文本中出现于词典中的词间存在的依赖关系如重复、同义反义、上下义、部分整体关系等构造词汇链，计算各链的强度及链中成员的典型性值，对文中包含重要信息的句子赋予相应权值，据此生成文摘。但由于汉语与印欧语系的语言的差别，对中文文章的处理上要作一定改变，且构造词汇链时也要根据所使用词典的结构作相应分析。另外，原算法[3]仅分析名词间的关系，忽略了一些重要的动词、形容词等,也需要进一步改进。话语结构分析从多个角度对文档内容进行独立分析，它主要包含三部分：文档的内容结构分析先根据文档层次结构、语言和修辞结构建立各语言单元节点及节点的章节、段落、复句依存关系；然后分析全文结构和复句结构，将各自然段间和各自然段内部各复句间的依存关系分为并列、总分等；最后进行层次结构分析，建立一棵层次结构依存树。文档的子主题切分主要将以自然段为基础的文本的物理结构转换为以意义段为基础的文本的逻辑结构，以提高系统生成的文摘的中心主题覆盖率及文摘抽取的准确率；这里使