面向多文档集合的文摘萃取系统研究.docVIP

下载本文档

4
0
约3.34千字
约 6页
2016-09-16 发布于北京
举报
版权申诉

面向多文档集合的文摘萃取系统研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向多文档集合的文摘萃取系统研究.doc

面向多文档集合的文摘萃取系统研究　　【摘要】由于互联网信息量爆炸式增长，人们对网络信息的需求从“获得尽可能多的信息”逐渐转化成“获得最有用的信息”，这也就促使人们获取和使用信息的技术手段发生了相应的改变。人们普遍面临的一个问题就是，对于一个感兴趣的话题，我们可以通过搜索引擎检索到成千上万的网页信息，这些网页中包含很多重复的内容以及一些不同内容，因此迫切需要一些帮助人们快速浏览信息，获得核心内容的工具。该工具可以将海量的主题相近的文章进行整理和加工，生成全面的、重点突出的简要概括。多文档摘要技术就是在这种现实需求下产生的，并且已经得到了广泛的应用。　　【关键词】多文档；文摘萃取系统；互联网信息　　1 国内外专利查询及研究开发情况　　国际上对多文档自动文摘的研究主要是面向英语信息的处理，在该领域比较著名的方法是美国哥伦比亚大学Goldsdein提出的基于MMR（Maximal Marginal Relevance）的多文档自动文摘方法；美国密歇根大学Redev提出基于质心的多文档自动文摘方法；美国罗格斯大学Boros提出的基于聚类的多文档自动文摘方法。与此同时，一些多文档自动文摘系统也被开发出来。比较有代表性的系统有：（1）美国哥伦比亚大学的多文档自动文摘系统Newsblaster。其研究主要针对新闻领域，可以对每天发生的同主题新闻进行摘要，目前该系统达到了每天上万人次的访问记录（现正在向多语种方向发展）。（2）美国密歇根大学研究开发的WebInEssence。这是一个个性化的基于Web的多文档自动文摘和内容推荐系统。（3）美国南加利福尼亚大学的信息科学研究所开发的原型系统NeATS，也是一个比较有名的多文档自动文摘系统，主要用于新闻领域。　　由于多文档自动文摘中潜在着巨大商机，一些企业和公司也在从事相关的研究，如：微软多次参加了DUC会议并取得了不错的成绩，表明其对自动文摘技术研究的重视；Vivisimo公司也都在进行这方面的研究。　　国内的研究工作大多集中在单文档自动文摘方面。国内研究者针对汉语特点进行了不懈的努力，在汉语自动文摘的研究中取得了一定的成就。比较有代表性的工作有：哈尔滨工业大学刘挺教授基于篇章多级依存结构构建了HIT2863II型自动文摘系统。北京邮电大学钟义信教授在“全信息”（包括了语法、语义、语用三个层面）理论指导下自动建立了面向计算机病毒方面的Glance系统、面向新闻报道的News系统、以及面向神经网络学习算法领域的Ladies自动文摘系统。东北大学姚天顺教授和香港城市理工大学联合开展了“中文全文自动摘要系统”的研究，该系统采用脚本知识表示，通过与用户交互获取文摘。　　2 拟采取的研究方法和技术路线　　多文档的自动文摘可以分为两步，首先在文档集合中选择候选的文摘句子，然后去除掉候选文摘句子集合中的冗余的句子。本研究的主要任务是第一步，下面首先介绍候选文摘句子抽取的研究方法和技术路线，其次介绍去除冗余句子的方法。　　2.1 候选文摘句子抽取　　Wan提出使用关键词和句子的关系同时进行关键词抽取和文章摘要[16]，本研究受Wan的工作启发，提出使用文档集合中四种类型实体和实体间关系进行句子抽取及排序的方法。在文档集合中，最小的单位是词语（W），词语的集合组成句子（S），句子集合组成文档（D），文档集合组成文档集（Ds），而主题（T）是由文档集合中相似度较高的词语组成，可以通过聚类算法产生文档集合中的主题。四种类型的实体包括文档集合中的词语、句子、主题和文档。建立的异构关系网络图中不仅包括同种实体之间的关系，而且包括不同类型实体间的关系，本研究所提出的自动文摘模型中，句子的重要度不仅取决于与它相连的句子连接数目和重要度，而且取决于与它相连关键词、主题、和文档的连接数目和重要度，实体间的关系。由于句子的重要度综合考虑了多种类型实体之间的关系，因此本研究所提出的模型可以更加合理的计算句子重要度并最终对它们排序。　　本研究所提出的模型基于以下假设：　　假设1：如果一个句子（或词语、主题、文档）被重要度高或数目较多的其他句子（或词语、主题、文档）所连接，那么这个句子应当具有较高的重要度。　　假设2：如果一个句子被较重要的文档包含、或者与较重要的主题相似程度大、或者包含较重要的词语，那么这个句子应当具有较大的重要度。同理文档、主题和词语的重要度也分别由与它相连的其他类型的实体所决定。　　假设1类似于PageRank算法的思想，利用同构实体之间的关系进行重要度的传递，而假设2类似于Hits算法的思想，将各种类型的实体分别看作权威和中心。本文所提出的方法试图在一个模型中融合PageRank和Hits模型的思想。　　2.2 去除冗余句子　　本系统采用MM