基于协同图排序的对比新闻自动摘要演示文稿.pptVIP

下载本文档

17
0
约7.01千字
约 25页
2016-05-26 发布于山西
举报
版权申诉

基于协同图排序的对比新闻自动摘要演示文稿.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于协同图排序的对比新闻自动摘要演示文稿

结论展望结论利用对比性和代表性，相互增强计算重要程度摘要句抽取考虑对比性和信息冗余展望引入语义信息，计算句子之间的对比程度区分话题之间的共同点和不同点多话题、跨语言新闻对比 * QA 谢谢！ * / 76 * 比较是一种重要的认知方式，在日常生活中有普遍的应用。通过对比，可以发现事物的优劣、了解变化的趋势、总结其中的规律。随着互联网媒体的迅速发展和新闻分析技术的快速进步，可以获得的新闻资源越来越丰富。如何从一些相关的新闻话题中挖掘对比信息，成为一个很有意思的问题 * 所谓比较，它在语义上描述了两个或多个对象在某个维度上的相同或不同点。形式上，可以描述对象之间的相对关系，也可以分别描述每个对象在相应属性上的绝对程度。 * 一个新闻话题，包括一个种子事件或者活动的新闻报道，以及所有直接相关的事件和活动的新闻报道。例如，在一个地震的话题中，可以包括地震发生的报道、以及后续的救援和重建的报道。 * 新闻话题对比，可以比较相关话题的相关新闻要素。例如大选中两个候选人的竞选活动，所体现的两者的筹款能力、经济主张、外交主张等等 * 对比新闻摘要，目标是用简短的自然语言概括两个可比话题之间的共同点和不同点。形式上，对比摘要分为两部分，其中每部分描述其中一个话题，同时两部分都讨论话题中可比较的特性。摘要要求强调话题之间的对比，又能够代表每个话题的重要内容，信息覆盖面尽可能广，同时具有较高的语言质量。 * 这是关于两个地震话题的一个对比摘要示例。摘要中，对比了地震时间、震级、影响等众多特性。 * 本文中，我们提出了一种基于协同图排序的对比摘要方法。它是一种抽取式的方法，首先对两个新闻话题中的文档进行预处理，再从原文中挑选重要的句子，挑选时需要考虑摘要的对比性、代表性和全面性，再对句子进行适当的排序，形成最后的对比摘要。文中我们主要关注句子选择问题。 * 在句子的重要性计算中，我们考虑两个因素。首先，一个重要的句子应该和对比话题中的其他重要句子具有强对比性，这样才能保证抽取摘要的对比性。其次，一个重要的句子应该和本话题中的其他重要句子具有强相似性，能够代表本话题的重要信息。 * 以数学的形式表示，句子的重要性得分来源于两个部分，包括对比话题中句子的对比性贡献和本话题中句子的代表性贡献 * 以图形的方式表示，每个话题内相关的句子存在联系，同时两个话题间可比的句子也存在联系。通过在图上不断迭代计算，最终可以获得每个句子的重要性得分。 * 具体的，在话题内部，句子之间的代表性通过句子之间的相似度计算，采用传统的tfisf模型，将句子表示成一个向量，并计算向量夹角的余弦作为相似度 * 话题之间的对比关系需要计算两个句子的对比程度，即它们所讨论的属性的相关性。例如，这两个句子都讨论了世界足球先生的获得者，因此是可对比的。在计算对比程度时，属性名是有用信息，而每个对象的属性值是无关信息。根据一般规律，所讨论的属性名称一般是名词或动词词性，而属性值是形容词、副词、数词词性。 * 据此我们采用一种朴素的方法，保留句子中的名词和动词，并计算新向量夹角余弦作为句子的对比程度。 * 我们可以得到句子得分的具体公式。每个句子的得分可以通过迭代的方法计算，首先为每个句子随机赋值，再根据以上公式更新得分，直到结果收敛为止。 * 计算出每个句子的得分之后，我们采用贪心的方法，抽取剩余句子中得分最高的句子加入摘要。每抽取一个句子之后，需要更新剩余句子的得分。更新方法包括两个方面，对于不同话题中可比句子，我们提升它的得分，似的下一个句子倾向于挑选可比的句子。对于同一个话题内的相似句子，我们减小他的得分，确保摘要中信息冗余较少。 * 实验中，我们选用了5组英文话题 * 和5组中文话题，并为每组话题人工撰写对比摘要。 * 评价方法采用摘要评测中常用的ROUGE值，根据系统生成的候选摘要和人工撰写的参考摘要之间的重叠程度评价摘要的质量。此外，我们还将摘要中的每一部分分别评价，取两者的平均值作为一个指标 * 实验中，我们对比了以下方法：第一种方法将两个文档集混合起来，采用传统的摘要方法生成一个摘要；第二种方法分别为每个文档集生成一个摘要。第三种方法采用协同图排序模型计算句子重要性，但在抽取时不考虑两个文档集之间的关系，而是分别在每个文档集中抽取摘要。第四种方法就是本文提出的方法。 * 这是在英文数据上的实验结果，传统的方法没有考虑摘要的对比性，因此效果较差。第三种方法在计算句子重要性时考虑的对比性，效果有所提高。我们的方法在计算句子重要性和挑选句子过程中都考虑了对比性，效果最好 * 在中文数据上有类似的结果。 * 最后简单总结，我们提出了一种对比新闻摘要方法，利用不同话题中句子的对比性和相同话题中句子的代表性，相互增强，计算句子的重要程度。在抽取摘要句子时，综合考