- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
自动文摘研究进展与趋势
自动文摘研究进展与趋势
万小军、姚金戈
北京大学计算机科学技术研究所
个人简介: 万小军,北京大学计算机科学技术研究所教授,博士生导师,语言计算与互联
网挖掘实验室负责人。研究方向为自然语言处理与文本挖掘,研究兴趣包括自动文摘与文本
生成、情感分析与观点挖掘、语义计算与信息推荐等,在相关学术会议与期刊上发表高水平
学术论文上百篇。担任计算语言学顶级国际期刊Computational Linguistics 编委,TACL 常务
评审委员(Standing Reviewing Committee ),多次担任自然语言处理领域一流与重要国际会
议领域主席或 SPC (包括ACL、NAACL 、IJCAI、IJCNLP 等),自主或合作研制了自动文
摘开源平台PKUSUMSUM 、AI 写稿机器人Xiaomingbot 等系统。
姚金戈,北京大学计算机科学技术研究所博士生,研究方向为自然语言处理与自动文摘。
自动文摘的目的是通过对原文本进行压缩、提炼,为用户提供简明扼要的文字描述。根
据处理的文档数量,自动文摘可以分为只针对单篇文档的单文档自动摘要和针对文档集的多
文档自动摘要。根据是否提供上下文环境,自动文摘可以分为与主题或查询相关的自动摘要
以及普通自动摘要。根据摘要的不同应用场景,自动文摘可以分为传记摘要、观点摘要、学
术文献综述生成等,这些摘要通常为满足特定的应用需求。
自动文摘可以看作是一个信息压缩过程,将输入的一篇或多篇文档压缩为一篇简短的摘
要,该过程不可避免有信息损失,但是要求保留尽可能多的重要信息。自动文摘系统通常涉
及到对输入文档的理解、要点的筛选,以及文摘合成这三个主要步骤。其中,文档理解可浅
可深,大多数自动文摘系统只需要进行比较浅层的文档理解,例如段落划分、句子切分、词
法分析等,也有文摘系统需要依赖句法解析、语义角色标注、指代消解,甚至深层语义分析
等技术。
研究现状与进展
自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive summarization )
和生成式摘要(abstractive summarization )。抽取式方法相对比较简单,通常利用不同方法对
文档结构单元 (句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要
的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、语义
分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。
目前主流自动文摘研究工作大致遵循如下技术框架:
内容表示 → 权重计算 → 内容选择 → 内容组织
首先将原始文本表示为便于后续处理的表达方式,然后由模型对不同的句法或语义单元
进行重要性计算,再根据重要性权重选取一部分单元,经过内容上的组织形成最后的摘要。
现有的研究工作针对不同设定和场景需求展开,为上述框架中的各个技术点提供了多种不同
的设计方案。有不少相关研究也尝试在统一的框架中联合考虑其中的多个技术点。
1 内容表示与权重计算
原文档中的每个句子由多个词汇或单元构成,后续处理过程中也以词汇等元素为基本单
位,对所在句子给出综合评价分数。以基于句子选取的抽取式方法为例,句子的重要性得分
由其组成部分的重要性衡量。由于词汇在文档中的出现频次可以在一定程度上反映其重要
性,我们可以使用每个句子中出现某词的概率作为该词的得分,通过将所有包含词的概率求
和得到句子得分(Nenkova and Vanderwende, 2005 ; Vanderwende et al., 2007) 。也有一些工作考
虑更多细节,利用扩展性较强的贝叶斯话题模型,对词汇本身的话题相关性概率进行建模
(Daume III and Marcu, 2006; Haghighi and Vanderwende, 2009; Celikyilmaz and Hakkani-Tur,
2010) 。
一些方法将每个句子表示为向量,维数为总词表大小。通常使用加权频数(Salton and
Buckley, 1988; Erkan and Radev, 2004)作为句子向量相应维上的取值。加权频数的定义可以有
多种,如信息检索中常用的词频-逆文档频率(TF-IDF )权重。也有研究工作考虑利用隐语
义分析或其他
文档评论(0)