基于被引片段识别科技文摘综述.docVIP

下载本文档

7
0
约7.11千字
约 14页
2018-08-30 发布于福建
举报
版权申诉

基于被引片段识别科技文摘综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于被引片段识别科技文摘综述

基于被引片段识别科技文摘综述　　[摘要][目的/意义]基于被引片段识别的科技文摘生成是文献计量学、信息检索和自然语言处理等领域共同关注的研究问题。通过梳理相关成果，可为后续研究提供借鉴。[方法/过程]本文首先介绍被引片段概念，进而从被引片段识别与分类、文摘生成与评价等步骤对相关研究进行综述。[结果/结论]当前被引片段识别总体上可以分为机器学习和检索两类，分面判定还存在标准不一致的问题，摘要生成与评估方法相关研究较欠缺。　　[关键词]被引片段；科技摘要；引文上下文　　科研工作者在科学研究活动中通常需要阅读大量科技文献以了解研究领域现状。在当前学术论文数量与日俱增的情况下，通过阅读科技文献的摘要将大幅度减小科研工作者阅读文献的压力。当前科技文献摘要的形成过程可分为作者撰写和自动生成两种方式。前者虽然能精准地概括文章的核心内容，但由于其是从作者角度而非读者角度完成的，因此很难客观地反映该文对学界的贡献与影响。自动文摘作为一种自动凝练目标文献核心内容的方法，具有效率高和客观性强的特点，因而在信息检索与信息抽取等领域具有广泛的应用。按照摘要与原文的关系的不同，自动文摘技术可分为抽取型文摘和理解型文摘，后者受当前语义理解和自然语言处理技术限制较大，所以目前关于自动文摘的研究主要集中在抽取型文摘上嘲。传统抽取型摘要的做法是计算目标文献中各句子重要性并选取若干关键句生成文摘，这样生成的摘要同样不能从读者角度反映该文的影响力。于是，越来越多的研究者尝试从引文角度考虑该问题闱。基于引文的摘要技术的基本概念是引文内容，又称引文上下文（citation context），包含了对被引文献的介绍与述评，从读者角度揭示了被引文章对学界的影响。当前，如何通过引文上下文生成摘要存在直接法与间接法两种思路，前者对目标文献的引文句进行组织进而完成摘要生成，后者需从被引文献中识别出被引片段并对其进行融合，生成最终的摘要。为方便对本文所评述自动摘要方式有直观的理解，笔者归纳了摘要的种类并绘制摘要的分类图谱，如图1所示。　　引文上下文是指引文标记所处的上下文，当前广泛用于引用动机识别、主题识别、信息检索、文档聚类等领域。直接使用引文上下文生成单文档文摘最早开始于2008年Qazvinian等的研究，作者对被引文献的引文上下文进行聚类与排序，从而生成被引文献的摘要。Kaplan等将指代消解（corefcrenee resolver）应用于引文上下文的抽取，实验证明该方法相比于其他方法在抽取引文上下文时效果更优，抽取出的内容可进一步用于文摘生成。HUE21等将引文句视为文献的使用上下文，并将之与结构上下文组成混合引文上下文开展基于影响点的文摘研究。直接利用引文上下文生成文摘目前已有较多的成果，但引文上下文中除包含对被引文献的介绍和评述外还包含了施引者的观点，因此有学者指出直接使用引文上下文的文摘存在主题偏移和信息缺失的问题，因此基于被引片段的文摘生成受到越来越多研究者的关注。　　基于被引片段的文摘研究最早开始于文献“GeneratingImpact-Based Summaries for Scientific Literature”，?c直接使用引文上下文生成摘要相比，这种方式生成的摘要来自于原文，从而避免了主题偏移的问题。Mei利用文章的所有引文上下文构建其影响模型，在原文中寻找能反映该影响的句子，并加以组织生成文摘。Cohan通过对被引片段进行聚类，从各类簇中抽取重要性较高的几个句子形成文摘。在web of knowledge、Google Scholar平台上以检索式“cited spans summary”“reference text spans summary”等为关键词进行检索，发现相关结果并不多，大量的成果集中于2014TAC和2016CL-SciSumm的会议论文上。同时，国内针对被引片段的自动文摘相关成果则更加少。通过查找相关文献进行扩充，通过人工阅读共得到相关文献26篇。当前基于被引片段的文摘步骤可概括为两步：首先从被引文献中识别并抽取被引片段，并判定其在语篇中的功能；其次，从被引文献中抽取若干句子本文通过文献。本文首先用实例介绍被引片段的概念，接着以两次文摘比赛的步骤归纳与评述该领域研究现状，以期为后续相关研究提供借鉴。　　1被引片段概念　　在引文分析领域，“被引片段”是一个崭新的概念，是引文内容分析未来发展的重要的研究方向。单篇文献会包含多个研究主题，而其他文献在引用它时仅仅是因为某个主题。施引者会引用其认定对自己研究有参考价值的内容，这部分内容正是本文所述的被引片段（Cited Spans or Reference Span）。一般认为，在一次引用过程中被引片段与引文上下文具有对应关系，相比于被引频次，被引片段更清