- 3
- 0
- 约1.22万字
- 约 10页
- 2023-12-20 发布于广东
- 举报
基于机器学习的自动引文研究综述
随着信息信息的到来,信息的指数级发生了增加。信息用户从信息不足迅速转移到信息过载。传统的手动文件处理速度大大超过了文件增长的现实。为了应对这种状况,学术界尝试运用计算机技术实现对文献的自动处理,自动文摘即为其中之一。美国IBM公司的H.P.Luhn于1958年发表的第一篇有关自动文摘的论文,拉开了该领域研究的序幕。近些年来,一系列国际测评会议的召开,例如文本理解会议(DocumentUnderstandingConference,DUC)等公布了用于统一训练、测试的语料库,促进了该领域的研究。
自动文摘按照摘要的产生方式可以分为两类,即生成式和抽取式。生成式产生的文摘可以包括原文中没有出现的词和词组,一般基于实体信息、信息融合以及压缩技术等。由于生成式对自然语言处理技术要求非常高,目前还处于起步阶段,产生的文摘离实用化还有相当的距离。抽取式通过选取原文中的句子形成文摘,通常依据预先定义的特征集合,对文档中的句子进行打分,得分高的输出为文摘句。本文的研究主要聚焦于后者。
机器学习的出发点是设计和分析一些让计算机可以自动“学习”的算法,目前被广泛应用于自然语言处理、数据挖掘、搜索引擎等领域。机器学习可以分为监督学习、无监督学习和半监督学习。监督学习是指从给定的训练集中学习出模型,然后将其运用于新出现的数据以预测结果。监督学习的训练集包括输入与输出,即特征与目标,其中目标由人工标注。无监督学习与前者相比,主要区别在于训练集没有人工标注的结果。半监督学习介于前两者之间。本文主要研究基于监督学习的自动文摘算法,同时会涉及后两者。
基于机器学习的自动文摘就是利用机器学习算法,依据给定的特征集,自动地从语料库中训练出模型,进而得到文摘。限于篇幅,本文主要研究3种经典的机器学习算法,即朴素贝叶斯(NaiveBayes,NB)、隐马尔科夫(HiddenMarkovModel,HMM)和条件随机场模型(ConditionalRandomFields,CRF)在自动文摘中的拓展与应用。
2.1图像压缩的排除
(1)选取基于机器学习的自动文摘研究文献,书评等非研究型文献排除在外。
(2)选取的研究对象为文本,不包括面向语音、视频以及图像等非文本型的相关研究。
(3)主要聚焦于基于机器学习的自动文摘算法研究,其他有关文摘评价等主题的文献不是本文研究重点。
2.2检索算法及结果
作者可以理解的语种为英文和中文,鉴于英文文献反映了该领域大部分高质量研究的现状,因此文献选择以英文为主,中文为辅,检索时间跨度为2014年3月10-15日。
对于英文文献,选择的数据库为:WOS、ACM、EI、IEEE、PQDD、Wiley、ScienceDirect和GoogleScholar;检索词为:(“summari*”or“abstract*”)and(“machinelearning”or“supervisedmethod”)。对于具体的3种算法再分别构造检索式:1朴素贝叶斯:(“summari*”or“abstract*”)and(“NaiveBayes”);2隐马尔科夫:(“summari*”or“abstract*”)and(“HiddenMarkovModel”);3条件随机场:(“summari*”or“abstract*”)and(“ConditionalRandomFields”)。检索类型为:主题或者标题,有的数据库不支持主题检索。检索结果:去重后按照文献选取原则,共得到65篇文献。
对于中文文献,选择的数据库为中国知网和万方数据库;检索词为:(自动文摘or自动摘要or文摘自动化)and(机器学习or监督方法),同英文文献检索,分别对3种方法再构造检索式进行检索;检索类型为:主题;检索结果:根据文献选取原则,共得到8篇文献。
基于机器学习的自动文摘过程可以概括为5个步骤:特征选取、算法选择、模型训练、文摘提取和模型评测。
3.1句子的语义特征
特征选择对于自动文摘研究起着至关重要的作用。早先,H.P.Luhn提出了一种基于高频词的特征选取方法,即对包含高频词的句子打分,得分高的输出为文摘句。P.B.Baxendale提出将句子位置作为特征,然后对句子打分排序。H.P.Edmundson结合了H.P.Luhn和P.B.Baxendale的做法,面向科技文献取得了很好的效果。除了词频与句子位置之外,句子长度、句子权重以及大写
您可能关注的文档
最近下载
- 第二章 国际结算的基础和条件之往来银行定电子教案.ppt VIP
- 2026春新版大象版科学三年级下册教学计划.docx VIP
- 药物制剂工理论知识考核要素细目表三级_可搜索.pdf VIP
- 第二章国际结算的基础和条件之往来银行定.pdf VIP
- 剖宫产瘢痕妊娠早期的影像学评估关键要点2025 .pdf
- 高级劳动关系协调员技能竞赛理论考试题库及答案(400题).pdf VIP
- (2026 春新版)二年级科学下册教学计划及进度表.docx VIP
- (2026春新版)人美版美术三年级下册教学计划.docx VIP
- 高级劳动关系协调员技能竞赛理论考试题及答案.pdf VIP
- GD300变频器说明书.pdf VIP
原创力文档

文档评论(0)