非结构化文本中领域术语获取方法研究.pdf

摘要 随着领域新技术的飞速发展,大量数字化科技文献都以非结构化文本的形式与日 俱增,如何有效地获取其中的领域术语,对于构建数字图书馆、领域本体、编撰领域 词典等都具有重要的现实意义,因此成为人们关注的焦点。相比已有领域术语获取方 法一词典方法、规则方法、简单统计量方法的种种不足,比如需要领域专家参与且 费时费力,或者不能融合领域术语的各类特征等,本文借鉴了统计学习理论和信息抽 取的相关研究采用了如下的方法:基于分类的方法、基于序列数据标注的方法、基于 Reranking的方法进行领域术语自动获取的研究工作。 为此本文首先对领域术语获取进行了问题转化,从信息抽取的角度定义了术语获 取工作的输入输出和任务描述,并以此为基础提出了基于统计学习理论的领域术语获 取的工作机理和框架流程,同时阐明了其中文本预处理、特征表示策略、统计学习模 型的选择和比较是领域术语获取工作的核心。 然后本文分别探讨了分类方法、序列数据标注方法、Reranking方法的工作机理和 针对术语获取的问题分析;在术语的特征表示部分,分别提出了针对上述三种方法的 可以有效地提高领域术语自动获取的性能评测指标。另外,针对目前还没有使用 Reranking进行术语获取研究的现状,本文借鉴了该思想方法并与序列标注模型相结合 形成一个串行的处理流程,即在CRF模型的基础上,通过排序支持向量机对候选标记 序列进行重排序,将最好的候选排序到最前面,从而获取领域术语。从实验结果可以 看到在术语获取问题上,序列数据标注方法优于分类方法,而Reranking方法又在序列 数据标注评测结果的基础上有了一定的提高。 升,但依然可以通过增加更丰富的特征和使用额外的资源库提高性能;另外针对本文 用于减少排序顶部位置上的错误率,从而更准确地获得文本中的领域术语。 关键词:领域术语;统计学习;信息抽取;序列数据标注:Reranking 论文类型;应用基础 Abs”act ABSTI己ACT Withthe ofnew fiteratureas documentand rapiddevelopmenttechnolo’gies,digittechnology white isakindofunstructured efficient text,is Paper,which increasingdramatically.皿e fromtheseunstructuredtexts rolein acquisition greatimportant plays constructingDigit GazetteersandSO to Library,DomainOntology,Domain Dictionary on.Compared approach, Rulebased Statistical havesome like approach,andapproach,which Dictionary shortages andRulebased needdomain andcostconsiderabletime approach approach specialists’help andmanual statistical cannot ki

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档