领域知识获取.pdfVIP

  • 28
  • 0
  • 约14.57万字
  • 发布于安徽
  • 举报
  • 文档已下架,其它文档更精彩
领域知识的获取 摘要 知识库是自然语言处理系统的基础,为系统“理解”自然语言并顺利 完成任务提供有力的知识保障。本文针对领域知识的获取进行了研究和探 索,提出了一些新的处理技术和模型。主要创新点包括: 1.针对领域知识源获取过程中的网络冗余信息问题,提出了一种基于 关键词序列的网络文本信息去重算法叫SM。以全信息理论为依 据,使用文档的关键词序列来描述其结构特征和内涵特征,通过比 较主题相似文档的关键词序列的重叠度,判断是否存在信息冗余现 象。在各类隐式重复检测实验中,KSM算法的总体准确率和召回率 分别达到了99.2%和97.7%,显示了较好的性能。 2.针对低频术语抽取召回率较低的问题,提出了一种基于语言认知理 论的中文术语自动抽取算法,借助科技论文的话语标记,在C.value 测度和SCPf测度中引入候选术语的加权词频因子,提出了一种 MC.SCP测度,用于候选术语的单元性和术语性的综合评价。在车 牌识别领域的术语抽取实验中,基于MC.SCP测度的算法召回率和 准确率分别是96.5%和77.8%,低频术语的召回率和准确率则分别是 96.2%和79.3%;在保证术语抽取整体性能的同时,显著改善了低频 术语的抽取效果。 3.针对术语关系类型的多样化问题,提出了一种基于多策略的术语关 系自动获取模型。根据科技论文的语言学特点,综合术语的内部特 征和外部特征,从多个层面发现和获取术语间的各种关系,包括: 基于规则的术语同义关系获取、基于结构相似性的术语层级关系获 取、基于完全加权关联规则的术语非层级关系获取、基于粒子群的 术语聚类等。在术语非层级关系获取中,提出了一种基于非频繁项 集多重剪枝检测的完全加权关联规则挖掘算法—一AWARM.MPIS, 用于完全加权关联规则的频繁项集生成和剪枝,取得了良好的效果; 在术语分组关系获取中,提出了一种基于粒子群的术语聚类算法, 使用术语的结构相似性(内部特征)和关联度(外部特征)来评价 术语的语义相似性。实验结果表明,其平均运行时间与迭代次数比 K.Means提高了2个级别。 4.针对多领域科技论文的大量出现与编辑人员专业知识有限的问题, 提出了一个领域知识制导的科技论文初审辅助系统模型。根据科技 期刊的出版要求和科技论文的特点,结合编辑人员的工作经验,将 编辑初审细化为4个方面的评判,以此为依据开发了一个原型系统, 并使用《计算机工程与应用》和《计算机科学与探索》的2365篇投 稿论文为语料进行了性能测试。实验结果表明,该系统可辅助编辑 人员淘汰35%左右的低质量稿件,提高了编辑初审的效率。 关键词:术语抽取术语关系获取文本信息去重完全加权关联规则挖掘 科技论文初审辅助系统 DOMAINKNOWLEDGE ACQUISITION ABSTRACT is‘‘brain’’of base natural and Knowledge languageprocessingsystems enablesthemto‘understandandnatural dissertation process language.This makeseffortto new ofdomain exploretechnologiesknowledgeacquisition.The maincontributionsareasfollow: 1.Tosolveweb

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档