面向中国专利文献的零形回指消解规则研究-图书情报工作.PDFVIP

  • 8
  • 0
  • 约2.67万字
  • 约 8页
  • 2017-06-28 发布于天津
  • 举报

面向中国专利文献的零形回指消解规则研究-图书情报工作.PDF

面向中国专利文献的零形回指消解规则研究-图书情报工作

第59卷 第9期 2015年5月 面向中国专利文献的零形回指消解规则研究 ■ 靳玮 乔晓东 刘耀 齐晓亚 中国科学技术信息研究所 北京 100038 摘要:[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题。 中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别 与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究。[方法/过程]在物性结构 理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标 注工具两种工具,并构建了4个资源库: “专利动词物性角色库”,将专利的动词归纳为4类; “专利知识论 ① ② 元结构库”,用于自动标注专利动词物性角色及其论元结构; “专利动词论元结构规则库”,用于分析零形回 ③ 指的先行语; “零形回指修辞结构类型库”,用于分析当零形回指搭配“功能角色”和“部件角色”的情况。[结 ④ 果/结论]通过资源库的建设,得出5条消解规则。初步成果已成功应用于机械领域专利文献的自动处理工作。 关键词:专利 零形回指 指代消解 物性结构 语义角色 修辞结构理论 分类号:G250 TP391   DOI:10.13266/j.issn.0252-3116.2015.09.011 1 引言 中,被标为。在例1b中,有3处主语省略现象(即主 语位置的零形回指[2-4],标为)。人工很容易判断出   专利文献是一种承载海量关键技术的信息资源, 其中省略的是什么,但机器则会将上文出现的名词都 传播最新的技术信息,可支持企业技术创新,并带来庞 作为候选词,有两种可能:“该轧机输送装置”和“冷却 大的经济效益。在过去10年间,中国受理的专利申请 系统”。以近距离原则判别,则分析  为“冷却系 i 一直呈持续快速的增长态势,年均增幅超过20%。世 统”,但若将 、 也分析为“冷却系统”就完全说不 j k 界知识产权组织(WIPO)发布的《2012年世界知识产 通了。此外,若将 分析为“轧机输送装置”也不合 j 权指标》报告显示,中国国内外发明专利申请总数超过 适。由此可见,零形回指消解问题相当复杂,且单用上 [1] 52万件,成为全世界发明专利申请数量第一大国 。 文出现的名词作候选词的方法也无法解决所有的问 在如此庞大的数据量下,如何将专利文献的关键信息 题。若无法补出省略的主语,便不清楚“做什么以便进 呈献给用户,使用户能快速掌握全篇的要点,是优化专 入下道工序”、“什么合并了输送和冷却工序”? 利服务的关键课题。然而,在研究过程中笔者发现,专   例1a.本发明提供了一种气动潜孔锤排渣装置 , i 利文献中有大量的零形回指,严重影响文本理解与知 包括:气动潜孔锤,排出压缩空气以驱动渣土移动 i 识抽取。

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档