非专利文献同义词库构建与应用研究-中国专利信息网.PDF

非专利文献同义词库构建与应用研究-中国专利信息网.PDF

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
非专利文献同义词库构建与应用研究-中国专利信息网

业务探讨 数据加工通讯 非专利文献同义词库构建与应用研究 专利检索咨询中心 颜平辉 孙亮 章洪流 摘要:本文分析了非专利文献数据加工中同义词库 构建的重要意义、现状和同义词库存在的问题,提出了一 套人机协作构建同义词库机制。通过精心设计的数据存 储结构和同义词连接算法,使计算机具备了学习能力,在 数据加工过程中智能化水平不断上升,自动构建同义词 库准确度越来越高,人工干预工作量日趋变小,以较小代 价获得了准确可用的同义词库,并将同义词库应用于数 据加工和文献检索中,结果证明其作用是显著的。 关键词:非专利文献 同义词库构建 应用研究 一、研究背景 供支持,在避免化学结构重复加工, 同义词加工是非专利文献数据加 减少数据重复录入,提高方剂、IPC 工中的一项重要内容,加工形成的同 加工效率方面均有重要作用。更为重 义词库为非专利文献数据加工本身提 要的是,在非专利文献检索时扩展关 16 Documentation Processing Review / 2012.06 第6期(总第50期) 数据加工通讯 业务探讨 键词,从而提高查全率和查准率,为 预工作量越来越小;并研究如何将 专利审查提供可靠支持。 同义词库应用于数据加工和文献检索 目前,在非专利数据加工中,加 中。 工工作是以单篇文献为基本加工对 象,提取对专利审查有益的信息,如 二、同义词库构建与维护 同义词、方剂、化学结构等信息进行 标引。就同义词加工而言,按照尊重 同义词库构建与维护主要依赖于 原文的加工原则,只对原文出现的同 数据存储结构,原始同义词表和同义 义词组进行标引,这样,单篇文献提 词基表。原始同义词表存储了标引过 取的同义词组通常是不全面的,在较 程中针对单篇文献提取的同义词组信 大数据范围考虑所加工的同义词时, 息;同义词基表存储了经过整合的同 就会出现实为一组的同义词被分割成 义词信息。在标引过程中,每标引一 多个不完整、有重复且不相关的词组。 组同义词,系统将其存储于原始同义 直接利用加工形成的同义词库进行扩 词表中,同时去检查该同义词在同义 展查询时不仅查询结果不全面,而且 词基表的情况,自动进行连接并作相 会出现查询结果不一致的现象。因此, 应处理,动态构建同义词基表。标引 对加工的同义词组进行整理、连接、 人员对自动构建的同义词库进行定期 重构和维护,形成一个相对完整和正 维护,进行正确性确认,系统将学习 确的同义词库是一项非常重要而有意 维护过程中标引人员用到的专业知 义的工作。 识,从而为此后连接同义词提供支

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档