专利检索日志的同义词获取-北京玛格泰克科技发展有限公司.pdf

专利检索日志的同义词获取-北京玛格泰克科技发展有限公司.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
专利检索日志的同义词获取-北京玛格泰克科技发展有限公司

研究论文 专利检索日志的同义词获取* 谷 威 1 李超凡 1 王洪俊 2 肖诗斌 3 施水才 3 1( 国家知识产权局专利局 北京 100088) 2 ( 北京拓尔思信息技术股份有限公司 北京 100101 ) 3 ( 北京信息科技大学TRS 软件开放实验室 北京 100101) 摘要: 【目的 】研究专利检索日志中的同义词获取方法。【方法 】提出一种基于用户行为分析的语义关系获取算 法, 利用检索式的逻辑运算符关系提取候选同义词对, 结合拼音、字型、缩写、简繁等特征, 从专利检索日志中 挖掘出一部同义词词典。【结果 】实验结果表明, 该方法识别同义词的准确率达到74.5%, 共生成 17 495 组同义 词, 生成词典的规模超过目前已有研究中的一些方法。【局限 】该词典生成算法较适用于使用复杂检索式的图书 情报检索领域。【结论 】丰富了基于日志的语义词典获取领域的研究。 关键词: 专利检索日志 日志挖掘 语义知识获取 词典构建 分类号: G353 TP391 1 引 言 作轨迹, 包括专利检索过程中所使用的各种检索表达 式、浏览过的各种专利记录等。这些日志里蕴含着丰 随着我国知识产权领域的蓬勃发展, 专利检索工 富的专业知识, 集中体现了用户积累的检索经验。如 具的开发和利用得到越来越多的关注。目前, 国内外 何挖掘并利用这些知识来提升专利信息检索系统的效 已经出现了很多专利信息检索与利用方面的软件和工 果, 这个问题日益得到研究人员的重视。 具, 如美国汤森路透集团的专利软件 Aureka[1] 和 本文提出一种基于用户行为的语义关系获取算 TDA[2]、知识产权出版社开发的PIAS 专利信息分析系 法, 可以从检索日志中挖掘出一部同义词词典, 将该 统[3]、保定大为软件开发的PatentEX[4]等, 这些软件和 词典应用于查询扩展有助于提升专利检索效果。测试 工具能够快速有效地对网络专利信息进行检索和利 结果表明, 本文基于日志生成的同义词词典具有较高 用, 不过这些系统大多采用关键字匹配的信息检索技 的质量。 术, 忽略了词间的语义关系, 不能解决同义词、多义 词、词间上下位关系等问题, 造成信息检索不全面、 2 相关研究 不准确。针对这一问题, 国内外很多研究者从语义或 2.1 同义词识别研究现状 概念的角度进行了广泛而深入的研究, 其中基于语义 目前国内外对于同义词自动识别的研究, 按采用 词典对用户检索式进行查询扩展是一种常用而有效的 的技术路线, 主要可分为基于字面相似度、基于语义 方法[5], 但是如何构造适合专利领域的高质量语义词 词典、基于大规模语料库的词汇同现关系以及基于检 典一直是个难题, 因此基于用户行为分析的知识库构 索日志的方法。 建方法得到了越来越多的关注。 (1) 基于字面相似度 通常, 专利检索系统的日志记录了用户的检索工 该方法主要根据字面相似性原理, 即汉语中绝大 通讯作者: 王洪俊, ORCID: 0000-0002-4231-1427, E-mail: wang.hongjun@ 。 *本文系国家科技支撑计划课题“具有行业特色的增强型搜索引擎服务系统开发”(项目编号:2011BAH11B03)的研究成果之一。 24 现代图书情报技术 总第255 期 2015 年 第2 期 多数同义词、近义词都含有相同语素这一特点, 根据 单而有

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档