- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
专利文献检索再分类的语言知识
专利文献检索再分类的语言知识 目录 引言 目前广泛使用的专利信息检索服务主要应用关键 词匹配方式,但同一个关键词检索得到的大量专 利文献,其内容也有相当的差异性; 需要对检索出来的专利文献按内容的不同进行 再分类; 目前国内外在文本自动分类方面的研究主要 是基于统计方法的,然而基于统计方法的分 类精确度较低,需要利用专利文本的语言知识 来分类。 1 专利文献检索再分类的语言知识 1.1 专利文献检索再分类的必要性 1.2 专利文献检索再分类的具体要求 1 专利文献检索再分类的语言知识 1.3 专利文献检索再分类的分类类别 材料 结构 制造工艺 加工工艺 用途 设备 2 专利文献检索再分类需要语言知识 目前的专利分类系统已经取得了比较高的准确率,然而,由于现有的专利分类技术大多依赖于定量的统计算法,对定性的专利自然语言文本特征研究不足,分类颗粒度过大,无法实现同一关键词下专利文献的细分。而要达到较高的分类准确度,就需要对语言知识进行研究。 3 专利文献检索再分类的词语层面知识 类别关键词:人在给出某一文本的类别时,需要利用语义及背景知识理解文本的内容,而这种理解是建立在出现在文本中的某种语言单位(字、词、短语……)的基础之上的,对文本分类起作用的主要是与该类有关的一些关键词,本文称为类别关键词。利用这些类别关键词进行分类,分类误差小。 4 专利文献检索再分类的语句层面知识 句子承载着传递语言信息的使命,人们在判断某一文本的类别时,除了利用文本中字、词、短语这些语言单位来理解文本的内容外,也需要将这些语言单位通过句子串联起来,考虑词语排列、次序以及词间语义关系等的影响。 5 专利文献检索再分类的篇章层面知识 一个语段中的几个句子,在意义上都是共同阐 述一个话题的; 但是在阐述话题时,并非每一个句子所起到的 作用都相同,而是有着相当大的差异; 通过本文对标注文本的考察和分析,首句是话 题最主要的表现形式,对于判断专利文本的类别 起着相当重要的作用。 结语 对通过关键词检索得到的专利文献进行再分类具有巨大的应用价值,这一再分类技术的研究与实现需要利用语言知识。本文从词语、语句、篇章三个层面分析了服务于再分类技术的语言知识。如何利用这些语言知识较好地实现专利文献检索再分类技术,则是下一步需要探讨的问题。 谢谢! * 引言 专利文献检索再分类的用户需求 专利文献检索再分类需要语言知识 专利文件检索再分类的词语层面知识 专利文献检索再分类的语句层面知识 专利文件检索再分类的篇章层面知识 结语 SIPO数据库中,输入关键词“碳纳米管”检索得到的专利共有1804件 1、按内容分类,反映技术特征 2、便于检索
文档评论(0)