专利分析工具的功能及特色比较研究.docxVIP

下载本文档

10
0
约1.05万字
约 9页
2023-12-22 发布于境外
举报
版权申诉

专利分析工具的功能及特色比较研究.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

专利分析工具的功能及特色比较研究

1专利分析工具

专利是最有效的技术信息来源。专利文献仅占期刊文献总量的10%左右,却囊括了全球40%左右的新产品信息。对专利数据的分析早已成为一种重要的评估方法,应用于科学技术、经济发展、商业运作等多方面。

专利分析工具为专利分析提供了技术保障。专利分析工具的好坏极大地影响了专利分析的效率及专利分析结果的准确性。目前,国内外专利分析工具层出不穷,各有专长。本文选取了15个国外主要的专利分析工具进行比较,分析其特色,希望能为专利分析人员选取适当的工具以及软件公司改进专利分析工具提供参考。

2聚类数据聚类

在研究专利分析工具之前,先讨论一下这类工具中所运用的专利分析的一般方法。其中包括:

(1)数据整理和概念分组。数据整理即通过手工或自动的方式对数据域内的词语进行标准化处理。概念分组包括词语的标准化以及同义词的识别。那些拼写错误的词汇将被清除,同义词将被合并或替换。例如,已经合并的两家专利申请企业的专利将被清理组合成一家后并入企业的总专利清单。

(2)列表或直方图。列表或直方图是通过将两个或两个以上实体(国家、公司、个人或某个领域)的专利在某个数据域上的统计数据进行比较绘制而成。可选的数据域有专利权属人、专利发明人、专利类别、年代、国家等。

(3)比较矩阵(Co-occurrencyMatrices)。将两个或两个以上的数据域相比较,生成比较矩阵,用以发现两种数据域的相互联系。两个数据域中的数据分别分布在X、Y轴上。矩阵中的数字表示同时拥有两个数据域中对应数据的文档的数量。例如,可以用X轴表示时间,Y轴表示专利权属人,矩阵中的数字代表每年专利权属人申请专利的数量。

(4)有结构数据聚类。有结构数据,亦称为有域数据,是指被标记过或者属于某数据域的数据。例如,XML文档或者数据库中的一个字段。这种数据的标记和数据域不是文档的作者创建的,它们可能是某一系统早已约定的。例如,Derwent数据库和美国专利数据库中收集的专利文档具有不同的结构。聚类,通俗地说,就是将相关文档放在一起。有结构数据聚类的依据是,具有相同结构和大量相同编码的文档是相似的。有结构数据聚类的关键是如何将不同结构的文档转化为相同的结构存储在本地数据库中。

(5)无结构数据聚类。无结构数据,亦称为文本数据,是指没有被索引或分割到单独数据域的文本数据。文本中仅有的结构就是句子、段落等。它们在作者写作时产生,并由作者随意编纂。因此,分析软件很难根据上下文来理解文本。例如,在无结构文本中,软件不能区分一个数字串是代表日期还是专利号。原始文本必须先经过处理,识别其中包含的概念和习语。与有结构数据聚类不同,无结构数据聚类是根据概念,而非编码。其依据是,具有大量相同概念的文档是相似的。无结构数据聚类过程比较复杂。聚类首先从识别相关词开始。这一过程涉及词汇的提取。英文文本被空格、破折号等标点符号分割为一个个字符串,称为标记(在中文文本中,词语之间没有空格分割,因此必须采用分词和语义分析技术提取词汇)。标记是词汇的基础。软件在分析文档时识别出所有的标记,由于在全文文档中,标记的数量非常巨大,因此,必须去除停用词,如“a”、“the”、“be”等,它们与文档内容无关,称为无实义词。此外,用户还可根据实际应用添加其他停用词。去除停用词后,文档词汇大大减少,接下来需要抽取词干,整理那些只有后缀不同的词汇,最后运用TFIDF运算法则产生用于聚类的词汇的倒排档。倒排档中处于两端的词汇将不参与聚类,将剩下的词汇进行统计分析,找到文档间的共用概念,便可生成聚类。

(6)文档聚类地图。将文档聚类排列到一个二维空间,就构成了一张地图。地图上空间距离的远近代表了文档集合之间相同元素的多少。具有较多相同元素的文档集合位置更紧密,而具有较少相似元素的集合位置较远。文档聚类地图可视性强,便于理解,可以清晰地展示出不同主题之间相似性的强弱,以及那些拥有多个类别的特点,不适合被划分到任何一个单一类别中的文档。

(7)引文分析。所谓专利引文,是指当专利发表时,出现在专利文档第一页上的对早期专利的提及。它代表了该专利所用到的最相关的专利技术。通过专利引用历史,可以将专利文档联系起来,并通过“树”或“图”结构直观地展现这种联系。沿着这些结构,可以看到早期技术怎样被改进,新技术怎样被孕育。进而计算引用量,发现关键技术以及潜在的竞争者。

(8)“主语/行为/宾语”(Subject/Action/Object,SAO)。“主语/行为/宾语”是一种自然语言处理技术。它可以根据语法规则表示句子中的概念。例如,“碘可预防甲亢”这句话包含主语(碘),行为(预防)以及宾语(甲亢)。利用Java工具(J-RAN)可以自动提取用自然语言描述的文档中的相关概念,即SAO中的三元素。采用此法处理专利文档,