的应用文本挖掘的分析生物医药领域专利热点方法的研究.docx

的应用文本挖掘的分析生物医药领域专利热点方法的研究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
应用文本挖掘分析生物医药领域专利的方法研究摘要专利的发明,制度的实施,专利的利用和保护,已经逐渐成为一个国家综合实力的重要特征。专利信息反映了最前沿的科学技术发展状况,具有信息完整,覆盖面广,可靠性强,信息量大等显著特点。因此对专利信息数据库中数据的统计分析也变得尤为重要。本文从生物医药领域的专利信息分析出发,从专利的基本概念开始,阐述了相关专利信息的组成及研究价值,通过调研文本挖掘应用于专利分析的各种方法,利用已有的分词工具把近二十年的 USPTO 的生物医药领域共 15415 条专利的标题进行分词,然后通过人工清洗,删除那些无关词、词频很高但是不具代表性的词、和大量的停用词等处理形成词库,利用 DEIPHI 语言编写软件,计算每个词在每条专利中的 TF-IDF 值,并通过设定 TF-IDF 值和每个词在专利中出现的词频数共得到样本数据 890 条专利和 312 个词,在 Excel 中通过 VBA构建了一个多维度相似度矩阵并导入 Spss Clementine 软件中通过 K-means 算法进行聚类,将获得的 5 个聚类结果与 IPC 及 USPC 分类的结果进行横向比较,分析探讨对专利信息进行文本挖掘的应用方法以及专利聚类的成效。从试验结果看,本文采用的文本挖掘及进行自动聚类的分析方法,对于不同 IPC 或 USPC 类别专利的聚类效果有所不同。尽管聚类结果不是非常的理想且由于样本数据量的限制而可能缺乏广泛的代表性,但是利用此方法通过扩大文本挖掘的范围并根据聚类效果不断调整词库中那些效果不理想的专利类别的关键词汇,是有可能改善聚类结果,获得一个比较实用的利用文本挖掘和自动聚类开展专利文献分析的参数体系和方法的。全文图 15 幅,表 16 个,参考文献 39 篇,其中英文参考文献 10 篇。关键词:文本挖掘;生物医药;文本聚类分类号:G255.53;G305IMethods of Analysis of Biological Pharmaceutical Patent Hot Spotsby Text MiningAbstractThe invention,utilization and protection of patent and the implementation of itsinstitution is now becoming an important feature of national comprehensive strength.With the outstanding features of the integrity of information, the widely coverageand the reliability, the patent information reflects the forefront of the development ofthe science and technology, so the statistic analysis of the data in patent informationdatabase is also an important matter.Based on the patent information of the biomedical field, this thesis expoundedthe basic concept of patent and the constitution and value of research of relatedpatent information. After surveyed various methods of text mining that used in patentanalysis,Iimplement the segmentation by segment the 15415 patent titles in thebiomedical field of the USPRO in the recent twenty years by using the existingsegmentation tools, then delete the irrelevant words, the words have high wordfrequency but do not representative, lots of the stop words by artificial data cleaningand construct the corpus. After that, I authoring software in DEIPHI language tocompute the TF

文档评论(0)

ww88606 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档