CN107315738-CN201710543194-一种文本信息的创新度评估方法.pdfVIP

CN107315738-CN201710543194-一种文本信息的创新度评估方法.pdf

  1. 1、本文档共15页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CN107315738-CN201710543194-一种文本信息的创新度评估方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 CN 107315738 A (43)申请公布日 2017.11.03 (21)申请号 201710543194.3 (22)申请日 2017.07.05 (71)申请人 山东大学 地址 250101 山东省济南市高新区舜华路 中段 (72)发明人 郭伟 张盘龙 鹿旭东 崔立真  (74)专利代理机构 济南圣达知识产权代理有限 公司 37221 代理人 张勇 (51)Int.Cl. G06F 17/27(2006.01) G06F 17/30(2006.01) 权利要求书2页 说明书10页 附图2页 (54)发明名称 一种文本信息的创新度评估方法 (57)摘要 本发明公开了一种文本信息的创新度评估 方法,对爬取的文本数据进行分词预处理;使用 预处理数据训练LDA模型,实现以行业为主题的 分类,用以把不同行业的文本进行区分,使得训 练好的模型包含每个行业类别的关键词的模型 文件;按照时间顺序,构建一个由预处理数据里 的抽取的关键知识和技术信息组成的知识网络, 并且每隔固定时间不断更新;使用按照时间排序 的预处理数据,提取每一篇文献的属性信息,并 构建一个文献文本结构网络,并确定各个文献的 创新类型;利用训练好的LDA模型分析专利数据 里面的技术和知识关键词分别属于的行业,综合 A 文献文本结构网络的属性信息,构成多维度指标 8 以评估创新度。 3 7 5 1 3 7 0 1 N C CN 107315738 A 权 利 要 求 书 1/2页 1.一种文本信息的创新度评估方法,其特征是:包括以下步骤: (1)对爬取的文本数据进行分词预处理; (2)使用预处理数据训练LDA模型,实现以行业为主题的分类,用以把不同行业的文本 进行区分,使得训练好的模型包含每个行业类别的关键词的模型文件; (3)按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知 识网络,并且每隔固定时间不断更新; (4)使用按照时间排序的预处理数据,提取每一篇文献的时间、名称、作者、浏览量和下 载量的属性信息,并构建一个文献文本结构网络,并确定各个文献的创新类型; (5)利用训练好的LDA模型分析专利数据里面的技术和知识关键词分别属于的行业,综 合文献文本结构网络的属性信息,构成多维度指标以评估创新度。 2.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(1)中,构 建Keras深度学习模型,包括1层Embedding层,1层LSTM和1个Dense输出层,目标函数使用交 叉熵,优化函数使用adam。 3.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(2)中,使 用预处理的数据训练Word2vector模型,用以计算词与词之间的相关性,确定各个词语属于 相关行业的概率。 4.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(2)中,当 判断出的各个行业的所述概率进行从大到小排序,得到概率序列,取前n个概率最大的序 列,计算各个概率所占的比例,删除比较小于阈值的行业。 5.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(3)中,将 所有的文献文本数据首先按照时间顺序进行排序,然后抽取每一个文本数据里面所使用的 知识和技术名词,包括技术方案里面使用的算法的名称。 6.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(3)中,遍 历文献的创新点或关键

文档评论(0)

18273502 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档