- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CN107315738-CN201710543194-一种文本信息的创新度评估方法
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 107315738 A
(43)申请公布日
2017.11.03
(21)申请号 201710543194.3
(22)申请日 2017.07.05
(71)申请人 山东大学
地址 250101 山东省济南市高新区舜华路
中段
(72)发明人 郭伟 张盘龙 鹿旭东 崔立真
(74)专利代理机构 济南圣达知识产权代理有限
公司 37221
代理人 张勇
(51)Int.Cl.
G06F 17/27(2006.01)
G06F 17/30(2006.01)
权利要求书2页 说明书10页 附图2页
(54)发明名称
一种文本信息的创新度评估方法
(57)摘要
本发明公开了一种文本信息的创新度评估
方法,对爬取的文本数据进行分词预处理;使用
预处理数据训练LDA模型,实现以行业为主题的
分类,用以把不同行业的文本进行区分,使得训
练好的模型包含每个行业类别的关键词的模型
文件;按照时间顺序,构建一个由预处理数据里
的抽取的关键知识和技术信息组成的知识网络,
并且每隔固定时间不断更新;使用按照时间排序
的预处理数据,提取每一篇文献的属性信息,并
构建一个文献文本结构网络,并确定各个文献的
创新类型;利用训练好的LDA模型分析专利数据
里面的技术和知识关键词分别属于的行业,综合
A 文献文本结构网络的属性信息,构成多维度指标
8 以评估创新度。
3
7
5
1
3
7
0
1
N
C
CN 107315738 A 权 利 要 求 书 1/2页
1.一种文本信息的创新度评估方法,其特征是:包括以下步骤:
(1)对爬取的文本数据进行分词预处理;
(2)使用预处理数据训练LDA模型,实现以行业为主题的分类,用以把不同行业的文本
进行区分,使得训练好的模型包含每个行业类别的关键词的模型文件;
(3)按照时间顺序,构建一个由预处理数据里的抽取的关键知识和技术信息组成的知
识网络,并且每隔固定时间不断更新;
(4)使用按照时间排序的预处理数据,提取每一篇文献的时间、名称、作者、浏览量和下
载量的属性信息,并构建一个文献文本结构网络,并确定各个文献的创新类型;
(5)利用训练好的LDA模型分析专利数据里面的技术和知识关键词分别属于的行业,综
合文献文本结构网络的属性信息,构成多维度指标以评估创新度。
2.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(1)中,构
建Keras深度学习模型,包括1层Embedding层,1层LSTM和1个Dense输出层,目标函数使用交
叉熵,优化函数使用adam。
3.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(2)中,使
用预处理的数据训练Word2vector模型,用以计算词与词之间的相关性,确定各个词语属于
相关行业的概率。
4.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(2)中,当
判断出的各个行业的所述概率进行从大到小排序,得到概率序列,取前n个概率最大的序
列,计算各个概率所占的比例,删除比较小于阈值的行业。
5.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(3)中,将
所有的文献文本数据首先按照时间顺序进行排序,然后抽取每一个文本数据里面所使用的
知识和技术名词,包括技术方案里面使用的算法的名称。
6.如权利要求1所述的一种文本信息的创新度评估方法,其特征是:所述步骤(3)中,遍
历文献的创新点或关键
您可能关注的文档
- CN107330590-CN201710464956-一种基于熵值法和物元可拓法的核电站安全运行评价方法.pdf
- CN107330589-CN201710463416-卫星网络协调风险的定量化评估方法及系统.pdf
- CN107330587-CN201710458763-一种基于AIS的近岸航道水深利用率计算方法.pdf
- CN107330584-CN201710439815-可疑人员识别方法及装置.pdf
- CN107330576-CN201710347886-一种基于边界供电能力的配电网效率评价方法.pdf
- CN107330572-CN201610274403-风控方法、装置及系统.pdf
- CN107330540-CN201710353190-一种考虑电压质量的配电网台区缺供电量预测方法.pdf
- CN107330538-CN201610845698-一种气候变化条件下水库适应性调度规则编制的方法.pdf
- CN107330473-CN201710545574-一种基于空间邻接指数的遥感分类野外调查样方抽选方法.pdf
- CN107330458-CN201710503214-一种最小方差优化初始聚类中心的模糊C均值聚类方法.pdf
文档评论(0)