- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词共现矩阵的项目关键词词库和关键词语义网络.doc
基于词共现矩阵的项目关键词词库和关键词语义网络
摘要:针对专业领域中科技项目的关键词提取和项目词库建立的问题,提出了一种基于语义关系、利用共现矩阵建立项目关键词词库的方法。该方法在传统的基于共现矩阵提取关键词研究的基础上,综合考虑了关键词在文章中的位置、词性以及逆向文件频率(IDF)等因素,对传统算法进行改进。另外,给出一种利用共现矩阵建立关键词关联网络,并通过计算与语义基向量相似度识别热点关键词的方法。使用882篇电力项目数据进行仿真实验,实验结果表明改进后的方法能够有效对科技项目进行关键词提取,建立关键词关联网络,并在准确率、召回率以及平衡F分数(一般用F1measure,是同一概念吗?是同一个概念F1score)等指标上明显优于基于多特征融合的中文文本关键词提取方法。
关键词:关键词提取;共现矩阵;关键词词库;关键词语义网络;电力项目
中图分类号: TP391.1 文献标志码:A
英文摘要
Abstract:In order to solve the problems of keyword extraction and project keyword lexicon establishment of technological projects in professional fields, an algorithm for building the lexicon based on semantic relation and cooccurrence matrix was proposed. On the basis of conventional keyword extraction research based on cooccurrence matrix, the algorithm considered several advanced factors such as the location, property and Inverse Document Frequency (IDF) index of the keywords to improve the traditional approach. Meanwhile, a method was given for the establishment of keyword semantic network using cooccurrence matrix and hot keyword identification through computing the similarity with semantic base vector. At last, 882 project experiment documents in power field were used to perform the simulation. And the experimental results show that the proposed algorithm can effectively extract the keywords for the technological projects, establish the keyword correlation network, and has better performance in precision, recall rate and F1score than the keyword extraction algorithm of Chinese text based on multifeature fusion.
英文关键词
Key words:keyword extraction; cooccurrence matrix; keyword lexicon; keyword semantic network; power project
0 引言
关键词提取是一项对文档索引、网页索引、文档分类、文本挖掘等领域非常重要的技术。关键词词库则是特定领域关键词的合集,关键词和关键词词库的优劣对各类检索系统、搜索引擎的性能有着重要影响[1]。关键词和关键词词库的质量不仅是评价检索系统优劣的重要标志之一,同时对我国主题词表和文献检索语言的发展有重大意义。
目前的情况下,无论是提取文档关键词,还是建立关键词词库,人工给出的结果都是最为理想的。然而,随着网络的发展,信息量的增长越来越快,网络资源正在以爆炸式的速度增长。据中国互联网络信息中心(China Internet Network Information Center,CNNIC)发布的《第33次中国互联网络发展
文档评论(0)