- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
V01.25
第25卷增刊 科学学研究 Supp.
2007年6月 StudiesinScienceofScience Jun.2007
文章编号:1003—2053(2007)S1—0010-05
基于文本聚类方法的我国科技管理
研究领域的计量研究
丁 垄1,许 侃2
(1.北京大学经济学院,北京100087;
2.大连理工大学电子信息学院计算机系,辽宁大连116024)
管理研究的六大领域及其发展状态,对各个领域的热点问题进行自动识别。为比较准确把握科技管理研究态
势提供定量根据,也为文献的内容分析提供一种有效的工具。
关键词:科技管理;文献计量;文本聚类;EM算法
中图分类号:N031 文献标识码:A
随着互联网和信息技术的飞速发展,科技文献 20多年的发展过程中,无论该学科的基础理论建构
的数量成爆炸性趋势增长,其研究方向也呈发散性 还是应用研究,都取得了许多重要成果。作为科技
态势。面对大量的电子文本已经触手可及、文本数 管理研究与交流重要阵地的科技管理类期刊,承担
据迅速增多的局面,运用文本挖掘中聚类的方法,对 了传承和记载我国科技管理事业发展的重任。现今
某一学科大规模文献进行处理,辨识其研究领域,找 对科技管理文献的文本处理大多是关注于期刊引文
出特定时期内该学科的研究热点,具有重要的意义。 分析以及科技管理关键词的共词分析这两个方
retriev—面HJ,对科技管理类期刊杂志的大规模科技文献聚
文本聚类分析在信息检索(information
al,IR)领域有相当长的研究历史,近年来在文本数类处理基本属于空白。
据上的聚类分析研究和应用越来越受到关注。C. 本文利用文本挖掘中的文本聚类方法,用EM
聚类算法对科技管理的大规模语料进行研究类别的
J.van
Rijsbergen在IR领域的经典书籍《Information
自动划分和对研究热点的自动识别,无疑为我们能
Retrieval)中提到的“利用文本聚类分析技术来提高
够客观认识地科技管理研究状态,准确把握其发展
信息检索系统的准确率的方法”…是可以追溯到的
脉络和主攻方向,具有重要的意义。
最早的综合性研究。DouglassR.Cutting利用聚类
技术重新组织文本集合,用于文本集合的浏览阻】,
1相关概念及算法选择
这是近年来文本聚类中一个广受关注的研究点。国
外对英文文本聚类已经进行了大量的研究,并已将
1.1文本挖掘
文本聚类应用在文本挖掘和信息检索领域。最近,
文本挖掘是指从大规模的文本数据中抽取事先
文本聚类又被用于浏览文本集以及重新组织查询引
未知的、最终可用的信息或知识的过程。对文本信
擎。此外,文本聚类还可以用于提供对一个大的文
文档评论(0)