- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第29卷第7期 计算机应用与软件 Vol29No.7
2012年7月 ComputerApplicationsandSoftware Jul.2012
文本挖掘技术在科技管理领域热点主题抽取方向的应用研究
施韶亭 曹 方
(甘肃省科学技术情报研究所 甘肃兰州730000)
摘 要 科技管理领域热点主题抽取过程主要历经文本挖掘技术中的数据采集与清洗、信息抽取、主题分析三个阶段。其中,热
点主题抽取采用TFIDF信息抽取算法,主题聚类采用共现方法中的合并聚类。通过热点主题抽取、趋势分析和聚类分析,可以实现
领域热点工作的提前预测和科学决策,有助于推动政务领域信息的智能化和知识化。
关键词 科技管理 文本挖掘 信息抽取
中图分类号 TP301 文献标识码 A
APPLIEDSTUDYONTEXTMININGTECHNIQUETOS&TMANAGEMENTFIELD
HOTTOPICEXTRACTIONDIRECTION
ShiShaoting CaoFang
(GansuInstituteofScientificandTechnologicalInformation,Lanzhou730000,Gansu,China)
Abstract TheS&Tmanagementfieldhottopicextractionprocessmainlyundergoesthreestages:dataacquisitionandcleaning,information
retrieval,andtopicanalysis.Asforhottopicextraction,TFIDFinformationextractionalgorithmisapplied;intermsoftopicclustering,
agglomerativeclusteringfromconcurrencemethodisapplied.Bymeansofhottopicextraction,trendanalysisandclusteringanalysis,the
forecastandscientificdecisionmakingforfieldhotworkcanberealized,whichhelpspromotethegovernmentbusinessfieldinformation
intellectualizationandknowledgedriving.
Keywords S&Tmanagement Textmining Informationretrieval
对主题共现的相似度计算,建立共现矩阵,实现主题的聚类
0 引 言 分析。
文本挖掘作为数据挖掘的一个新主题,尚未有统一的定 1 研究方法和数据来源
义[1]。在计算机领域普遍接受的概念是:文本挖掘指从大量文
本数据中抽取事先未知的、可理解的、最终可用的知识的过程, 文本挖掘的具体过程包括文本向量模型、自然语言分析等
同时运用这些知识更好地组织信息以便将来参考[2]。文本挖 技术在内的信息抽取[9],文本数据只有经历这些过程处理后,
掘可以在自然语言的文本中寻找模式和趋势的优点,使得这项 才能实现主题的聚类、度量和可视化等知识化应用。其中信息
技术应用的领域比较广泛,如商业数据中竞争情报的获取[3]、 抽取过程的方法有基于规则的,也有基于统计的,算法主要有
政府信息中决策信息的发现[4] [5] Cvalue、TFIDF、遗传、LDA模型等。文本聚类有基于层次、密
、金融机构中交易的预警 、科
学学中科学图谱[6]的分析等。鉴于文本挖掘的价值,美国政府 度、网格方等方法,算法有 k均值、Newman、谱聚类、
文档评论(0)