基于关键词和摘要加权的交叉学科聚类研究研讨.docVIP

  • 3
  • 0
  • 约1.8万字
  • 约 18页
  • 2017-05-04 发布于湖北
  • 举报

基于关键词和摘要加权的交叉学科聚类研究研讨.doc

基于关键词和摘要加权的交叉学科聚类研究研讨

基于文献聚类的数据挖掘模型设计与实现 参赛队员:张静,李逸,徐良飞 指导老师:魏建香 徐斌 褚炜鑫 (南京人口管理干部学院 江苏 南京 210042) 摘要:聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型,改进了传统相似度的计算模型,提出了一种基于摘要词对关键词加权贡献的相似度模型,使得文献的空间向量更加精确。数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据,并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤,得到最终用于聚类的681篇文献和108个学科特征原子词。利用Matlab软件编程实现了FCM算法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示,统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对结果进行了检验,检验结果表明该统计模型是科学的、有意义的。 关键词:聚类; 交叉学科; 关键词; 摘要; 相似度; FCM 一、引言 1.研究背景 聚类分析(Clustering Analysis)是统计、模式识别和数据挖掘等领域中一个非常重要的技术,文献聚类就是依据文献之间的相似度按照一定的算法准则,挖掘隐藏在海量文献数据背后的有用知识:如学科交叉、研究热点和新的研究方向。科学研究需要创新。科

文档评论(0)

1亿VIP精品文档

相关文档