基于关键词和摘要加权的交叉学科聚类研究研讨.docVIP

下载本文档

3
0
约1.8万字
约 18页
2017-05-04 发布于湖北
举报

基于关键词和摘要加权的交叉学科聚类研究研讨.doc

基于关键词和摘要加权的交叉学科聚类研究研讨

基于文献聚类的数据挖掘模型设计与实现参赛队员：张静，李逸，徐良飞指导老师：魏建香徐斌褚炜鑫（南京人口管理干部学院江苏南京 210042）摘要：聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型，改进了传统相似度的计算模型，提出了一种基于摘要词对关键词加权贡献的相似度模型，使得文献的空间向量更加精确。数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据，并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤，得到最终用于聚类的681篇文献和108个学科特征原子词。利用Matlab软件编程实现了FCM算法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示，统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点，以及图书情报学新的学科增长点，并对结果进行了检验，检验结果表明该统计模型是科学的、有意义的。关键词：聚类; 交叉学科; 关键词; 摘要; 相似度; FCM 一、引言 1.研究背景聚类分析（Clustering Analysis）是统计、模式识别和数据挖掘等领域中一个非常重要的技术，文献聚类就是依据文献之间的相似度按照一定的算法准则，挖掘隐藏在海量文献数据背后的有用知识：如学科交叉、研究热点和新的研究方向。科学研究需要创新。科

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于关键词和摘要加权的交叉学科聚类研究研讨.docVIP