- 3
- 0
- 约1.8万字
- 约 18页
- 2017-05-04 发布于湖北
- 举报
基于关键词和摘要加权的交叉学科聚类研究研讨
基于文献聚类的数据挖掘模型设计与实现
参赛队员:张静,李逸,徐良飞
指导老师:魏建香 徐斌 褚炜鑫
(南京人口管理干部学院 江苏 南京 210042)
摘要:聚类分析是统计学中的一项重要技术。通过聚类可以发现隐藏在海量数据背后知识。本文首先建立空间向量模型,改进了传统相似度的计算模型,提出了一种基于摘要词对关键词加权贡献的相似度模型,使得文献的空间向量更加精确。数据来源于05年CSSCI文献数据库图书情报学的3千多条文献数据,并通过中知网查询相关文献的摘要。通过数据清洗、去噪声、降维、规格化处理、样本抽样等一系列步骤,得到最终用于聚类的681篇文献和108个学科特征原子词。利用Matlab软件编程实现了FCM算法的文献聚类。将聚类的结果通过基于学科原子特征词的学科交叉表来表示,统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对结果进行了检验,检验结果表明该统计模型是科学的、有意义的。
关键词:聚类; 交叉学科; 关键词; 摘要; 相似度; FCM
一、引言
1.研究背景
聚类分析(Clustering Analysis)是统计、模式识别和数据挖掘等领域中一个非常重要的技术,文献聚类就是依据文献之间的相似度按照一定的算法准则,挖掘隐藏在海量文献数据背后的有用知识:如学科交叉、研究热点和新的研究方向。科学研究需要创新。科
您可能关注的文档
最近下载
- 2025年春新人教版七年级下册历史全册课件.pptx
- 2025年浏阳社区专职工作人员招聘真题(附答案及解析).docx VIP
- 4.4.3输送血液的泵——心脏 课时作业 (含答案)七年级生物学人教版(2024)下册.docx VIP
- 2025年卫生事业管理考试试题及答案.docx VIP
- 2025年卫生事业管理考试试题及答案.docx VIP
- 卫生事业管理考试试题附答案.docx VIP
- XX初中劳动教育教师2026年春季学期“劳动周”活动设计与实施总结.docx VIP
- 吉利博瑞说明书.pdf VIP
- 卫生法律法规考试试题题库及答案 .pdf VIP
- 卫生法律法规考试试题题库及答案.docx VIP
原创力文档

文档评论(0)