基于聚类分析读者阅读倾向研究.docVIP

下载本文档

3
0
约3.96千字
约 9页
2018-05-15 发布于福建
举报
版权申诉

基于聚类分析读者阅读倾向研究.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类分析读者阅读倾向研究

基于聚类分析读者阅读倾向研究　　[摘要]　读者的阅读倾向是读者阅读兴趣的真实反映，对图书馆馆藏建设的决策具有非常重要的参考价值。利用图书流通数据研究读者阅读倾向，是一种科学、客观的数据挖掘方法。聚类分析模型是数据挖掘手段之一，对图书馆自动化系统中保存的大量流通历史数据进行数据挖掘，可以揭示隐藏在数据背后的读者阅读倾向的变化。　　[关键词]　聚类分析　阅读倾向　馆藏建设　　[分类号]G252.3 　　　　1　引言　　　　图书馆作为学校信息服务中心，在学校教学、科研中占有举足轻重的地位。图书馆的馆藏结构是否合理、是否能够满足读者的阅读需求，一直是图书馆的工作重心。图书馆自动化系统的使用不仅为读者和图书馆工作人员带来工作上的便利，同时自动化系统中也存储了大量与读者阅读行为相关的历史数据，对这些数据进行有目的的整理、挖掘，可以从中提炼出需要和有用的信息，为图书馆决策工作提供服务。然而，这些历史数据是海量的，可用信息被淹没其中而无法直接得到，因此需要将数据挖掘技术应用到图书馆海量信息资源中，从数据中挖掘出读者的阅读倾向，以此增强图书馆服务的针对性。　　目前，已经有许多研究者提出一些研究读者阅读倾向的方法，比如以流通数据中的预约数据为基础研究读者的阅读倾向；以发放的调查表数据为基础进行数据分析，得出读者阅读倾向的变化。类似的文献还有很多，但大多使用统计图表等统计工具，在一维的层面进行分析。这些文献或者侧重于分析揭示各类数据的逐年变化情况，或者纵向比较各类图书的出借情况，同时结合时间跨度和图书分类两者关系，在二维层面进行研究的文献不多。　　本文以图书馆近10年的流通数据为研究基础，通过聚类分析方法，在二维层面找出《中国图书馆分类法》各分类下图书借阅情况的变化，以此探讨读者的集群特性，进而得出读者的借阅倾向。以流通数据为基础研究读者的阅读倾向，是一种客观、科学的数据分析方法，具有很高的可信度。　　　　2　K-Ⅵeans(k均值)聚类分析原理及方法　　　　聚类分析(clustering analysis)是一种探查数据结构的工具。聚类分析的核心是聚类，即将需要考察的对象进行划分，使得同一个类的对象相似，而不同的类的对象相异。物以类聚，人以群分。对事物进行分类，是人们认识事物的出发点，也是人们认识世界的一种重要方法。随着计算机技术的不断发展，利用数学方法研究分类不仅非常必要而且完全可能。对急剧增长的数据进行组织加工，从海量数据中学习有价值的信息，这些需求使得聚类分析成为一个非常活跃的研究领域。　　K-Means法是麦奎因(MacQueen，1967)提出的，其基本思想是将每一个样品分配给最近中心(均值)的类中，具体的算法至少包括以下步骤：　　?确定k个类的初始类中心点。计算所有样本数据点到k个类中心点的距离，按照距k个类中心点距离最短原则，把所有样本分派到各中心点所在的类中，形成一个新的k类，完成一次迭代过程。其中距离主要取决于研究者根据特定的应用选择适合的方法。可选的距离有欧氏距离(Euclidean Distance)、切比雪夫距离(Chebychev Distance)等。　　?重新确定k个类的中心点。计算每个类中各个变量的变量值均值，并以均值点作为新的类中心点。　　重复上面两步计算过程，直到达到指定的迭代次数或终止迭代的判断要求为止。将所有的样品分成K个初始类，并计算各初始类的中心坐标。　　K-Means聚类是一个反复迭代的分类过程。在聚类过程中，样本所属的类会不断调整，直到最终达到稳定为止。　　　　3　实证研究　　　　本文以西南交通大学图书馆近10年的流通数据作为研究对象，采用K―Means聚类数据挖掘方法，对一段时间的纸本图书的流通数据进行分析，发现其中包含的读者阅读倾向。　　　　3.1　数据的获取和预处理　　3.1.1　数据源　　为读者提供对纸本图书的借阅仍然是图书馆中最基本和最主要的服务。根据图书馆自动化系统中的流通数据，可以很好地掌握读者借阅规律，发现读者阅读倾向。在流通数据中，借阅次数的多少是衡量藏书质量的主要标准，高质量的图书往往会被反复借阅。　　由于纸本图书的流通数据量很大，因此选取2000―2010年的图书分类流通数据，去除其中与数据挖掘关系不大的属性，如图书的馆藏地点、借还书工作人员编号等。西南交通大学图书馆使用的自动化系统是自己开发设计的，后台数据库选用的是Oraclellg，这些都为进行数据挖掘提供了良好的客观条件。　　图书馆的图书是按照《中国图书馆分类法》进行分类的。如果分类级别太细将会使每个分类下的图书数量过少，从而降低了数据的揭示能力，因此只对分类到二级的数据进行数据挖掘，同时根据实际借阅情况，剔除