基于聚类算法的图书馆利利用情况分析.docVIP

下载本文档

9
0
约5.31千字
约 10页
2018-08-18 发布于湖北
举报
版权申诉

基于聚类算法的图书馆利利用情况分析.doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于聚类算法的图书馆利利用情况分析　　摘要：高校图书馆是与教学、科研并重的高校三大支柱之一，在大学扮演着十分重要的角色。近年来，高校图书馆在发展的同时，存在诸如经费紧缺、藏书结构不够合理、采购方案不够科学等问题，由此造成图书利用率低（平均只有30%）和人力、物力、财力的严重浪费。因此有必要对图书利用情况进行科学的分析，以支持采购方案的制定、图书馆藏书结构的完善。本文在介绍聚类算法之后，采用k-means这一经典聚类算法对保山学院图书馆近9年的借阅量进行聚类分析。并对以后的图书采购提供一些建议。　　关键词：聚类算法图书馆　　中图分类号：G251.4 文献标识码：A 文章编号：1003-9082（2016）08-0036-03 　　前言　　从建国到至今这65年，我国的教育事业有了长足的进展，在基础教育教育普及率不断提高的情况下，高等教育事业也呈现出蓬勃发展的态势。特别是恢复高考制度以来，高校在校生人数从1978年的80多万人突增至现在的2000多万。近年来，高校每年为社会输送数百万人才。　　高校图书馆，是高校的文献情报中心，与教学、行政组成高校的三大支柱。在大学扮演着十分重要的角色，是大学生信息素养教育的重要基地[1]，是师生们获取情报、做学术研究和交流的重要场所。近年来，高校图书馆在发展的同时，也在带来了一些问题，比如说因为学校发展定位、专业设置对相关图书需求而要求高校图书馆在一个时间内大力采购某一类图书，而忽视藏书结构的合理性问题；也存在图书馆在高校发展的某一年或几年因为工作重心倾斜而被缩减拨款的现象。所以，高校图书馆在藏书数量骤增的同时存在诸如经费紧缺、藏书结构亟待完善、采购方案不够科学等问题，造成了高校学生不能借到想要的图书，而图书馆的藏书利用率很低，亦即高校图书馆在很大程度上造成人力、物力、财力的严重浪费。所以，有必要在大学生借阅倾向等方面进行分析，对图书的利用情况作一个科学的分析，进而支持采购方案、完善图书馆的藏书结构、为读者提供更好质量的服务，让我们的工作更有效益。　　一直以来，国内图书馆（包括高校图书馆）图书利用率极低，只有25%[2][3]到30%[4]。由于藏书利用率低，造成文献资源大量浪费、积压和闲置。因此，加大提高图书有效利用方面的研究，是图书馆相关领域的主要工作，也是保山学院图书馆亟待解决的问题。　　一、聚类算法简述　　1.聚类分析　　又称为群分析，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计方法。它区别于分类分析，后者是有监督的学习。通过聚类分析，可以在没有任何模式可供参考或依循，即在没有先验知识的情况下，将大量数据样本按各自的特性来进行合理的分类。在自然科学和社会科学众多领域都存在大量的分类问题，因此，聚类分析是数据挖掘领域最常用的技术之一。　　所谓聚类就是把整个数据集分成不同的“簇”，使得簇与簇之间的区别尽可能的大，而簇内的数据的相似度尽可能的高，相似或不相似的度量是基于数据对象描述属性的聚类值来确定的，通常就是利用各个聚类间的距离来进行描述的。　　在聚类分析中，对象之间的相似程度可以通过计算相应两个对象之间距离来确定。最常用的距离计算公式就是欧氏距离（Euclidean distance），具体计算公式如下：　　d（I，j）= 公式1.1 　　d越小，说明两个对象相似度越高；反之，则说明两个对象相似度很低。　　2.k-means算法介绍　　k-means算法最早是Mac Queen在1967年提出的[5]，它是一种迭代的聚类算法，迭代过程中不断地移动簇集中的成员直至得到理想的簇集为止，具有简单、快速的优点。自算法提出至今已有很长的历史，但仍然是当前研究的热点课题。　　k-means算法是一个著名并且最常用的基于划分的聚类算法，它以k为参数（在算法运行前确定），把N个数据对象划分为k个簇，使簇内数据对象具有就较高的相似度，而簇间的相似度较低，相似度基于簇内数据对象的平均值计算。首先随机从数据对象中选取 K个点作为初始聚类中心，然后计算各个样本到聚类中心的距离，把样本归到离它最近的那个聚类中心所在的类。计算新形成的每一个聚类的数据对象的平均值来得到新的聚类中心，如果相邻两次的聚类中心没有任何变化，说明样本调整结束，聚类准则函数已经收敛。本算法的一个特点是在每次迭代中都要考察每个样本的分类是否正确。若不正确，就要调整，在全部样本调整完后，再修改聚类中心，进入下一次迭代。如果在一次迭代算法中，所有的样本被正确分类，则不会有调整，聚类中心也不会有任何变化，这标志着已经收敛，因此算法结束。　　k-means算法基本步骤为：　　2.1从给定数据对象中选择k个样本为初始聚类中心。　　2.2将样本按照欧氏距离最短原则