聚类分析在图书管理系统中的应用.docVIP

下载本文档

3
0
约6.93千字
约 8页
2016-11-29 发布于河北
举报
版权申诉

聚类分析在图书管理系统中的应用.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类分析在图书管理系统中的应用

聚类分析在图书管理系统中的应用姜雷（徐州工程学院图书馆徐州 221008）摘要：本文首先在深入研究分析聚类分析的基础上，对K-均值算法进行探讨并指出其不足，同时提出了K-均值算法的改进算法。文章利用此改进算法对图书馆读者群体进行聚类分析，并根据分析的结果，针对不同群体采用不同的服务措施，以使资源得到充分利用；同时对图书进行聚类分析，为对各图书群进行特征描述和属性分析提供依据，从而可以合理分配有限的财力资源。关键词：数据挖掘；聚类分析；K-均值算法；图书馆 1 引言目前，图书馆系统大多使用操作性数据库，在数据库中存储书目馆藏信息、文献流通信息、读者基本信息等数据。通过该系统可以查询读者、图书、借阅记录等信息，但在回答“高级读者的借阅量是多少、流通比较频繁的图书有哪些”等问题，却无法为管理者提供确切的答案。由于读者兴趣爱好和教师引导等原因，读者在借阅习惯中表现出较多的共性和规律。本文以我校图书管理系统数据资源为研究对象，通过聚类分析方法的应用，进行以定量为基础的科学分析研究，挖掘出读者分类、图书分类等潜在的规则，为图书馆管理者的决策提供必要的决策依据。 2 聚类分析介绍聚类分析是数据挖掘领域最常用的技术之一。所谓聚类就是将物理或抽象对象的集合组成为由类似的对象组成的多个类或簇的过程。由聚类生成的簇是一组数据对象的集合，同一簇中的对象尽可能相似，而不同簇中的对象尽可能相异。通过聚类人们可以发现数据分布的一些特征。目前，聚类分析已被广泛应用于许多研究领域，包括数据挖掘、图像分割、模式识别等研究领域。如在商务上，聚类能帮助市场分析人员从客户基本信息中发现不同的客户群，并且用购买模式来刻画不同的客户群特征。在生物学上，聚类能推导植物和动物的分类，对基因分类。聚类分析还可以应用在其他挖掘算法的预处理步骤，如先对数据进行聚类，然后在得到的聚类结果上进行其他的研究和处理。 2.1 K-均值算法最典型的聚类算法是划分方法中的K-均值算法，它是一种迭代的聚类算法，迭代过程中不断地移动簇集中的成员直至得到理想的簇集为止，具有简单、快速的优点。算法中把n个对象分为k个簇，使每个簇中的成员有较高的相似度，同时不同簇中的成员之间的相异度较高。它的基本思想是：首先从n个数据对象中随机选择k个对象，每个对象初始地代表了一个类的平均值，即为初始聚类中心，然后将剩余的每个对象根据与这些聚类中心的相似度，分别赋子与其最相似(距离最近)的聚类。再重新计算每个所获新聚类的聚类中心(即该聚类所有对象的平均值)，不断重复，直到聚类中心值不再变化。算法[1]: 输入：聚类的数目k和包含n个数据对象的数据库输出: k个聚类方法：（1）随机选择k个对象作为初始的聚类中心；（2）将每个对象分给初始的聚类中心；（3）Repeat(用中文表达) （4）根据聚类中数据对象的平均值，将每个数据对象重新赋给最相似的聚类； (5) 计算每个聚类中数据对象的平均值，更新聚类的平均值；（6）Until(用中文表达) 每个聚类不再发生变化。 K-均值算法的时间复杂度为O (tkn)，空间复杂度是O(k+n)（是否有误），其中t为迭代次数，k为聚类个数。K-均值算法对初值比较敏感，对于不同的初始值，对其运行效率有较大影响，为提高运行效率，我们提出K-均值改进算法。 2.2 K-均值改进算法由K-均值聚类算法工作过程知：如能将初始聚类中心选取在数据分布密集区域中心，则其周围数据将很容易被划分到最近的类中，聚类收敛速度将加快，所需迭代次数将减少。显然，结合数据分布特点选取初始聚类中心非常重要。而要全面分析所有数据分布情况，并计算其分布密度，则必将大大增加系统时间开销。由数据的随机分布特点知，聚类数据应主要分布在所有数据的均值附近。另外，标准差也是评价数据分布的重要指标之一。为此，本文给出一种基于均值-标准差的初始聚类中心选取方法。假设所有数据的均值为，标准差为，则数据应主要分布在(-，+)之间[2]。假设聚类数目为N，于是我们可以选择初始聚类中心为(-，+)之间的N个等分点进行聚类。设第i类的初始聚类中心为mi，则有mi=(-)+2i/(N+1)，i=1， …，N。如果参与聚类的是多维数据(如d维)，则每个聚类初始聚类中心的各个向量为之间的（图中字母的下标是否有误）N个等分点，设第i类初始聚类中心值为{mi1，mi2,mid}，则有mil=，i=1，N；l=1，d。 K-均值改进算法流程图如图1所示：图1 K-均值改进算法流程图 2.3 K-均值与改进算法实例比较假设给定如下要进行聚类的元组{2，4，10，12，3，20，30，11，25}，并假设k=2，初始时用前面两个数值作为簇的均值：m1=2和m2=4。利用欧几里德距离公式可