聚类算法在图书馆中的应用.pdfVIP

下载本文档

9
0
约4.16千字
约 3页
2018-04-07 发布于湖北
举报
版权申诉

聚类算法在图书馆中的应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聚类算法在图书馆中的应用.pdf

第 28卷第 1期新乡学院学报：自然科学版 2011年 2月 Vo1．28 NO．1 JournalofXinxiangUniversity：NaturalScienceEdition Feb，20l1 聚类算法在图书馆中的应用茹蓓，赵芳新乡学院计算机与信息工程学院，河南新乡 453003 摘要：依据图书馆的现有信息，结合数据挖掘的流行方向，应 -fl聚类算法分析研究读者的借阅行为，获得对图书馆管理有用的信息，提高图书馆管理工作效率和资源利用率。关键词：数据挖掘；聚类算法；借阅行为；聚类分析；k-means算法中图分类号：TP274；TP3l2 文献标志码：A 文章编号：1674—3326 2011 0l一0041—03 TheApplicationofClusteringAlgorithm intheLibrary RU Bei．ZHAO Fang CollegeofComputerandInformationEngineering，XinxiangUniversity，Xinxiang453003，China Abstract：Byusingthedataofthelibrary，clusteringalgorithm willbeappliedtoanalysereaders’patternsof behavior．Thiswillprovidethedecision—makingcriterionsforthemanagementoflibraryandimprovethelevelof servicetoreaders． Key words：data mining；clustering algorithm ；readers’patterns ofbehavior；clustering analysis；k-means algorithm 0 引言根据读者借阅的历史数据，利用数据挖掘技术可以挖掘这种数据背后隐藏的信息，预测读者的阅读需求信息。掌握读者的借I列规律，是图书馆开展个性化服务的基础。数据挖掘能为图书馆员提供先进的业务处理和信息服务工具，提高工作效率。 1 聚类算法中的k-means算法 1．1 聚类算法的概念聚类的目的是把大量数据点的集合分成若干类，使每个类中的数据存在最强的相似性，不同类的数据存在最大差别。按照相似程度的高低，将事物样本、对象或变量逐一归类。聚类的数学描述如下：被研究的样本集为 E，类 C为E的一个非空子集，即 C∈E且 C≠ 。聚类就是满足条件 1 CIUC2UC3U…UCx E和 2 cncj 对任意的类 Cf，C2，C3，…C 的集合 ”【。由条件 1 可知，E中的每个样本必属于某一个类；由条件 2 可知，E中的每个样本最多只属于一个类[2l。由聚类生成的簇是一组数据对象的集合，它们与同一个簇中的对象彼此相似，与其他簇中的对象相异。 1．2 聚类中k—means算法该算法接受输入量 k，把个数据对象划分为k个聚类，基于对象之间的距离来计算相异度引。k-means 算法是在完成每一次对象划分后，以每个类的所有对象的平均值作为该集合的新的中心，直到所有的集合不再发生变化为止】。假设对个对象进行聚类，其结果要求产生 k个类，算法的基本过程描述如下：1 首先随机地选择 k个对象，每个对象作为一个类的中心，分别代表将分成的k个类。2 根据 “距离中心最近”的原则，寻找与各个对象最为相似的类，将其他对象划分到各个相应的类中。3 在完成对象的分配之后，针对每一个类，计算其所有对象的平均值，作为该类的新的中心。4 根据 “距离中心最近”原则，重收稿日期：2010—12一l1 修回日期：2Ol101．17 作者简介：茹蓓 1977一，女，河南新乡人。讲师，硕士生，研究方向：计算机科学。E-mail：xxujsjru@163．corn。赵芳 1981一，女，河北青苑人讲师，硕士生，研究方向：计算机科学研究。 · 42· 新乡学院学报：自然科学版 2011生新划分所有对象。5 NN~N 3 ，至所有产生的类没有变化为止。假设给定 ki til，rf2…．，tit ，类中心计算表达式定义为：m —t芝， 1 ㈣。 j t 1-3 数据挖掘过程中的k-means算法分析聚类分析读者借阅量，可以得到读者借书频率的高低。根据系统的实际数据，运用 k-means聚类算法，做数据挖掘过程的分析。随机地从读者借阅量表中抽取 2O名学生的记录，形成表 1。表 1 读者借阅本数表 Tab．1 Thenumberofreade