- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聚类算法在图书馆中的应用.pdf
第 28卷 第 1期 新 乡学院学报:自然科学版 2011年 2月 Vo1.28 NO.1 JournalofXinxiangUniversity:NaturalScienceEdition Feb,20l1 聚类算法在图书馆中的应用 茹 蓓 ,赵 芳 新 乡学院 计算机与信息工程学院,河南 新 乡 453003 摘 要:依据 图书馆的现有信息,结合数据挖掘的流行方向,应 -fl聚类算法分析研 究读者的借阅行为,获 得对图书馆管理有用的信息,提高图书馆管理工作效率和资源利用率。 关键词:数据挖掘 ;聚类算法;借阅行为;聚类分析;k-means算法 中图分类号:TP274;TP3l2 文献标志码 :A 文章编号:1674—3326 2011 0l一0041—03 TheApplicationofClusteringAlgorithm intheLibrary RU Bei.ZHAO Fang CollegeofComputerandInformationEngineering,XinxiangUniversity,Xinxiang453003,China Abstract:Byusingthedataofthelibrary,clusteringalgorithm willbeappliedtoanalysereaders’patternsof behavior.Thiswillprovidethedecision—makingcriterionsforthemanagementoflibraryandimprovethelevelof servicetoreaders. Key words:data mining;clustering algorithm ;readers’patterns ofbehavior;clustering analysis;k-means algorithm
0 引言 根据读者借阅的历史数据,利用数据挖掘技术可 以挖掘这种数据背后隐藏的信息,预测读者的阅读需
求信息。掌握读者的借I列规律 ,是图书馆开展个性化服务的基础。数据挖掘能为图书馆员提供先进的业务
处理和信息服务工具 ,提高工作效率 。 1 聚类算法中的k-means算法 1.1 聚类算法的概念 聚类 的目的是把大量数据点的集合分成若干类 ,使每个类中的数据存在最强的相似性 ,不同类的数据
存在最大差别。按照相似程度的高低 ,将事物样本 、对象或变量逐一归类。 聚类的数学描述如下 :被研究的样本集为 E,类 C为E的一个非空子集 ,即 C∈E且 C≠ 。聚类就是
满足条件 1 CIUC2UC3U…UCx E和 2 cncj 对任意 的类 Cf,C2,C3,…C 的集合 ”【。由条件
1 可知,E中的每个样本必属于某一个类 ;由条件 2 可知,E中的每个样本最多只属于一个类[2l。 由聚类生成的簇是一组数据对象的集合 ,它们与同一个簇中的对象彼此相似 ,与其他簇 中的对象相异。
1.2 聚类中k—means算法 该算法接受输入量 k,把 个数据对象划分为k个聚类 ,基于对象之间的距离来计算相异度 引。k-means
算法是在完成每一次对象划分后 ,以每个类的所有对象的平均值作为该集合的新的中心,直到所有的集合
不再发生变化为止 】。假设对 个对象进行聚类 ,其结果要求产生 k个类 ,算法的基本过程描述如下 :1 首先随机地选择 k个对象,每个对象作为一个类的中心 ,分别代表将分成 的k个类。2 根据 “距离中心最
近”的原则,寻找与各个对象最为相似的类 ,将其他对象划分到各个相应的类中。3 在完成对象的分配之
后,针对每一个类,计算其所有对象的平均值 ,作为该类的新的中心 。4 根据 “距离中心最近”原则 ,重
收稿 日期:2010—12一l1 修回日期:2Ol101.17
作者简介:茹蓓 1977一 ,女,河南新乡人。讲师,硕士生,研究方向:计算机科学。E-mail:xxujsjru@163.corn。 赵芳 1981一 ,女,河北青苑人 讲师,硕士生,研究方向:计算机科学研究。 · 42· 新乡学院学报:自然科学版 2011生
新划分所有对象。5 NN~N 3 ,至所有产生的类没有变化为止。假设给定 ki til,rf2….,tit ,类 中心计算
表达式定义为:m —t芝 , 1 ㈣。 j t
1-3 数据挖掘过程中的k-means算法分析 聚类分析读者借阅量,可以得到读者借书频率的高低。根据系统的实际数据,运用 k-means聚类算法,
做数据挖掘过程的分析。随机地从读者借阅量表 中抽取 2O名学生的记录,形成表 1。 表 1 读者借阅本数表 Tab.1 Thenumberofreade
文档评论(0)