- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基才高维聚类分析方法的读者群划分研究.pdf
第 期 情 报 杂 志 V01.29 No.1
2010年 1月 JOURNALOFINTELLIGENCE Jan. 2010
基才高维聚类分析方法的读者群划分研究
ResearchnotheConstructionofLibraryReader——groupsBased011
HighDimens ionalSparseClusteringAnalyzingM ethod
熊 拥 军
(中南大学图书馆 长沙 410083)
摘 要 针对图书馆读者群数据的高维特征,选择高维数据聚类算法来解决图书馆读者群划分问题。详细分析基
于高维数据聚类的读者群划分方法,以某高校 图书馆读者借阅事务数据为例 ,通过读者群划分实验表明,此方法可
有效识别借阅行为相似读者群,在图书馆信息管理与服务中具有一定的应用价值。
关键词 高维数据 数据聚类 读者群
中图分类号 TP391.41 文献标识码 A 文章编号 1002—1965{2009)01—0042—04
维聚类的范畴。本文引人基于稀疏特征向量的聚类算
1 图书馆读者群划分问题
法 (ClusteringAlgorithm BasedonSparseFeatureVec.
聚类用于发现数据对象集合 中未知的对象群,这 tor,CABOSFV)[,用于求解二元变量的读者高维稀疏
种划分类的依据是对象间的相似度,相似度是根据描 聚类问题。
述对象的属性值来计算的,而这与各对象在各维的取
2 高维稀疏聚类算法
值密切相关…。假设有 个对象,描述每个对象的属
性有 m个 ,每一个属性对应一个维,那么对这 个对 在现有的聚类算法中,有基于密度的CLIQUE算
象的聚类就是一个 维的聚类问题。当 比较大时, 法和基于层次的CURE算法具有高维数据处理的能
该聚类问题就是一个高维聚类问题。 力 ,但是 CLIQUE算法的聚类质量不是很好 ,c1 E
在图书馆,读者群是指具有相似兴趣和知识爱好 算法的计算效率 比较低。文献[3]提出CABOSFV聚
的读者集合 J。科学合理的对读者群进行划分 ,了解读 类算法定义了一种新的差异度计算方法 ,对数据进行
者群的文献需求,可为读者服务工作提供有用的信息。 了有效压缩 ,并且只需对数据进行一次扫描就可以生
传统的读者群划分方法是以读者院系、专业、地区、性 成聚类效果,减少了数据处理量和计算量,可以获得比
别、年龄等为条件,将读者归类为一个个虚拟的同属性 较高的算法速率。
群体,并未考虑读者的Et常图书借阅行为,无法合理 、 2.1 CABOSFV算法思想及相关概念 CABOSFV
有机地把具有相似借阅特征的各类读者予以重组。 算法的主要思想是L4j:a.CABOSFV聚类算法针对二
在读者图书借阅事务 中,由于读者借阅图书的种 元变量高维稀疏聚类问题 ,提出一种新的差异度计算
类繁多,因此读者借阅图书信息的记录就成 了高维数 方法,即 “集合的稀疏差异度 (SparesFeatuerDistance,
据。假定某个图书馆有2万名读者和50万种图书,为了 SFD)”,其反映的是一个集合内对象间的相似程度。
分析读者的借阅行为,需要根据读者的借阅行为对读 b. OSFV聚类算法对数据进行了有效压缩,其压
者进行聚类。读者是聚类的对象,各种图书的借阅情况
文档评论(0)