读者需求分析中与数据挖掘技术.docVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
读者需求分析中的数据挖掘技术 黄咏梅 ( 大庆石油学院图书馆,大庆,163318) [摘要] 针对高校图书馆读者借阅文献类型、流量实时监测问题,提出了一种基于数据挖掘中聚类算法的自动分类和统计分析方法。首先按照中图法所列22个大类对馆藏图书类型和借阅记录情况进行量化编码,然后对编码后的数据进行规整处理。以流通系统的读者数据库为底层数据支持,采用本文提出的方法开发出流量分类统计和预报应用系统。对大庆石油学院图书馆流通数据进行实际处理,结果证明了该算法的有效性和可靠性。 [关键词] 数据挖掘;聚类分析;读者需求 [分类号] G258 Research on Data Mining - based Customer Requirement Analysis Huang Yong-mei (Library of Daqing Petroleum University, Daqing, 163318) [Abstract] In this paper, a automatic classification method approaching to dynamic inspect style of books borrowed in university library is shown. It is based on data mining algorithm in the Pattern association field. By this method, the borrowing information is coded and standardized according to classification standard in internal library. The method supported by reader database of library circulation system is applied to clustering analysis of borrowing information in Daqing petroleum university library. The simulation experience proved availability and credibility of the method. [Keywords] Data mining;Clustering analysis;Reader requirement. 1 引 言 随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用,,,,,,,,,,,,,,, 2 聚类算法基本原理 2.1聚类基本原理 所谓的聚类就是已知一个数据项目集,,,Mercer[2]核,将输入空间样本映射到特征空间,增加对样本特征的优化,使映射后的样本具有更好的聚类形式。 假设输入空间样本()被某种非线性映射映射到某一特征空间得到,则特征空间中,向量的点积形式可以用Mercer核表示为: (1) 特征空间中Euclidean距离可表示为: (2) 该式可作为聚类相似度的度量函数。聚类准则是使的下面的目标函数最小。 (3) 式中,是聚类类别数,是第类样本的个数。依(2)式计算各样本的类属情况,同时迭代修正各类中心。当各类中心稳定时聚类结束。 2.2聚类实施过程 根据样本相似度测度公式(2),可建立核聚类算法实施方案: 步1:确定聚类类别数,聚类误差,初始化聚类中心; 步2:按(2)式计算各样本到聚类中心的距离(;); (4) 令 步3:修改核矩阵: (5) (6) 步4:计算误差: (7) 步5:如果,停机;否则转步2。 最后得到的聚类结果是,若,则(;)。 3 实际应用及分析 作为该方法的一个应用, 我们选择大庆石油学院图书馆读者库作为测试样本源,依读者借阅图书类别的分布情况实施聚类。 3.1样本数据编码 由于聚类操作的目标为借阅图书类别字段,所以馆藏图书大类的数目可取做样本空间的维数。每个读者对应一个样本,样本的每一维对应一类书目。读者库中该读者借阅过某类图书,样本相应维的值为借阅册数,否则为0。根据《中国图书馆图书分类法》,书目共分22个大类,见表1。 表1 《中国图书馆图书分类法》分类情况 类号 类 名 类号 类 名 A 马列主义、毛泽东

文档评论(0)

bhyq + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档