- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
读者需求分析中的数据挖掘技术
黄咏梅
( 大庆石油学院图书馆,大庆,163318)
[摘要] 针对高校图书馆读者借阅文献类型、流量实时监测问题,提出了一种基于数据挖掘中聚类算法的自动分类和统计分析方法。首先按照中图法所列22个大类对馆藏图书类型和借阅记录情况进行量化编码,然后对编码后的数据进行规整处理。以流通系统的读者数据库为底层数据支持,采用本文提出的方法开发出流量分类统计和预报应用系统。对大庆石油学院图书馆流通数据进行实际处理,结果证明了该算法的有效性和可靠性。
[关键词] 数据挖掘;聚类分析;读者需求
[分类号] G258
Research on Data Mining - based Customer Requirement Analysis
Huang Yong-mei
(Library of Daqing Petroleum University, Daqing, 163318)
[Abstract] In this paper, a automatic classification method approaching to dynamic inspect style of books borrowed in university library is shown. It is based on data mining algorithm in the Pattern association field. By this method, the borrowing information is coded and standardized according to classification standard in internal library. The method supported by reader database of library circulation system is applied to clustering analysis of borrowing information in Daqing petroleum university library. The simulation experience proved availability and credibility of the method.
[Keywords] Data mining;Clustering analysis;Reader requirement.
1 引 言
随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用,,,,,,,,,,,,,,, 2 聚类算法基本原理
2.1聚类基本原理
所谓的聚类就是已知一个数据项目集,,,Mercer[2]核,将输入空间样本映射到特征空间,增加对样本特征的优化,使映射后的样本具有更好的聚类形式。
假设输入空间样本()被某种非线性映射映射到某一特征空间得到,则特征空间中,向量的点积形式可以用Mercer核表示为:
(1)
特征空间中Euclidean距离可表示为:
(2)
该式可作为聚类相似度的度量函数。聚类准则是使的下面的目标函数最小。
(3)
式中,是聚类类别数,是第类样本的个数。依(2)式计算各样本的类属情况,同时迭代修正各类中心。当各类中心稳定时聚类结束。
2.2聚类实施过程
根据样本相似度测度公式(2),可建立核聚类算法实施方案:
步1:确定聚类类别数,聚类误差,初始化聚类中心;
步2:按(2)式计算各样本到聚类中心的距离(;);
(4)
令
步3:修改核矩阵:
(5)
(6)
步4:计算误差:
(7)
步5:如果,停机;否则转步2。
最后得到的聚类结果是,若,则(;)。
3 实际应用及分析
作为该方法的一个应用, 我们选择大庆石油学院图书馆读者库作为测试样本源,依读者借阅图书类别的分布情况实施聚类。
3.1样本数据编码
由于聚类操作的目标为借阅图书类别字段,所以馆藏图书大类的数目可取做样本空间的维数。每个读者对应一个样本,样本的每一维对应一类书目。读者库中该读者借阅过某类图书,样本相应维的值为借阅册数,否则为0。根据《中国图书馆图书分类法》,书目共分22个大类,见表1。
表1 《中国图书馆图书分类法》分类情况
类号 类 名 类号 类 名 A 马列主义、毛泽东
您可能关注的文档
- 低压智能电容器自适应过零投切技术研究.doc
- 低粘度慢固化环氧树脂固化剂研究.doc
- 滴灌模式对农田土壤水氮空间分布及冬小麦产量与影响[J].doc
- 底泥铬污染与纳米铁粉修复及其土壤酶活性动态.doc
- 地表水中半挥发性有机物与固相萃取GC-MS 方法研究.doc
- 地产龙虾壳甲壳素与提取和壳聚糖与制备.doc
- 地动仪复原模型与造型设计.doc
- 地方保护与市场分割 来自中国与经验数据.doc
- 地方本科高校创业教育体系与构建——以大学生创业教育中与“温州模式” 为案例.doc
- 地方本科院校动物科学专业实践教学存在与问题与对策[J].doc
- 半导体材料性能提升技术突破与应用案例分析报告.docx
- 半导体设备国产化政策支持下的关键技术突破与应用前景报告.docx
- 剧本杀市场2025年区域扩张策略研究报告.docx
- 剧本杀行业2025人才培训体系构建中的市场需求与供给分析.docx
- 剧本杀行业2025年人才培训行业人才培养模式创新与探索.docx
- 剧本杀行业2025年内容创作人才需求报告.docx
- 剧本杀行业2025年区域市场区域剧本市场消费者满意度与市场竞争力研究报告.docx
- 剧本杀市场2025年区域竞争态势下的区域合作策略分析报告.docx
- 剧本杀行业2025人才培训与行业人才培养模式创新.docx
- 剧本杀行业剧本创作人才心理素质培养报告.docx
最近下载
- GB50150-2016 电气装置安装工程 电气设备交接试验标准 (2).pdf VIP
- GBT51121-2015 风力发电工程施工与验收规范.doc VIP
- 抗凝剂皮下注射技术临床实践指南(2024版)解读 2PPT课件.pptx VIP
- 腰椎解剖应用.ppt VIP
- 人教版高一数学上册《第一单元集合》同步练习题及答案.pdf VIP
- 紫外可见分光光度计招标文件.doc VIP
- 《Android-Jetpack开发-原理解析与应用实战》读书笔记思维导图.pptx VIP
- DB3706_T 74-2021 西洋梨生产技术规程.pdf
- 【精选】ICAO附件14.pdf
- JEP122G 半导体器件失效机理和模型.pdf VIP
文档评论(0)