高校图书馆流通数据挖掘的新思路.docVIP

下载本文档

19
0
约4.71千字
约 8页
2017-01-24 发布于北京
举报
版权申诉

高校图书馆流通数据挖掘的新思路.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高校图书馆流通数据挖掘的新思路.doc

高校图书馆流通数据挖掘的新思路　　〔摘要〕图书馆流通数据是图书馆业务流程优化的重要依据之一，对其分析方法层出不穷，但用于指导图书馆实践活动的甚少。本文通过参考与借鉴情报学基本定律与分析方法，重新定义并建立基于图书借阅频次的评价指标，即图书半衰期、图书集合普赖斯指数、图书滞架指数、图书h指数，以及基于读者借阅次数与行为的分析方法，即读者h指数等指标和图书耦合/共现网络模型，从而提高对高校图书馆流通数据的分析能力和组织能力，希冀为优化采购和布局配置，向读者提供积极、主动、个性化信息服务提供新的思路。　　〔关键词〕OPAC数据；流通数据；高校图书馆；评价指标　　DOI：10.3969/j.issn.1008-0821.2013.10.033 　　〔中图分类号〕G251.5〔文献标识码〕A〔文章编号〕1008-0821（2013）10-0143-06 　　图书馆借阅信息是伴随着图书馆门户公开化而诞生的副产品，但其在馆藏采购、馆藏管理、读者需求分析等方面具有不可忽视的作用。随着图书馆资源和管理数字化进程加快，每日都会从图书馆管理系统中产生庞杂的表单信息，如何让信息从无序到有序，便于从中了解读者借阅兴趣与倾向、馆藏图书的利用率，有必要对流通数据进行深度剖析。但是对于借阅数据的深度挖掘停留在研究层面的较多，付诸指导图书馆实践的较少，为了避免陷入数据丰富但信息贫乏的尴尬局面，图书馆有必要增强对流通数据的分析能力和组织能力，并以此为客观依据，向读者提供积极、主动、个性化信息服务，这也与泛在图书馆所要求打破被动服务壁垒，提高以读者驱动为导向的主动服务意识的宗旨相一致[1-2]。　　1图书馆借阅数据利用现状　　目前国内外学者对于图书馆流通数据的分析主要从以下4个方面开展：　　1.1利用统计学概念分析借阅数据　　制定若干统计指标对图书馆流通数据进行频次分析是最常见也是最简便的方法，且统计结果具有一定参考价值。如对图书馆流通数据中的宏观人次、书次指标进行统计，可以了解馆藏利用和读者用书的总体状况；对个人借书、单本图书借阅指标进行统计，能够揭示不同读者借阅特点和各类图书的利用率；对高校范围内（非）出版物的引文进行统计，可以直观得出本馆馆藏对校内读者的满足率[3-5]。　　1.2采用数据挖掘技术进行读者需求分析　　大多数图书馆管理系统都是事务处理型[6]，主要应用于日常业务操作，而数据仓库是分析处理型，能够从无序数据流中挖掘出读者和图书馆员感兴趣的信息：如建立一种基于模式识别中Mercer核聚类算法的自动分类和统计分析法，按照中图法22个大类对馆藏图书类型和借阅记录进行量化编码，实现读者群分类以及对读者借阅文献类型、流量进行实时监测和统计[7]；或建立事务数据库，基于Apriori算法[8-9]、改进算法FP-Growth[10]、邻接矩阵[11]等挖掘图书借阅数据的关联规则，进而构建各学科书籍之间的关联度以及读者对图书信息资源的借阅模式[12-14]。　　1.3利用聚类法对读者和图书进行细分　　有学者利用Clementine两步聚类模型对高校读者进行聚类分析，将其分为积极型、一般型和消极型3类[15]，或利用系统聚类算法建立图书馆读者细分模型[16-17]，并针对不同类型的读者开展个性化服务，如制定不同借阅规则、赋予不同借阅权限；或利用K-means算法分别对图书和读者进行了聚类，从中分析图书的借阅规律、读者借阅图书的某种倾向及读者是否活跃，从而制定出相应的决策，以便有针对性地丰富馆藏资源和优化馆藏布局，并为图书馆开展个性化服务提供参考[18-19]。　　1.4借鉴情报学评价指标分析流通数据　　由美国学者Hirsh J提出的h指数最初用于评价科学家个人的学术成就[20]，随后经过多位学者在实证研究和理论分析基础上进行扩展和延伸，h指数被成功应用到学术期刊评价、学术机构评价和专利质量评估等方面[21-22]，而h指数的思想与方法在图书管理中也值得借鉴。国内有学者利用评价指标h指数分析图书借阅数据，统计分析读者群h指数与图书集合h指数，揭示不同读者群的借阅活跃度、不同图书集合的核心读者以及不同读者群的核心图书，客观反应图书利用状况和读者借阅情况，体现图书集合和读者群的个性化特点[23]；由于h指数具有测算时间区域的敏感性，还可用于监测图书集合随时间变化其借阅指标的波动情况[24]。　　以上用于流通数据分析的方法各有利弊：基于统计学的频次排序法虽然能够揭示最热门图书和读者信息，但图书副本数、新旧程度、排架位置、读者借阅权限等因素都会干扰统计结果，且无法在图书集合或读者群之间进行客观比较；利用数据挖掘技术、聚类算法和关联分析挖掘读者借阅模式、不同学科图书间关联以及细分读者类型等，对于图书馆员的技