基于定量判别方法在高校图书借阅信息群中行为数据挖掘应用.docVIP

下载本文档

0
0
约2.57千字
约 6页
2017-08-05 发布于福建
举报
版权申诉

基于定量判别方法在高校图书借阅信息群中行为数据挖掘应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于定量判别方法在高校图书借阅信息群中行为数据挖掘应用

基于定量判别方法在高校图书借阅信息群中行为数据挖掘应用摘要随着信息资源的飞速增长和公共信息服务理念的变化，个性化服务逐渐成为图书馆学领域研究的热点话题。本研究基于高校读者用户图书借阅兴趣、行为的发现，应用定量化研究方法从具体借阅数据入手，挖掘相同借阅读者群、借阅时间段内的关联关系，分析影响用户借阅行为的因素，从而为进行读者的兴趣发现、为图书馆工作人员根据用户的兴趣需求制定相应的个性化推荐服务等提供理论依据，以期有助于图书馆服务工作的提高，为学习型和研究型读者提供更好的个性化信息服务。关键词借阅兴趣；数字图书馆；关联关系；数据挖掘；个性化服务中图分类号TP3 文献标识码A 文章编号 1674-6708（2012）71-0181-02 1 研究背景和意义随着信息资源的飞速增长和公共信息服务理念的变化，用户越来越需要个性化、多元化的信息需求，例如网上书店的图书推荐、搜索引擎中的查询词关联等的产生，正是这种个性化需求的产物。与之相比，作为阅读密集型群体集中的高等院校，其图书馆的服务和对馆藏图书资源利用仍存在发展不足的问题。高校图书馆的使用者有其特殊的群体特征，例如专业、学历、身份、年龄层次具有明显的群体差异。这些特征使高校图书馆的借阅服务不同于普通网络书店的用户群服务，它具有自己的模式、特点有待于研究与发现。同时，用户也希望进入网站后看到的书籍都是自己感兴趣的，而不同用户通过同一搜索关键字所搜索的结果应该是不同的，每个用户进入网站后能够享受到更贴近自己的服务，从而可以使用户在浩瀚的书海中方便、快捷的找到自己需要的资源。与此同时，随着数据库技术的迅速发展以及数据库管理系统在图书馆的广泛应用，图书馆积累了大量的读者对资源的历史访问数据。这些数据背后隐藏着许多有价值的信息，图书馆记录的书的借阅信息，可以从两方面对图书馆个性化推荐服务做出贡献：一是图书推荐，包括利用不同借阅者借阅书籍的相似性来决定书籍的推荐和通过借阅者个人的借阅行为分析借阅者兴趣走向，并进行相关推荐；二是形成“共书者网络”帮助用户形成社交群体网。而目前多数图书馆并未将这些历史借阅数据进行有效的利用，由此而带来的大量优秀图书资源的隐蔽性问题也时刻影响着读者对于图书馆的满意度及图书资源的应用广泛度。因此，利用对图书借阅数据的分析处理，以“书”和“借阅者”为实体，通过对读者的借阅兴趣发现从而为高校图书馆的个性化推荐服务的进一步完善与发展提出建议，这也将逐渐成为当前及未来有关高校图书馆研究热点问题之一。本研究基于高校读者用户图书借阅兴趣、行为的发现，挖掘相同借阅读者群、借阅时间段内的关联关系，分析影响用户借阅行为的因素。一方面找出借阅行为的影响因子和影响程度大小；另一方面进一步分析列表中数据之间的关系，找出借书频次较多的读者列表和借书频次最多的时间段，进而为后期进一步构建读者借阅兴趣模型提供数据基础、为图书馆工作人员根据用户的兴趣需求制定相应的个性化推荐服务等提供理论依据。 2 研究方法和实验设计 2.1 对象说明数据来源是北京某高校图书馆，时间范围为2008年～2010年，记录总数约60万条，原始数据字段如下：本研究中需要根据统计内容将数据字段分别删减为以下两类：其中，“学号—借书频次”列表需要统计出每位读者（即每个学号）在2008年至2010年间总借书频次及频率，并将其进行降序排列；“日期—借书频次”列表需要统计出从2008年～2010年每天的借书频次，为进一步的分析处理做铺垫。 2.2 具体操作描述 1）分析借书频次较多的读者由于“学号—借书频次”列表中数据共1 409位读者数据，总量约27万条，数量较大，为了将数据进行准确定位，首先需找出借书频次和频次的四分位点、八分位点、十六分位点，并统计出介于两个相邻十六分位点间的区间频率之和，依据区间频率大小，划分借书较多的读者范围。 2）分析借书频次较多的时间段通过纵向与横向两个时间轴进行综合比较：（1）纵向时间轴依次统计以月份、周数为单位的借书频次，绘制折线图，分别比较在相同年份不同周次、不同月份的借书频次大小和趋势，同时将“月份—借书频次”、“周次—借书频次”分布图进行比对分析，找出其相同点与不同点，分析借书高峰期出现时间。（2）横向时间轴 ①分析一周之内借书频次最高日由于2009年数据较全，故将2009年本科生“日期—借书频次”数据作为整体样本进行分析，将其划分为51周，其中，每一周以星期日作为开始日，星期六作为结束日，统计这51周内（除去日期不全的星期）从星期一到星期日每天的借书频次平均数，并将其进行排序处理，绘制折线图。 ②分析2008年和2009年借书频次的变化。分别将2008年和2009年的