- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
图书馆对学生学业成效贡献的大数据分析平台构.doc
图书馆对学生学业成效贡献的大数据分析平台构
高校图书馆因拥有丰富的数字资源和良好的学习环境,成为学校师生学习和休闲的重要场所.学生作为高校图书馆服务对象主体之一,其学业和高校图书馆所提供的服务必然存在一定的关系,因此图书馆对学生学业成效贡献研究是指导高校图书馆投入产出的重要组成部分
大数据技术作为一种新兴的海量数据分析工具越来越受到各行各业的重视.互联网企业Google及Facebook之所以取得令人瞩目的成绩,其核心的本质就是其公司记录和分析了用户的行为大数据,从而精确掌握用户行为并形成预判.
由此可见,大数据技术对于海量、高速发展的数据具有很好的分析和管理能力,它被用来研究图书馆用户行为的“大数据”是最佳选择,研究成果可以为高校图书馆服务决策提供客观的依据,具有重要理论研究意义和实际应用价值.
1大数据技术
大数据技术是一系列收集、存储、管理、处理、分析、共享和可视化技术的集合.大数据的关键技术有很多,如借鉴生物界的进化规律演化的随机化搜索方法已被人们广泛应用于组合优化、机器学习、信号处理、自适应控制等领域;再如分布式技术包含分布式文件系统、分布式数据库、分布式计算框架等,其已经全面运用于各类大数据应用中.大数据价值的完整体现则需要多种技术的协同,总的来说可以归纳为以下几种:
(1)分布式技术.最典型的是Apache基金会的Hadoop大数据分布式处理软件框架,主要延续了Google分布式文件系统GFS的开源思想、分布式计算框架MapReduce和分布式数据库BigTable的实现机理,开发了自有的产品--HDFS分布式文件系统、MapReduce分布式编程框架和HBase分布式数据库.
(2)大数据预处理技术.大数据的一个重要特点是多样性,这就意味着数据极其广泛、数据类型极为繁杂,这种复杂的数据环境给大数据处理带来了极大的挑战.所以在分析大数据前,首先必须对海量数据源进行预处理,以保证数据质量及可信性.
大数据挖掘技术.数据挖掘是整个大数据处理流程的核心,因为大数据的价值产生于挖掘过程.数据挖掘就是从大量的、不完全的、有噪声的、模糊的、P逭机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.大数据挖掘的算法众多,其中(1)以分类算法、聚类挖掘算法、关联挖掘算法、序列挖掘算法最为主流.
2围书馆大数据分析面临的问题及数据构成
2.1图书馆大数据分析面临的问题
大数据时代的图书馆读者行为大数据具有数据海量、类型复杂、处理速度快和价值密度低的特点,要对这些大数据进行统一的存储与分析,对图书馆来说有着极大的挑战性.以下是3个亟待解决问题:⑴数据的存储能九学生在图书馆的所有行为活动都将产生数据,数据量已由TB级升至PB级,而且还在源源不断地增加,数据量的增长速度已远远大于存储能力的增长速度.(2)数据类型复杂繁多.学生对图书馆的利用行为数据不仅仅是简单的二维表格式存储的结构化数据,还有以文本、图片、XML文档、JSON文档、日志文件和音频/视频等半结构化和非结构化数据,关系型数据库已经无法有效管理这些数据.(3)数据处理的实时性.大数据时代强调的是数据处理的及时有效,图书馆要求大数据分析平台可以快速地获取、存储和分析学生的行为数据,为图书馆提供快速的决策支持.
面对上述问题,传统数据分析工具已不再适合,而Hadoop大数据分布式存储与计算框架能很好地解决了这些问题,因此基于Hadoop建立统一的图书馆大数据存储和分析平台变得尤为迫切.
2.2图书馆大数据的构成分析
针对目前宁波大学在校的本科学生,将其对图书馆利用行为和学业成效相关数据(2010?2014年)作为此次实验的数据源.经过分析,确定数据源由学生个人信息、学生学业相关数据及图书馆利用行为数据三部分组成,数据类型包括结构化的二维表数据和非结构化的日志数据,数据总量共计6108万条记录.其中,学生学业相关完整数据有120万条记录;图书馆利用行为数据包括从图书馆门禁系统(357万)、阅览室座位管理系统(320万)、图书借阅系统(247万)、数字资源访问日志(5064万)等途径获取学生的图书馆服务数据共计5988万条记录,为图书馆服务对学生学业成效贡献研究提供基础的大数据参考样本.
从上述统计来看,实验涉及到的数据量级已在十亿字节以上,而且还在随着时间的推移成线性增长,因此定期将相关系统中每天生成的数据导入Hadoop大数据平台成为必然的选择.目前此次实验数据的收集整理工作已经基本完成,初步拟定大数据主题分析的内容见表1.
高校大学生学业成效主要由学业成绩、奖励情况和科研能力三部分组成.学业成绩主要是学生的在校的各类专业课和选修课的考试成绩积点分,奖励情况是在校期间参加
您可能关注的文档
最近下载
- 2024年10月27日云南昭通市事业单位选调笔试真题及答案解析.doc VIP
- 讲义总结岩土工程勘察讲义.ppt VIP
- 非常规油气勘探开发地质风险评估.pdf
- 中职 图形图像处理(Photoshop CS5)PS(第7章)教学课件 高教版.ppt VIP
- 市政道路监理规划-范本.pdf VIP
- 2025海南省通信网络技术保障中心招聘事业编制人员12人(第1号)笔试模拟试题及答案解析.docx VIP
- 《飞机上应急医疗》课件——心肺复苏的流程.pptx VIP
- 中职 图形图像处理(Photoshop CS5)PS(第6章)教学课件 高教版.ppt VIP
- 抖音直播社区公约.pdf VIP
- 地质灾害治理工程施工技术规范 DB50_T 989-2020 重庆.pdf VIP
文档评论(0)