- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于大数据决策分析需求图书馆大数据清洗系统设计
基于大数据决策分析需求图书馆大数据清洗系统设计
〔摘要〕图书馆的大数据时代已经来临,大数据质量问题是影响图书馆大数据应用的重要因素,而大数据清洗则是提高图书馆大数据质量的主要手段。本文介绍了图书馆不清洁数据的类型与产生原因,设计了基于大数据决策分析需求的图书馆大数据清洗系统,该系统不仅可以提高大数据清洗的效率和精确度,而且大幅度降低了图书馆大数据决策分析的复杂度。
〔关键词〕图书馆;决策分析;大数据清洗;系统设计
DOI:10.3969/j.issn.1008-0821.2016.09.018
〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2016)09-0107-05
〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.
〔Key words〕library;decision analysis;big data cleaning;system design
当前,图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用,图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等,实现了对图书馆服务模式和读者阅读需求的全面感知与预测,大幅度提升了图书馆的服务能力和读者阅读满意度。但是,随着图书馆服务复杂度和服务模式多样化的发展,其大数据环境呈现出“4V+1C”的特点(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity)),图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据,导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性[1]。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养,而不通过大数据清洗有效提升数据的质量和可用性,将会导致图书馆大数据应用的收益率和数据决策科学性下降。
据美国普化永道会计事务所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被调查公司存在着因不清洁数据问题而导致经济损失的现象,只有35%的被调查公司对自己的数据质量充满信心;在很多涉及数据仓库的项目中,数据清洗在开发时间和整体预算方面所占的比例大概在30%~80%,而将不同数据源的数据进行抽取和整合时,可能会产生一些新的不清洁数据[2]。因此,如何制定和执行安全、高效的数据清洗策略,实现对图书馆大数据资源的检测、校验、修正、整合与分解,及时发现并纠正大数据中存在的错误、缺失、异常和可疑数据,确保图书馆大数据资源结构完整、正确和无重复,是关系图书馆大数据应用与决策安全、科学、高效、经济和可控的重要问题。
1图书馆大数据清洗的需求与挑战
11大数据环境下数据清洗的需求发生变化
大数据时代,图书馆数据的结构、类型、规模和复杂度发生了巨大变化,其大数据内容主要由IT服务系统运营日志与参数数据、用户服务数据、读者个体特征数据、读者行为监测与社会关系数据、阅读终端运行数据、视频监测数据和传感器网络数据等组成,这些数据具有海量、多类型、高价值和处理速度快的大数据“4V”特点,因此,与“小数据”时代图书馆的数据清洗需求有本质区别。
大数据时代,非结构化、半结构化数据占据图书馆大数据总量的85%以上,图书馆数据清洗的重点
您可能关注的文档
最近下载
- 2024年电力技术装备公司考试真题.docx VIP
- 最新初中语文课件:人民英雄永垂不朽.ppt VIP
- 2024全国全国职工职业技能大赛-汽车维修工(智能网联新能源汽车方向).pdf VIP
- 部编人教版六年级下册语文全册教案.doc VIP
- 山东省菏泽市2024-2025学年高三上学期期中考试化学试题.docx VIP
- 专项施工方案.docx VIP
- 标准图集-23S519-小型排水构筑物.pdf VIP
- 高教马工程民法学(第二版)上册教学课件01-07.pptx VIP
- Unit 1 知识清单 -上海2024-2025学年沪教版(五四学制)(2024)六年级英语上册.docx VIP
- 银行从业资格考试试题及答案库.docx
原创力文档


文档评论(0)