- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据环境下图书馆数据资源质量评估和整体优化研究
大数据环境下图书馆数据资源质量评估和整体优化研究
[摘要]图书馆已进入大数据时代,大数据的规模性、高速性和数据来源的多样性,使数据产生不一致和冲突,严重影响了图书馆大数据决策的科学性。本文提出了一种图书馆大数据资源质量评估与整体优化的方法,可为用户提供准确高效的大数据质量评价结果,并能够大幅度提升图书馆大数据决策的科学性。
[关键词]大数据;图书馆;数据资源;评估;优化
Jim Gray的新摩尔定理认为,大数据时代每隔18个月全球新增信息量是计算机有史以来全部信息量的总和。据国际数据资讯(IDC)公司监测,全球数据量大约每两年翻一番,预计到2020年,全球将拥有35ZB的数据量,并且85%以上的数据以非结构化或半结构化的形式存在。伴随云计算、物联网、大数据等技术的快速发展及其在图书馆服务中的广泛应用,?D书馆的服务模式呈现出复杂、多样化的发展趋势,导致图书馆的数据总量与数据环境复杂度快速增长,并呈现出“4V+1C”的大数据特征(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity),图书馆已进入大数据时代。
当前,图书馆数据除具备大数据的“4V+1C”特征外,还具有数据来源多样、多维度、突发性、异构性、分布式、动态、实时和不完全等特点,复杂的数据环境在增加大数据处理、分析和科学决策的难度与复杂度同时,也降低了图书馆从数据中发现知识和大数据决策的有效性。例如谷歌公司利用Google搜索日志大数据进行流感监测的方法(Google FlueTrend,GFT,谷歌流感趋势),在2007-2008年的预测结果虽然与官方最终统计数据的相关性高达97%,但在2011-2012的流感季节,随着日志数据复杂度的增长和可用性的下降,它的预测结果竞比实际值高估了50%;而在2012-2013流感季节中,它预测的结果竟然是美国疾控中心(CDC)最终记录结果的两倍。此外,据估算,数据错误每年造成美国工业界经济损失约占GDP的6%,导致98000名患者丧生,大约50%的数据仓库因数据质量的问题而取消或延迟使用嘲。因此,随着图书馆大数据总量、复杂度和价值量的快速增长,如何将数据质量管理贯穿于图书馆大数据采集、传输、存储、共享、维护、应用和消亡的生命周期全程,并通过大数据价值的发现、判定、监控、预警和优化流程,不断提升大数据的准确性、完整性、实时性、价值密度、可控性和可用性,是图书馆全面挖掘大数据价值和提升大数据决策科学性,实现图书馆管理与服务,从馆员“经验决策”向大数据“科学决策”转变的重要保证。
1关系大数据决策科学性的数据质量问题与数据价值保证
1.1数据噪声影响了数据决策的正确性
预测专家纳特?西尔弗在其著作《信号与噪声》中分析到:“如果信息的数量以每天250兆亿字节的速度增长,则其中有用的信息肯定接近于零。大部分信息都只是噪声而已,而且噪声的增长速度要比信号快得多。”由此看来,大数据中的噪声信号随着大数据总量的增长而快速增长,且噪声信号增长的速度要远大于价值数据增长的速度,并最终会将高价值数据淹没于噪声信号中,导致大数据的价值密度和数据决策可用性快速下降,严重干扰和影响大数据决策的科学性与准确性。此外,大数据的结构复杂度和数据价值发现的难度也随着噪声信号的增长而增长,将导致图书馆数据分析与决策过程中的系统资源损耗、算法复杂度和分析成本快速增长,最终会降低图书馆的大数据决策的可用性和收益率。第三,噪声数据总量的快速增长会大幅提升图书馆对大数据库存储、数据处理和网络传输能力的需求,增加了图书馆数据中心IT基础设施系统的运营负荷。
1.2大数据的真实性与准确性保证
为了保证大数据决策的科学性与可用性,图书馆通常利用用户阅读终端、传感器、视频监控设备、监控服务器和第三方共享数据,完成对图书馆IT系统设备运营、读者个性化服务活动、读者阅读行为和图书馆管理等过程的全数据采集。由于图书馆源数据采集设备、采集方法和数据传输网络性能的巨大差异性,导致所采集的大数据中存在着巨大数量的干扰数据、错误数据和低价值数据,因此,如何在大数据的采集、传输、处理和存储过程中执行科学的数据质量管理策略,是图书馆提高大数据准确性和决策科学性应重点关注的问题。此外,图书馆大数据具有多源性和结构多样性的特点,会导致大数据的格式和质量标准不统一,严重影响了大数据在处理、分析和决策过程中的可用性,因此,如何通过对大数据的清洗、滤噪和标准化处理等预处理方法检查数据的准确性与一致性,纠正大数据中的无效值和缺失值,也是图书馆增强大数据真实性、准确性的重要步骤。
1.3大数据的价值因决策对象和方式的不同而动态变化
随着“
您可能关注的文档
- 大学生自主学习平台研究和设计.doc
- 大学生自主学习状况调查和分析.doc
- 大学生自动化技术创新中心建设理念和运行机制探索和实践浅析.doc
- 大学生自尊和成就动机关系研究.doc
- 大学生自制微电影和校园文化传播研究.doc
- 大学生自主学习能力分析和培养对策研究.doc
- 大学生自尊水平和主观幸福感及其相关研究.doc
- 大学生自尊和社会支持关系研究综述.doc
- 大学生自尊水平和交往焦虑相关研究.doc
- 大学生自我分化和生活满意度关系研究.doc
- 建筑公司安全管理制度汇编-secret.doc
- 屋面工程施工方案84718.doc
- 新款手机上市的营销组合策略毕业论文.doc
- 招聘会活动方案40模板41.doc
- 建设工程施工合同十个疑难问题的处理朱树英.doc
- 小学数学教研组工作计划30691.doc
- Bayer_P79页_2025 Corporate overview精美报告资料.pptx
- P28页_US Inflation Reduction Act Climate & Energy Features and Potential Implicati精美报告资料.pptx
- 2025 EMEA Investor Tour精美报告资料.pptx
- P35页_Corporate Headquarters Study 2018精美报告资料.pptx
原创力文档


文档评论(0)