- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代下图书馆开展信息服务对策
大数据时代下图书馆开展信息服务对策
〔摘 要〕介绍了大数据概念、种类和特点,指出了图书馆已经具备了大数据基本特征,在递增的数据中快速地分析和挖掘出有价值信息并加以利用,是图书馆面临新课题和新的发展机遇。为此提出了图书馆借助应用大数据技术,逐步完善信息服务体系所必须采取的五项措施。
〔关键词〕大数据;数据分析;数据挖掘;图书馆;个性化服务
随着当今世界计算机网络技术的迅猛发展,数以亿计的计算机和移动设备正在持续不断地创造出数量惊人的信息,世界已经转移到以数据为中心的范式上——“大数据”时代。近一时期,“大数据”一词成为众多机构关注的焦点,包括图书馆在内的信息服务机构希望借助应用大数据技术改进和完善服务模式。本文就图书馆应用“大数据”技术深化信息服务等问题阐述相关的一些理念和建议。
1 “大数据”概述维基百科定义“大数据(Bigdata)”是指所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯[1]。“大数据”涉及互联网、经济、生物、医学、天文、气象、物理等众多领域。最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。随着互联网技术的不断发展,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素。数据本身是资产,这一点在业界已经形成共识。
1.1 大数据种类及特点(1)大数据主要包括以下几种:①传感器数据(sensordata):分布在不同地理位置上的传感器,对所处环境进行感知,实时生成数据;②网站点击流数据(clickstreamdata):用户在网上进行有效的操作行为及其时间都被系统记录下来;③移动设备数据(mobiledevicedata):服务机构可以通过用户所使用的移动电话、PDA和导航设备等移动电子设备,获得设备和人员的位置、移动、用户行为等信息。上述数据源,以实时、迭代的方式不断产生数据。(2)业界将大数据的特点归纳为4个V:①数据体量巨大(Volume)。按EMC的界定,“大”是指大型数据集,一般在10TB规模左右,多用户把多个数据集放在一起,形成PB级???数据量;②数据类型繁多(Variety)。包括大量的网络日志、XML、HTML、视频、音频、图像及地理位置信息等非结构化数据;③价值(Value)密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;④处理速度快(Velocity)即1秒定律[2]。进入2012年,非结构化数据占有比例将达到互联网整个数据量的75%以上,这意味着个性化数据时代的到来,异质性、个性化,才是数据的真正本质。
1.2 大数据应用的技术(1)大数据应用的步骤可分为“捕获”、“组织”、“分析”及“决策”4个阶段。首先,在汇集的所有数据中捕获所有可用的数据,这些数据包括需要处理大数据量、低密度的信息;其次,以高度并行的方式组织和提取大数据,将大数据转换为易于分析的内容并快速载入数据仓库;再次,用分布式的技术框架(Hadoop),对非关系型数据进行异质性分析处理(NoSQL);最后,通过数据分析与挖掘,根据实时数据做出决策,从中产生出新的服务手段和模式。(2)从目前来看,大数据技术主要涵盖的领域有可视化分析、大规模并行处理(MPP)数据库、数据挖掘算法、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统[2]。大数据技术主要包括以下几种:①Hadoop是一个分布式系统基础架构,实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。②NoSQL(NotOnlySQL),意即反SQL运动,是一种与关系型数据库管理系统截然不同的数据库管理系统,也可以称之为非关系型数据库。它的数据存储格式可以是松散的、通常不支持Join操作并且支持横向扩展,可以处理超大量的数据。③MPP(MassivelyParallelProcessing),意为大规模并行处理系统,这样的系统是由许多松耦合处理单元组成的,每个单元内的CPU都有自己私有的资源。当前,众多IT企业对大数据技术开展了深入研究并推出解决方案和相关产品。例如:Oracle公司推出了大数据的集成解决方案体系,在此技术基础上发布了Oracle大数据机(软件/硬件);VMware推出了虚拟化架构+云平台的项目Serenget;EMC推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备——GreenplumHD数据计算设备(DataComputingAppliance)[3]等等。
2013年3月第33卷第3期现?代?情?报Journa
您可能关注的文档
- 基于系统动力学物联网产业生态系统运行机制研究.doc
- 基于网络初中生英语自主学习能力培养.doc
- 基于网络信息资源环境下高校图书馆管理研究.doc
- 基于网络框架下新闻采编研究与探索.doc
- 基于网络组织合作中小企业竞争力分析.doc
- 基于系统工程思想档案信息生态系统研究.doc
- 基于纳税人权利视角税收服务优化研究.doc
- 基于群体受众网络互动科普模式研究.doc
- 基于经济增长视角环境污染问题探析.doc
- 基于维度层次背包游客动机与涉入关系研究.doc
- 2024至2030年欧美板式换热器项目投资价值分析报告.docx
- 2024至2030年中国扣项目投资价值分析报告.docx
- 2024至2030年中国洁净环境测试仪数据监测研究报告.docx
- 2024年中国不锈钢隔离护栏市场调查研究报告.docx
- 2024年中国中巴车雨刮电机市场调查研究报告.docx
- 2024年中国脚踏黄油机市场调查研究报告.docx
- 2024至2030年中国衬氟止回阀行业投资前景及策略咨询研究报告.docx
- 2024至2030年中国直通式楼宇对讲系统数据监测研究报告.docx
- 2024至2030年迷宫游戏盘杯垫项目投资价值分析报告.docx
- 2024至2030年冷媒压力计项目投资价值分析报告.docx
文档评论(0)