大数据时代的图书馆数据挖掘技术探讨.docVIP

下载本文档

6
0
约3.86千字
约 3页
2016-07-03 发布于河北
举报
版权申诉

大数据时代的图书馆数据挖掘技术探讨.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据时代的图书馆数据挖掘技术探讨

大数据时代的图书馆数据挖掘技术探讨　　摘要：大数据的关键在于数据的分析与应用，提高图书馆基于数据挖掘的处理分析能力是开展知识服务的必然要求。文章首先阐述了图书馆的大数据服务应用特征，接着提出大数据阶段图书馆数据挖掘面临的挑战，并给出相应对策，最后探讨了数据挖掘中值得关注的重点技术以及图书馆开展知识服务应用的一些做法。中国论文网 /8/view-7232892.htm 　　关键词：大数据；数据挖掘；图书馆；信息服务　　1.图书馆的大数据应用特征　　大数据是一场革命，将改变人们的生活、工作和思维方式。大数据至今并无统一定义，通常以“4v”特征或对大数据进行描述性解释：规模（Volume）指数据的数量规模大；类型（Variety）指数据类型多样复杂，混合结构化与非结构化多种类型；实时（Velocity）一方面是数据增长速度快，另一方面要求在合理的时间内处理数据；价值（Value）反映了大数据隐含着价值转化。大数据发展的最终目标是分析挖掘数据的价值，其重点在于数据的分析和应用，“大”不过是信息技术不断发展所产生的海量数据的表象而己。　　社会进步和信息技术不断改变着图书馆的服务内容与模式，网络环境下要求将这些信息资源组合成整体并延伸至更大的范围。随着数字图书馆的兴起，图书馆数字化文献信息、数据库的数量种类不断增加，各地市级图书馆都已具有海量信息规模，比如上海图书馆提供的数据库已多达400余个。这些数据包括类型多样的文本、图片、音频与视频各类非结构化数据，满足大数据的基本特征。然而，这些数据资源价值远未得到有效体现与利用。一个重要的原因是缺乏有效的数据挖掘技术方法。通过人工从大量结构繁杂的数据中发现价值，是难以实现的。随着大数据技术的发展与应用，必然要求图书馆重点利用数据挖掘技术从大量的信息中发掘数据价值，以此推出知识化产品化的服务应用。同时，通过大数据处理分析对信息资源进行深度、动态、广泛的知识挖掘，便于揭示信息内容中各个要素及其相互之间的联系，促进信息交流，实现信息资源共享，提高文献信息的利用效率，从而实现图书馆信息增值服务并提高信息服务的竞争力。因此，探索数据挖掘方法技术提高图书馆的服务水平是亟须思考和解决的问题。　　2.大数据时代图书馆数据挖掘面临的挑战　　大数据时代的到来，极大地促进了数据科学的兴起。数据科学包括用科学的方法研究数据与用数据的方法研究科学，后者主要的实现方式就是数据挖掘方法与技术。数据挖掘是指从数据源中发现知识的过程。实现数据价值的关键环节在于数据的挖掘方法技术。所以，如何充分有效地利用数据挖掘方法对图书馆大数据进行开发处理，是开展图书馆知识服务的重要研究方向，也是服务创新的关键途径与支撑服务技术。大数据时代图书馆的数据数量大、类型多，对数据挖掘提出新的需求与挑战，主要有以下方面。　　2.1大规模数据量　　数字馆藏数据规模与数据类型在不断增长，对于数据挖掘算法的能力要求也在不断提高。传统对于大规模数据的分析一般采用随机取样，以较少数据获得最多的信息，其准确性会随着随机性增加而提高。这是在计算机性能较低特别是无法收集全部数据的情况下的选择。然而，大数据环境数据价值隐匿于海量数据中，单靠取样是无法捕捉到这些细节的，需要采用全集数据进行处理分析。如此大量的数据分析仅靠单机是无法完成的，分析挖掘模型必然要借助分布式计算框架，比如，Map Reduce或者当前流行的Spark，将分析模型迁移至集群计算环境。大数据应用具有实时性，如智能推荐、文献关联等，需要在合理的时间完成分析过程，采用集群计算环境也是提高计算效率的选择。另外，数据量增加的同时，噪音数据也会增加。因此，在数据分析之前必须进行数据清洗等预处理工作。　　2.2数据的高维特征　　图书馆数据的多样性能够提供更多维度的客观对象描述属性。数据从过去的一维、多维逐渐发展为巨量维度。虽然能够建立丰富的多维数据模型与方法，但在构建的大数据特征空间中，往往会超出传统方法的处理能力。可以考虑引入维度规约技术，比如主成分分析、奇异值分解来降低数据维度。同时，数据属性可能过于稀疏，也会极大影响数据模型的有效性。　　2.3数据关系广泛　　图书馆服务应用过程中的信息、用户对象之间存在多种行为与内容关联，从而组成多关系网络。大数据的多源性、多样性正是构建这种复杂关系的基础。比如，用户的查询词、借阅记录、浏览记录、图书馆文献信息内容之间形成的多关系网络。特别是社交网络数据的应用，更使其趋于多元化。许多图书馆实践中，比如基于用户的信息推荐就是利用这种关系作为分析依据。过多关系的简单链接应用，反而会削弱关键特征的作用和导致语义缺失。如何广泛利用大数据提供的各类数据类型与数据关系，成为实际应用中的一个重点。实际中，需要重视运用关系选择、组合及判断函