图书馆之城大数据应用实践研究-公共图书馆研究院.docVIP

下载本文档

9
0
约6.5千字
约 12页
2016-06-08 发布于天津
举报
版权申诉

图书馆之城大数据应用实践研究-公共图书馆研究院.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

图书馆之城大数据应用实践研究-公共图书馆研究院.doc

“图书馆之城”大数据应用实践研究* 蔡晖深圳图书馆广东深圳 518036 [摘要] 以深圳图书馆前期实证研究为基础，以大数据技术理论研究为指导，分析各类大数据技术在图书馆的基本应用、拓展应用以及未来发展趋势，力图形成具有较强借鉴和参考作用的研究成果，助力图书馆从大数据应用的视角构建计算机网络系统平台，改善传统的统计分析模式，推进图书馆向智能化、智慧型方向发展。 [关键词] 大数据云计算个性化推荐数据挖掘 1大数据应用研究的目的和意义据统计，2012 年度图书馆大数据论文 4 篇，2013 年60 篇，2014 年达 173 篇。随着研究论文的不断增多，研究成果呈现递增趋势，应用案例也在不断增多，图书馆界对大数据关注度越来越高。从图书馆大数据相关论文研究内容进一步分析，研究成果集中在概念、特点、优势、机遇与挑战、应用领域与发展策略研究等方面，它们推动了大数据在图书馆行业内相关研究领域的发展，但至今尚未形成图书馆大数据研究完整的理论支撑体系，缺乏系统性的案例研究与实证研究成果，应用研究相对薄弱。深圳图书馆于2012年开始了大数据的研究与应用，在构建全市统一技术平台和引进新技术的过程中，面对不断产生并膨胀的数据统计分析、可视化展示、趋势预测等需求，通过计算机网络系统、数据库系统和软件系统的协同工作，逐步构建起深圳市“图书馆之城”数据分析与监控系统，在积累了大量实际应用经验的同时，分析各类大数据技术在图书馆的基本应用、拓展应用以及未来发展趋势，形成了具有较强借鉴和参考作用的研究成果，助力图书馆从大数据应用的视角构建计算机网络系统平台，改善传统的统计分析模式，推进图书馆向智能化、智慧型方向发展。 2大数据应用研究的内容、方法、过程及成果 2.1“图书馆之城”大数据应用系统架构需求研究 2.1.1数据质量保证数据质量包括数据完整性和数据真实性。大数据分析的结论准确性与数据的全面性密切相关，作为分析样本的数据越完整、维度覆盖率越高，所得出的结论也越接近于真实。在实际的数据分析中，往往会因为数据维度不足导致分析终止。数据完整性的少量缺失可以通过有效真实的数据模型进行模拟补缺，不能使用数据清洗方法还原。数据真实性主要由应用系统BUG、操作不当或者有意刷数据产生，有可能会对数据分析结论产生较大的影响。数据真实性可以采用数据清洗方法进行剥离，但会加大数据模型建设的计算量，使分析流程复杂化。应当建立良好反馈机制，促进应用系统改进以完善数据真实性。 2.1.2数据挖掘方法多年的系统开发和大数据应用经验表明，图书馆大数据应用的重点难点并非系统开发和算法研究，因为开源数据分析软件已经为解决上述难题提供了可行的基础。而原始数据的全面性、完整性、精确性直接影响分析结果的实用性，异构数据的微小误差，在分析结果中一般都会数倍放大，最终导致完全迥异的结论。在本课题中，图书馆各种生产环境中产生的数据结构各异，对这些异构数据采取多种挖掘方法，挖掘、聚类、分类、补缺、清洗、机器学习、数据分组管理以及多维度数据模型的构建，则是研究的重点与难点所在。 2.1.3系统可用性保障 “图书馆之城”是一个庞大而且高度复杂的有机体，大数据系统的可用性保障包括3个方面的内容，一是构建“图书馆之城”大数据系统必须与业务系统低耦合，不能在任何时间、任何地点、因任何理由影响核心业务系统的正常运作；二是“图书馆之城”大数据系统自身必须具备高可用性，包括系统效率、系统灾备、系统运维方面都必须考虑周全；三是“图书馆之城”大数据系统应该为保证核心业务系统高可用提供有价值的参考及决策意见。 2.1.4消除思维异性在大数据清洗和发布过程中，概念数据清洗尤为重要，概念的差异性最终导致思维异性，也给大数据分析带来挑战。以图书馆统计为例，借阅量按借书地点所属“图书馆”统计和按文献所属“图书馆”统计是完全不同的2个概念，我们在系统开发和算法研究、发布展示中必须明确这2个“图书馆”概念的差异，从而消除思维异性。 2.2“图书馆之城”大数据分析系统架构研究过程 2.2.1第一阶段—探索期第一个阶段是探索期，主要成果是确定了一批统计分析模型，并采用可视化方式展示。这个阶段属于摸着石头过河，使用J2EE框架构建系统，直连“图书馆之城”中心Oracle数据库进行统计分析，采用JFreeChart统计图工具进行前端UI开发。本阶段遇到的主要问题是统计分析效率很低，而且也经常会对生产服务器性能产生较为严重的影响。同时JFreeChart进行前端开发显示效果不佳，可定制性不强。总体效率和可推广性存在问题，前端UI效果不理想。 2.2.2第二阶段—搭建期第二个阶段是搭建期，主要成果是明确采用挖掘技术，确定了一批数据挖掘模型，并采用专用的服务器从生产服务器的备机（如采用日志实时复制同步技术构