- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据时代背景下档案利用服务探析
摘要:本文首先描述了当前企业档案管理所面临的大数据 时代背景;其次对大数据时代对档案管理和服务带来的挑战 进行了分析;接着针对挑战提出了应对的解决方案;最后结 合具体应用实例对解决方案进行了验证。
关键词:大数据背景;档案利用服务;数据挖掘;文本挖 掘
大数据时代来临
数据的爆炸式增长正在出乎人们的想象。据预计,2020 年全球以电子形式存储的数据量将达35ZB,是2009年全球存 储量的40倍。而在2010年年底,根据IDC的统计,全球数据 量已经达到了 120万PBo①人们不禁感叹随着信息化的逐步 推进,我们迎来了大数据时代。
何谓“大数据”,目前没有统一的定义。通常认为,它是 海量的非结构化数据。IBM公司把大数据概括成了三个V②, 即Volume (数量大,通常以PB级别的数据量计)^Velocity (实 时性,需要更短的时间处理数据)和Variety(多样化,以非结 构化数据为主。这些特点也反映了大数据所潜藏的价值 (Value),或许可以认为,这四个V就是大数据的基本特征。
以某特大型企业档案馆为例,在“十一五”期间信息化 规划项目统一推广实施档案管理系统的基础上,档案馆档案 目录中心已将辖下各单位的档案目录信息进行集中管理、统 一展现,建成了覆盖集团各单位,包含400余万卷案卷、4000 余万件档案的全公司档案目录中心,馆藏存储量已由GB向TB 级和PB级转变。同时,随着公司电子文件应用的推广,数字 档案和全文数据库是数字档案馆藏资源的重要增长点,其数 据量将呈几何级数增长,存储的数据总量成了名副其实的海 量规模。另外,档案资源中存在大量的非结构化数据,例如扫 描图像、传真、照片、字处理文档、电子表格、演示文稿、 语音和视频片段等。
大数据背景下档案服务面临的挑战
与传统档案的馆(室)藏资源或者其它应用相比,大数据 时代下数字档案馆馆藏量具有媒体形式多、数据量大的特点, 但这些特点也给档案利用服务带来了新的挑战:
1挑战 如何在海量数据中查询到所需要的档案
信息
在大数据时代下,企业在各种业务活动中产生的数据和 信息呈爆炸性增长,最终作为档案保存下来的文件也相应的 增长。与过去信息贫乏的时代不同,在电子文件广泛利用和 互联网高度发达的今天,信息泛滥同样给利用带来了困难。 在过去,档案检索主要依靠手工著录、卡片检索,随着信息技 术的进步、数据库技术的发展,计算机辅助档案管理使档案 管理变得更为快捷和方便。但是在大数据时代,档案数量急 剧增长,甚至出现了档案数据“胀库”的问题。③随着档案 信息化建设的不断推进以及数据量的进一步增大,在进行档 案查询时,往往需要的信息会被埋没在大量的不需要的数据 中,并且检索性能急剧下降,甚至无法响应。因此,如何在大 量的档案中快速而准确地找到所需的信息,是档案服务要解 决的首要问题。
2.2挑战二一一如何在海量数据中抽取和挖掘有用的信 息和知识
知识管理是档案管理发展的趋势和方向,档案用户已不 满足于仅限于数据或文件的利用,更希望能够获得数据背后 的信息以及信息蕴藏的知识。因此,档案利用服务也应由提 供数据、信息转变为提供知识。然而,知识不是自然生成的, 知识也不是简单地存在于信息集合中,特别是蕴含在档案中 的知识,需要经过抽取和挖掘才能展示出来。如何在海量数 据中抽取和挖掘有用的信息和知识并提供给用户,是档案利 用服务工作今后发展的方向。依靠人工抽取、挖掘知识,在 传统纸质档案时代、档案数量不多的情况下还可实行,但在 大数据时代海量档案存在、非结构化数据盛行的今天则会变 得心有余而力不足。因此,依靠信息技术进行数据挖掘、知 识挖掘才是解决之道。
2.3挑战三一一如何在海量数据中进行档案资源二次开
发并提供利用
档案的保存和管理是为了利用,在大数据时代,用户对 档案资源的需求已不仅仅局限于原始的档案,需求变得更加 个性化、多样化。这就需要通过对档案信息资源进行二次开 发,制作多种形式的编研产品,并主动提供给用户。档案信息 二次开发是指利用各种计算机技术、多媒体技术、通信技术 等对档案及相关信息进行再次开发。④档案信息二次开发是 档案资源信息再利用的升级,它所蕴含的信息量和信息价值 将是无比巨大的,它是档案资源信息化开发的高级内容。在 大数据时代下,档案数量急剧增加、档案类型多种多样以及 非结构化数据的大量存在,给档案信息资源的二次开发带来 了困难。一是如何在海量数据中选择有价值的信息并找出它 们之间的关联,二是如何编研开发非结构化的档案信息,三 是如何减轻档案开发人员的工作量。
数据挖掘一一大数据时代下档案利用服务的必然选 择
1大数据时代的档案业务流程转变
大数据时代档案数据的量大、形式多等实际情况,带来 的无法找到、查询性能急剧下降、甚至无法
您可能关注的文档
- 外墙保温在民用建筑中实际应用.docx
- 外墙保温工程工程管理探析.docx
- 外墙渗水原因研究和处理.docx
- 外币大额存贷款利率市场化定价机制研究.docx
- 外师造化汉字印刷字体设计探新.docx
- 外文翻译bolb分析.docx
- 外文翻译人事管理系统的开发和设计.docx
- 外文翻译使用协议缓冲区资源受限分布式嵌入式系统.docx
- 外文翻译儿童早期教育管理员简介寻找领导模式.docx
- 外文翻译再议生产效率的测度.docx
- 四川省德阳市罗江中学2025届高三考前热身化学试卷含解析.doc
- 山东省枣庄现代实验学校2025届高三下学期第五次调研考试化学试题含解析.doc
- 吉林省长春市十一高中等九校教育联盟2025届高三一诊考试生物试卷含解析.doc
- 2025届江苏省盐城市伍佑中学高考仿真模拟化学试卷含解析.doc
- 2025届广西贺州中学高考冲刺押题(最后一卷)生物试卷含解析.doc
- 安徽省池州市贵池区2025届高三第一次模拟考试生物试卷含解析.doc
- 宁夏银川一中2025届高三(最后冲刺)化学试卷含解析.doc
- 广东省广州市增城区四校联考2025届高考压轴卷化学试卷含解析.doc
- 2025届邯郸市第一中学高考生物必刷试卷含解析.doc
- 2025届安徽省安庆市石化第一中学高考仿真卷化学试卷含解析.doc
文档评论(0)