- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘档案管理应用研究
一、数据挖掘技术
当今社会科技迅速发展,以往收集数据的模式已经无法适应当代社会发展需要。而数据挖掘技术的诞生,提高了数据收集的速度和质量,且在某种程度上还促进了社会的发展。
(一)数据挖掘技术的概念
数据挖掘技术是从许多的、不完全的、相对模糊的、存在噪声的、任意的实际数据当中,找出其中隐藏的、人们原先不了解的、但又是实际存在的、有用的信息和知识的过程[1]。数据挖掘所得信息具有先前未知、有效和实用三个特征。决策者对挖掘所得信息进行分析,从中提取出隐藏的关系和模式,来对未来发生的行为进行预测。
(二)数据挖掘技术的运用
在使用数据挖掘技术的过程中,数学方法经常被用到,但在一些特殊的时候,也会用到非数学的方法。另外,使用数据挖掘技术过程中,除了上面提到的方法外,还可以用演绎的方法和归纳的方法收集数据。在使用数据挖掘技术过程中,利用对相关数据进行挖掘、收集和分析得出相应的结果,并且这个结果在某些情况下,恰好能被用在管理信息、优化查询、过程控制、决策支持及数据维护等方面[2]。然而,由于数据挖掘技术特性,其在使用的过程中,涉及学科比较广,并且还涉及数据库、数理统计、人工智能、并行计算、机器学习、可视化等许多领域。数据挖掘技术中,常用到的有规则归纳、决策数、人工神经网络、遗传算法,以及可视化等技术。
二、数据挖掘技术的形式
数据挖掘分为描述型与预测型两种形式。描述型是对数据中存在的规则进行描述,并且依据数据具有微观性的特点找出其表征的、普遍性强的、概念层次较高的、比较宏观的知识,并对数据进行概括总结和抽象来描述出同一类事物的相同属性。预测型是分析和处理现有的数据,来获得某类事物中某些属性的内容,或者是预测出某类事物将来形成的规律等。在使用这两种挖掘技术时,经常用到的方法有分类方法、关联方法和粗糙集方法。
(一)分类
在运用计算机数据挖掘技术的过程中,分类是挖掘技术里的重点部分。数据收集的好坏,以及收集的数据的属性分析都是由分类决定的。因此,分类在运用挖掘技术的过程中具有非常重要的作用。分类是对数据库属性进行分析,把元组划分成不同种类的过程。并且在其划分过程中,根据数据形成的训练集,来集中对部分数据进行处理划分。然后,再对余下的部分数据做测试,在测试满足要求以后,遵守对应的规则对其分类。在实际分类过程中,比较有代表性的分类过程是:明确分类的范围、找出目标属性、组成训练集、研究属性、算法选取、分类计算、结果显示、选出测试集、分类规则验证、输出分类规则等[2]。
(二)相关规则
相关规则是数据挖掘技术中,比较简单实用的关联分析规则。它可以准确地将相关数据进行描述,并且能够对数据进行严格分析。在相关规则使用过程中,主要是对具体事物进行描写,并按照相同属性进行结合,然后对其进行总结概括,找出其共同属性和模式。一般会将关联规则直接应用到数据库中,统一地记录下每个事物得出的数据,不但可以正确地记录数据,同时消减了数据的搜索空间,使得整个运行系统得到改善和提高。
(三)粗糙集
数据挖掘技术中的粗糙集是被用作对不精确和不确定性知识进行研究的一种数学工具,在系统整个使用中占的优势比较大[3]。首先,在使用粗糙集方法时,相应的信息不需要了解,并且在运算的时候,算法比较简单且容易控制,得到大量的计算机用户的喜爱。其次,在运行粗糙集的过程中,能从数据中发现异常,排除知识发现过程中的噪声干扰,同时还能将这类数据的规律在最短时间内找出,并利用表格对其进行归纳总结,将其变成决策表,为使用者的查询提供方便。最后,在客观世界,应用有些规则的过程中也会出现不确定性。应用数据库的时候会产生许多不确定性的信息,而这些不确定性都得依赖粗糙集对其进行处理,这样就使得数据挖掘的效率得到大大提高。
三、挖掘技术在档案管理中应用的意义
记录历史资料的重要工具就是档案,它直接反映了档案管理人员的智慧和成果[3]。由于计算机网络的迅速发展,在管理档案信息的实际应用中,引入挖掘技术可以使档案的管理水平得到提高,并且改革了档案信息管理的模式。因此,数据挖掘技术应用在档案信息管理中是具有非常重要意义的。
(一)提高档案信息管理的安全性
档案信息是记载一些比较宝贵的资料,由此可知其价值的表现就是档案信息的实体。对档案管理者来讲,保存有历史意义的档案信息的时间应越长越好。保存得越长远,越体现了档案信息的价值。其使用价值相对应地增大了,被使用的频率也相应地增加,使保管工作非常困难,使用次数越频繁,就越容易缩短档案信息的寿命。同时,保密性是档案信息管理的另一项重要工作,万一档案信息外漏,不仅相关人员的隐私权受到侵犯,还有可能对其以后生活造成消极负面的影响,造成了档案保管与使用之间存在矛盾[4]。将数据挖掘技术运用到档案管理中,可以很好地避免这种情况的发生,从而保护档案信息实体和内
文档评论(0)