基于知识管理的数字档案馆中的数据挖掘.docVIP

下载本文档

4
0
约5.2千字
约 6页
2017-11-12 发布于重庆
举报
版权申诉

基于知识管理的数字档案馆中的数据挖掘.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于知识管理的数字档案馆中的数据挖掘

基于知识管理的数字档案馆中的数据挖掘数字档案馆，作为传统实体档案馆在信息时代的新型组织形式，是实体档案馆在信息时代不断创新和发展的必然，是迎接知识经济时代挑战，拓展传统实体档案馆功能，满足用户需求，提供个性化、多样化服务的关键，也是提高社会档案意识的新契机。那么，如何从数字档案馆浩如烟海的大量数字化资源中提炼、挖掘出有价值的，对数字档案馆进行知识积累、知识创新有着数据支撑作用的有效信息，这是未来数字档案馆建设所面临的重要课题。数据挖掘技术正是解决这一难题的有效途径，数据挖掘是当今计算机领域的热点，其成果也广泛应用于图书情报领域，笔者受这些研究的启发，力图就数据挖掘技术在基于知识管理的数字档案馆中的应用进行探讨。 ??? 1．数据挖掘定义与分类 ??? 1．1数据挖掘的定义 ??? 数据挖掘是一门很广义的交叉学科，脱胎于计算机，虽然已应用到诸多领域，图书、情报界的实践也已经充分验证其价值，但在档案界，数据挖掘仍然被当成深奥的技术和理论，很多档案工作者对个这概念还是云雾迷蒙，比较模糊。那么什么是数据挖掘呢？数据挖掘（Data Ming），就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。这个过程的目的是为了发现隐藏在大量数据泥沙中的 “知识金矿”，因此，将数据挖掘定义为“数据中的知识挖掘”更为恰当。所以，数据挖掘也被人称为知识挖掘、知识抽取等。 ??? 1．2数据挖掘的分类 ??? 数据挖掘可以根据挖掘任务的不同，把数据挖掘方法分为概念描述、关联分析、分类分析、聚类分析、偏差检测等多种类型，具体如下： ??? 1．2．1概念描述(Concept description) ??? 就是通过分析和比较，将某类相互关联的数据进行汇总，归纳出此类对象的相关特征，对关于此类的大量信息进行描述，这些描述是抽象的，有意义的。它的类型有两种：特征性描述和区别性描述。1）特征性描述适用于描述某类对象的共同之处，例如，某档案馆的档案数据库中存在大量的用户基本信息，其中涉及：姓名、年龄、工作、利用喜好等信息，如果对历史研究者进行描述，很有可能得出以下结果：以高校教师、学生为主，以编修各种志书、撰写史学研究文章为目的。2）区别性描述，用于描述两个或多个类对象之间的差异，例如，对企业用户和历史研究者特征进行比较，也许能得出以下规则：主要利用生产管理和科研管理方面的档案信息，以取得一定经济效益和社会效益为目的。 ??? 1．2．2关联分析(Association analysis) ??? 就是描述数据库中数据项之间存在的相关特性，即挖掘出隐藏在数据项之间的相互关系，具体来说，若其中两项数据或多项数据存在着某种关联，其中一项数据就能依据其它数据进行预测。关联分析能发现用户利用不同档案信息之间的关联，分析预测用户利用模式。 ??? 1．2．3分类分析(Classification analysis) ??? 就是将数据库中的数据有序的聚合在一起，有助于人们对事物的全面把握。分类分析可分为结构化数据分类分析，如关系数据库中的数据，和非结构化数据分类分析，如文本数据。分类分析的具体过程为：用一组特征不同的类别为一个数据集合中的数据进行分类，然后找出描述这些数据的模型，并根据这个模型将数据划分到不同的类别中，利用这个模型可以预测未知的数据。分类分析可以通过已有用户档案数据库中的数据，揭示用户特征和用户利用行为之间的关系，并按照影响用户行为的程度对这些数据进行分类，用来预测未来的用户行为。 ??? 1．2．4聚类分析(Clustering analysis) ??? 就是将数据库中的数据划分为不同数据类的过程，它与分类分析不同，前者是在预先不考虑已知分类模型的情况下，把数据放入不同的分类中，聚类的目的是根据最大化类内的相似性，最小化类间的相似性这一原则合理的划分数据集合，简单来说就是使类内的差别最小化，类间的差别最大化，这样就可以把类似的数据组织在一起并导出某种规则。 ??? 1．2．5偏差检测(Deviation detection) ??? 就是通过发现数据库中的异常情况对偏差的数据进行分析的过程，重点是发现数据中的异常变化，数据库中的数据变异可能是人为错误引起的，更有可能是数据更新等自然变化的结果。偏差检测的意义在于可以有效排除大量不相关的数据。例如，某档案馆在形成某种编研成果之前，先在用户信息数据库中进行检索，并与档案馆数据库中的已有资源结合，再用数据挖掘技术将不想关的用户利用模型排除，把剩下的作为重点，制定有针对性的编研策略。 ??? ?2．基于知识管理的数字档案馆中的数据挖掘 ??? 前面已经介绍了数据挖掘的概念及模式，那么基于知识管理的数字档案馆的数据挖掘应该是怎样的呢？笔者认为