浅谈数据挖掘技术在数字图书馆应用.docVIP

浅谈数据挖掘技术在数字图书馆应用.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈数据挖掘技术在数字图书馆应用.doc

浅谈数据挖掘技术在数字图书馆应用 引百 计算机和互联网的飞速发展和普及,给全世界带来了巨 大的信息化浪潮。信息量迅速、持续的增长给人们带来方便 的同时也带来了困惑和烦恼,海量的数据已远远超过人类的 处理和分析理解能力,同时信息真假的辨识、安全性的保证 以及格式的统一问题也是人们面临的一个挑战。于是,数据 挖掘技术应运而生,而数字图书馆作为信息管理和服务的主 要机构,同样也积累了大量的信息而且也要面对使用中的各 种问题,数据挖掘技术的应用可以为数字图书馆的业务工作 和管理工作提供可靠的决策依据,也必将对图书馆其他方面 的工作产生深远的影响。 一、数据挖掘技术概述 数据挖掘是一门不断快速发展的综合性交叉学科,其兴 起于20世纪80年代末期。数据挖掘理论汇聚了数据库、可 视化、并行计算等方面的技术,集统计学、人工智能、模式 识别、计算机科学、机器学习等多门学科理论知识为一体。 其在多个领域都有所应用。 (一)数据挖掘定义 所谓数据挖掘是指从大量的、不完全的、有噪声的、模 糊的、随机的实际应用数据中,提取隐含在其中的、人们事 先不知道的、但又是潜在有用的信息和知识的过程。我们知 道知识发现(Knowledge Discovery in Databases, KDD)是 一个能从大型的数据库中自动地和智能地抽取一些有用的、 可信的、有效的和可以理解的模式的过程。而数据挖掘(Data Mining,DM)是KDD的一个处理过程,也是KDD的最重 要环节。数据挖掘与传统的数据分析(如查询、报表、联 机应用分析)的本质区别是数据挖掘是在没有明确假设的 前提下去挖掘信息、发现知识。 (二) 数据挖掘的任务 数据挖掘任务分描述性数据挖掘和推断性数据挖掘两 大类。和统计学原理相似,描述性数据挖掘的任务是描述数 据的一般特征,推断性数据挖掘的任务试图基于提供的数据 做预测。目前基于数据挖掘功能所能发现的各种知识主要包 括特征化描述、判别分析、关联分析、数据分类、预测、聚 类、孤立点分析、偏差分析等。通常,人们对他们所能发现 的各种模式或者是需要从手头数据来发现模式没有一个清 晰的思路,因此,必须要有一个通用的数据挖掘系统用来发 现各种知识以及不同抽象层次的知识,这也使得交互性成为 数据挖掘系统的一个重要特征。 (三) 数据挖掘的基本步骤 数据挖掘的步骤会随应用的领域不同而有所不同,每一 种数据挖掘技术也都有各自的特性和使用步骤,所以针对不 同问题和需求所制定的数据挖掘过程也会存在各种差异。另 外,数据的完整程度、专业人员支持的程度等都会对建立数 据挖掘过程有所影响。这些因素造成了数据挖掘在各不同领 域中的运用、规划,以及流程的差异性,即使同一产业,也 会因为分析技术和专业知识的涉入程度不同而有所不同,因 此对于数据挖掘过程的系统化、标准化就显得格外重要。 为这样,不仅可以较容易地跨领域应用,也可以结合不同的 专业知识,发挥数据挖掘的真正精神。通常数据挖掘完整的 步骤如下:1.理解数据和数据的来源。2.获取相关知识与技 术。3.整合与检查数据。4.去除错误或不一致的数据。5.建 立模型和假设。6.实际数据挖掘工作。7.测试和验证挖掘结 果。8.解释和应用。由此可以看出,数据挖掘牵涉了大量的 准备工作与规划工作,其中包括数据的净化、数据格式转换、 变量整合,以及数据表的链接等。 (四)数据挖掘的方法 在整个数据挖掘过程中,第6步是数据挖掘的实施阶段, 即根据目标任务的数据类型等选取相应的数据挖掘算法并 进行挖掘。而数据挖掘的方法由人工智能和机器学习的方法 发展而来,人们结合传统的统计分析法、模糊数学方法以及 科学计算可视化技术,以数据库为研究对象,最终形成数据 挖掘的方法。目前业界比较认可以下6种方法:1.统计分析 方法:利用统计学原理对数据库中的数据进行分析,能得到 各种不同的统计信息和知识,作为数据挖掘的一大类方法, 包括:常用统计、相关分析、回归分析、差异分析、聚类分 析、判断分析。2.归纳学习方法:从采用的技术角度上可分 为两大类,信息论方法和集合论方法。信息论方法是利用信 息论的原理建立决策树。3.模糊数学方法:模糊性是客观存 在的,而当系统的复杂性越高,其精度的复杂性就会越高, 其精确化能力便越低,这就意味着模糊性越强。利用模糊集 合理论进行数据挖掘的方法有:模糊模式识别、模糊聚类、 模糊分类和模糊关联规则等。4.仿生物技术:典型的方法是 神经网络方法和遗传算法。5.公式发现:在工程和科学数据 库中对若干数据项进行一定的数学运算的相应的数学公式。 6.可视化技术:是一种图形显示技术。例如,把数据库中多 维数据变成多种图形。 二、数据挖掘技术在数字图书馆中的应用 目前数据挖掘技术已经形成相对成熟的技术体系,其在 数据组织与分析、数据挖掘、知识

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档