- 4
- 0
- 约5.79千字
- 约 5页
- 2016-02-25 发布于江苏
- 举报
数据挖掘系统 第一部分.doc
第一部分 数据挖掘的基础知识
一、数据、信息、知识与智慧
人类的各项活动都是基于人类的智慧和知识,即对外部世界的观察和了解,做出正确的判断和决策以及采取正确的行动,而数据仅仅是人们用各种工具和手段观察外部世界所得到的原始材料,它本身没有任何意义。从数据到知识再到智慧,需要经过分析加工处理精炼的过程。
数据是原材料,它只是描述发生了什么事,并不能构成决策或行动的可靠基础。
通过对数据进行分析找出其中的关系,赋予数据以某种意义和关联,这就形成所谓信息。信息虽然给出了数据中一些有一定意义的东西,但它往往和人们需要完成的任务没有直接的联系,也还不能作为判断、决策和行动的依据。
对信息进行再加工,即进行更深入的归纳分析,方能获得更有用的信息,即知识。而所谓知识,可定义为“信息块中的一组逻辑联系,其关系是通过上下文或过程的贴近度发现的”。从信息中理解其模式,即形成知识。在大量知识积累基础上,总结出原理和法则,就形成所谓智慧。
二、数据挖掘的定义与流程
OLAP(On Line Analytical processing)是一种进行实时分析和产生相应报表的在线分析工具,允许用户以交互方式浏览数据仓库(data warehousing,它是为了便于分析针对特定主题(subject-oriented)的集成化的、时变的(time-variant)即提供存贮5~10年或更长时间的数据,这些数据一旦存入就不再发生变化)内容,并对其中数据进行多维分析,且能及时地从变化和不太完整的数据中提取出与企业经营活动密切相关的信息。OLAP是数据分析手段的一大进步,以往的分析工具所能得到的报告结果只能回答“什么”(what),而OLAP的分析结果能回答“为什么”(why)。但OLAP分析过程是建立在对用户深藏在数据中的某种知识有预感的和假设的前提下,由用户指导的信息分析与知识发现过程。对于数据仓库中埋藏的丰富的、不为用户所知的有用信息和知识,就需要有基于计算机与信息技术的智能化自动工具,来帮助挖掘隐藏在数据中的各类知识。这类工具不应基于用户假设,而应能自身生成多种假设;再用数据仓库(或大型数据库)中的数据进行检验或验证;然后返回用户最有价值的检验结果。此外这类工具还应能适应现实世界中数据的多种特性(即量大、含噪音、不完整、动态、稀疏性、异质、非线性等)。
数据挖掘,又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),它是一个从大量数据中抽取挖掘出未知的,有价值的模式或规律等知识的复杂过程。数据挖掘的全过程包括:
数据清洗(data clearning),其作用就是清除数据噪音和与挖掘主题明显无关的数据;
数据集成(data integration),其作用就是将来自多数据源中的相关数据组合到一起;
数据转换(data transformation),其作用就是将数据转换为易于数据挖掘的数据存储形式;
数据挖掘(data mining),它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;
模式评估(pattern evaluation),其作用就是根据一定评估标准(interesting measures)从挖掘结果筛选出有意义的模式知识;
知识表示(knowledge presentation)其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。
三、数据挖掘与其它计算机工具的区别
KDD和机器学习都是从数据中提取知识,那么两者有什么区别呢?KDD是从现实世界中存在的一些具体数据中提取知识,这些数据在KDD出现之前早已存在;而机器学习所使用的数据是专门为机器学习而特别准备的数据,这些数据在现实世界中也许毫无意义。由于KDD使用的数据来自实际的数据库,而且所要处理的数据量可能很大,因此KDD中的学习算法的效率和可扩充性就显得尤为重要;此外,KDD所处理的数据由于来自现实世界,数据的完整性、一致性和正确性都很难保证,如何将这些数据加工成学习算法可以接收的数据?也是数据挖掘研究与开发时需要进行深入研究的问题;再者,KDD可以利用目前数据库所取得的研究成果来加快学习过程,提高学习效率。最后一点就是,由于KDD处理的数据来自于实际的数据库,而与这些数据库有关的还有其他一些背景知识,这些背景知识的合理运用也会提高学习算法的效率。
KDD与数据库报表工具有什么区别?数据库报表制作工具是将数据库中的某些数据抽取出来,经过一些数学运算,最终以特定的格式呈现给用户,而KDD则是对数据背后隐藏的特征和趋势进行分析,最终给出关于数据的总体特征和发展趋势。报表工具也许能够给出上学期考试未通过及成绩优秀的学生的有关情况。但它不能找出那些考试未通过及成绩优秀的学生在哪些方面有些什么不同的特征,而数据挖
您可能关注的文档
最近下载
- 【地域文化在主题酒店中的运用研究—以S酒店为例(附问卷)15000字】.doc
- CWI考试1PART+A+练习题及答案.docx
- PART A CWI练习题及答案 .pdf VIP
- 数学思维导图小学初中高中含目录(高清版)人教版.pdf VIP
- SY-T 6629-2005 陆上钻井作业环境保护推荐做法.pdf VIP
- SY_T 7295-2016 陆上石油天然气修井作业环境保护推荐作法.docx VIP
- 汉责文化打屁股.pptx VIP
- SY∕T 5557-2016 石油天然气钻采设备 固井成套装备.docx VIP
- SY∕T 7425-2018 石油天然气钻采设备 制氮注氮设备.docx VIP
- SY-T6113-2023石油天然气钻采设备 修井用动力卡盘.pdf VIP
原创力文档

文档评论(0)