数据挖掘笔记若干页.docVIP

下载本文档

1
0
约2.24千字
约 3页
2017-06-09 发布于北京
举报
版权申诉

数据挖掘笔记若干页.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘教程数据挖掘，数据库知识发现 “丰富的数据” “贫乏的知识” 数据仓库：整理整个机构中来自多个数据源各种数据格式不相容性不一致的数据，以统一形式集成存储在一起的数据。在线分析工具（OLAP）在线事务处理（OLTP）现实数据多种特性：即量大、含噪声、不完整、动态、稀疏性、异质、非线性等。数理统计技术方法以及人工智能和知识工程等领域的研究成果，诸如推理、机器学习、知识获取、模糊理论、神经网络、进化计算、模式识别、粗糙集理论等。数理统计、人工智能、机器学习、神经网络、进化计算和模式识别等多种技术。步骤：数据清洗-》数据集成-》数据转换-》数据挖掘-》模式评估-》知识表示。多学科技术，其中包括：数据库、数理统计、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理、空间数据分析。现实世界，数据的完整性、一致性和正确性都很难保证。OLAP是由用户驱动的，一般是由分析人员预先设定一些假设，然后使用OLAP工具去帮助验证这些假设，它提供了可使分析人员很方便地进行数据分析的段；而数据挖掘则是通过对数据的分析来自动产生一些假设，人们可以在这些假设的基础上更有效地进行决策。概念描述: 定性概念描述（data characterization）目标数据集（target class）对比概念描述（data discrimination）：目标数据集，对比数据集(contrasting class) （classification）（prediction），数据转换（data transformation）和数据消减（data reduction）数据清洗（data cleaner）处理例程通常包括：填补遗漏的数据值、平滑有噪声数据、识别或除去异常值（outlier），以及解决不一致问题。数据集成（data integration）就是将来自多个数据源数据合并到一起。由于描述同一个概念的属性在不同数据库取不同的名字，在进行数据集成时就常常会引起数据的不一致或冗余。数据转换（data transformation）主要是对数据进行规格化（normalization）操作。数据消减（data reduction）的目的就是缩小所挖掘数据的规模，但却不会影响（或基本不影响）最终的挖掘结果。现有的数据消减包括：（1）数据聚合（data aggregation），如：构造数据立方（data cube）；（2）消减维数（dimensions reduction）；（3）数据压缩（data compression），如：利用编码方法（如最小编码长度或小波）；（4）数据块消减（numerosity reduction）。遗漏数据处理：忽略该记录，手工填补，缺省值填补，全体均值填补，同类别均值填补，最可能值填补；平滑噪声：bin方法，聚类方法，人机结合检查法，回归法；构造数值概念层次树方法： bin方法，直方图方法，聚类方法，基于熵的离散化方法，自然划分分段发。数据挖掘可以分为描述型数据挖掘和预测型数据挖掘两种。概念描述是最常用的描述型数据挖掘形式；它是以简洁概要方式描述一组与挖掘任务相关数据有意义的特征性质。概念描述包括定性描述和对比描述。前者概要描述了一组数据（目标数据集）；而后者则针对其它数据集（对比数据集）概要对比描述一组数据（目标数据集）。概念描述有两种基本方法：基于数据立方的OLAP方法和基于属性的归纳方法。两者均是基于属性泛化的数据分析。基于属性归纳方法在关系数据库和数据立方结构均可进行操作。基于属性归纳方法包含以下技术：数据聚焦（data focusing）、属性消减和属性泛化、计数与累计、属性泛化控制和数据泛化的可视化。泛化后数据可以通过多种形式加以描述，其中包括：泛化后关系表、组合表、棒图、饼图、曲线和规则。分析型概念描述和对比描述在归纳开始之前，完成属性（维）相关性分析，以便过滤出不相关或弱相关属性。概念对比描述可以通过与概念描述类似的基于属性归纳或数据立方方法来获得。来自目标数据集和对比数据集的泛化后数据行可以定量地进行比较和对比。_E_ 定性与对比描述（形成概念描述），尽管采用不同的有趣性描述参数但它们还是可以用相同的泛化关系或定量规则形式来加以表示。这些描述参数包括：t-weight（描述数据行的代表性）和d-weight（描述数据行之间的差异性）。从描述性统计角度来看，在描述数据中心趋势和数据分布时，四分值、变化程度和异常值是有用的附加信息，而这些信息是可以从数据库中挖掘出来。与机器学习算法相比，面向数据库的概念描述方法在大型数据库和数据仓库中具有高效和可扩展的特点；此外概念描述挖掘能够按递增、并行和分布方式进行。第四章：分类与预测：机器学习、专家系统、统计学和神经