数据挖掘概念与技术读书笔记.docxVIP

下载本文档

26
0
约3.38千字
约 8页
2019-09-04 发布于浙江
举报
版权申诉

数据挖掘概念与技术读书笔记.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第一章可以挖掘的数据类型：数据库数据，数据仓库（是一个从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上，通常数据仓库用称作数据立方体的多维数据结构建模，数据立方体有下钻（往下细分）和上卷（继续记性总和归纳）操作），事务数据，时间先关或序列数据（如历史记录，股票交易数据等），数据流、空间数据、工程设计数据，超文本和多媒体数据可以挖掘什么类型的模型数据挖掘功能包括特征化与区分、频繁模式、关联和相关性挖掘分类与回归、聚类分析、离群点分析。数据挖掘功能用于指定数据挖掘任务发现的模式。一般而言，这些任务可以分为两类：描述性和预测性。描述性挖掘任务刻画目标数据中数据的一般性质。预测性挖掘任务在当前数据上进行归纳，以便做出预测。特征化与区分：数据特征化（如查询某类产品的特征）、数据区分（将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较，如把具有不同特性的产品进行对比区分）。挖掘频繁模式、关联和相关性：频繁模式是在数据中频繁出现的模式（频繁项集、频繁子序列和频繁子结构）用于预测分析的分类与回归：分类是找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号。到处模型是基于对训练数据集的分析。该模型用来预测类标号未知的对象类标号。表现形式有：分类规则（IF-THEN）、决策树、数学公式和神经网络。分类预测类别标号，而回归简历连续值函数模型，而不是离散的类标号。相关分析可能需要在分类和回归之前进行，他试图识别与分类和回归过程显著相关的属性。聚类分析：聚类分析数据对象，而不考虑类标号。离群分析：数据集中可能包含一些数据对象，他么对数据的一般行为或模型不一致。这些数据时利群点。使用什么技术：统计学中的统计模型机器学习：监督学习（分类的同义词学习中监督来自训练数据集中标记的实例）无监督学习：本质上是聚类的同义词。学习过程是无监督的，因为输入实例没有类标记。由于训练无边际，所以学习到的模型并不能告诉我们所发现的簇的语意。半监督学习：在学习模型时，它使用标记的和未标记的实例。标记的实例用来学习类模型，而未标记的实例用来进一步改进类边界。主动学习：是一种机器学习方法，它让用户在学习过程中扮演主动角色数据库系统和数据仓库面向什么类型的应用哪里有数据，哪里就用数据挖掘应用。商务智能：进行有效的市场分析，比较类似产品的顾客反馈，发现其竞争对手的优势和缺点，留住具有高价值的顾客，做出聪明的商务决策。 Web搜索引擎：需要数以上千或上万计的计算机云协同挖掘海量数据，把数据挖掘方法升级到计算机计算机云和大型分布数据集上。数据挖掘的主要问题：挖掘方法：挖掘各种新的知识类型、挖掘多维空间中的知识、数据挖掘—跨学科的努力、提升网络环境下的发现能力、处理不确定性，噪声或不完全数据、模式评估和模式或约束指导的挖掘。用户界面：交互挖掘：数据挖掘过程应该是高度交互的结合背景知识。特定的数据挖掘和数据挖掘查询语言。数据挖掘结果的表示和可视化。有效性和可伸缩性：数据挖掘算法的有效性和可伸缩性，为了有效地从多个数据库或动态数据流的海量数据提取信息，数据挖掘算法必须是有效的和可伸缩的并行、分布式和增量挖掘算法，大量数据和数据挖掘算法的计算复杂性是促使开发并行和分布式数据密集型挖掘算法的因素。第二章认识数据主要学习了解属性的不同类型，以及描述属性数据的中心趋势和散步的统计度量。还有熟悉对属性值分布可视化的技术，以及如何计算对象之间的相似性或相异性数据对象与属性类型：标称属性：是一些符号或事物的名称，有些使用数字表示，但这些数字不具有数值属性。二元属性：0,1（是否不是）序数属性（ranking）数值属性是定量的，即它是可度量的量，用整数或实数值表示。区间标度属性：用相等的单位尺度度量，如温度。比例标度属性：是具有固有零点的数值属性。如不同币种间的汇率离散属性与连续属性：离散属性具有有限或无线可数个数，可以用或不用整数表示。如果不是离散的就是连续的。术语“数值属性”和“连续属性”通常可以互换地使用。数据的基本统计描述：中心趋势度量：均值，中位数，众数，中列数。数据的散布：极差，四分位数，方差，标注差和四分位数极差。可视化的审视数据 σ 上式表示的是方差，其中x是观测的均值，观测值的标准差σ是方差σ2的平方根。数据段基本统计描述的图形显示：分位数图，分位数-分位数图，直方图，散点图与数据相关。数据可视化：从存放在诸如关系数据库中的多维数据开始，讨论一些表示方法，包括基于像素的技术，几何投影技术，基于图符的技术，以及层次的和基于图形的技术。以及复杂数据对象和关系的可视化。：基于像素的可视化技术：在屏幕上创建m个窗口，每维一个，记录的