数据挖掘期末复习整理.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘期末复习整理

名词术语及概念数据挖掘(P3):指从大量数据中提取或“挖掘”知识。知识发现过程(P3):数据库(P5):按照数据结构来组织、存储和管理数据的仓库。可以对这些数据进行数据清理和集成。数据挖掘作为知识发现过程的步骤(P4):清理与集成、选择与变换、数据挖掘、评估与表示。数据清理:清楚噪声和不一致数据数据集成:多种数据源可以组合在一起数据选择:从数据库中提取与分析人物相关的数据数据变换:数据变换或统一成合适挖掘形式,如通过汇总或聚集操作数据挖掘:基本步骤,使用智能方法提取数据模式模式评估:根据某种兴趣度度量,识别表示知识的真正有趣的模式知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识。数据仓库(5,8,67):数据仓库是一个从多个数据源收集的信息储存库,存放在一个一致的模式下,并且通常驻留在某个站点;是一个面向主题的、集成的、时变的和非易失的数据集合,可以对数据进行清理和集成等操作,支持管理部门的决策过程。多维数据立方体(8):作为数据仓库的一种实际物理结构(另外一种是关系数据库),提供数据的多维视图,并允许计算和快速访问汇总数据。数据集市(9):数据集市是数据仓库的一个部门子集。它焦点在选定的主题上,是部门范围的。(数据仓库是企业范围的)OLAP及相应的操作(9):联机分析处理,OLAP操作使用数据的领域背景知识,允许在不同的抽象层提供数据。其操作的例子包括下钻和上卷。事物数据库(10):由一个文件组成,其中每个记录代表一个事物。通常,一个事物包含唯一的事物标识号(trans_ID)和组成该事物的项的列表。时间数据库(11):通常存放包含时间相关属性的关系数据库。空间数据库(11):包含设计空间的信息。多媒体数据库(12):存放图像、音频和视频数据。异构数据库(12):由一组互连的、自治的成员数据库组成。这些成员数据库相互通信,以便交换信息和回答查询。频繁模式(15):是指在数据中频繁出现的模式。存在多种类型的频繁模式,包括项集、子序列和子结构。Support/Confidenct(15):置信度又称为规则的正确率,是指在前提出现的情况下,后件出现的概率支持度又称为规则的覆盖率,是指包含规则出现的属性值的交易占所有交易的百分比分类(15):分类是一个过程,它找出描述和区分数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象类。导出模型是基于对训练数据集(即类标号已知的数据对象)的分析。预测(15):建立连续值函数模型。它用来预测空缺的或不知道的数值数据值,而不是类标号。决策树(16):是一种类似于流程图的树结构,其中每个节点代表在一个属性值上的测试,每个分枝代表测试的一个输出,而树叶代表类或类分布。聚类分析(17):聚类分析数据不考虑已知的类标号,对象根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组。离群点(17):数据库中可能包含一些数据对象,它们与数据的一般行为或模型不一致。均值(33):设x1,x2,…..xn是n个值或观测的集合。该值集的均值是:加权算术平均(33):;在集合中每个值xi与一个权值wi相关联,权值反应对应值的显著性、重要性或出现频率。中位数(33):设给定的N个不同值得数据集按数值序排序。如果N是奇数,则中位数是有序集的中位数;否则,中位数是中间两个值得平均值。众数、中列数、百分位数(34):众数:另外一个中心趋势量,集合中出现频率最高的数。中列数:数据集的最大和最小值的平均值。百分位数:在数值序下,数据集合的第K个百分位数是具有如下性质的值xl:百分之K的数据项位于或低于xl.百分位数的求法:特点:数组按低到高,即从小到大。Eg,实际步骤:排序(升)求(n-1)*k%; 整数部分i;小数部分j;最终结果=(1-j)*(1+i)th+j*(i+2)th.(th表示序列中第几个数)如题:求1 3 4 5 6 7 8 9 19 29 39 49 59 69 80的30%百分位数。解:(16-1)*0.3=4.5;得出整数部分为4,小数部分为0.5;结果=(1-0.5)*6+0.5*7=6.5五数概况(35):由中位数,四分位数Q1和Q3,最小和最大观·测值组成,按一下序列写为:Minimun,Q1,Median,Q3,Maximum.方差、标准差(35):N个观测值x1,x2………Xn的方差是:其中,x是观测值的均值,观测值的方差是标准差得平方根。直方图(36):频率直方图,是一种概括给定属性分布的图形方法。属性A的直方图是将A的数据分布划分成不相交的子集或桶。通常,每个桶的宽度是一致的。每个桶用一个矩形表示,其高度等于桶中的值计数或相对频率。分箱(40):分箱方法通过考察数据的“邻近”(即周围的值)来光滑有序数的值。有序值分布到一些“桶”或箱中。一般来说,

文档评论(0)

xjj2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档