数据挖掘期末复习整理.docxVIP

下载本文档

36
0
约5.51千字
约 7页
2017-11-04 发布于重庆
举报
版权申诉

数据挖掘期末复习整理.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘期末复习整理

名词术语及概念数据挖掘（P3）:指从大量数据中提取或“挖掘”知识。知识发现过程（P3）:数据库（P5）:按照数据结构来组织、存储和管理数据的仓库。可以对这些数据进行数据清理和集成。数据挖掘作为知识发现过程的步骤（P4）:清理与集成、选择与变换、数据挖掘、评估与表示。数据清理：清楚噪声和不一致数据数据集成：多种数据源可以组合在一起数据选择：从数据库中提取与分析人物相关的数据数据变换：数据变换或统一成合适挖掘形式，如通过汇总或聚集操作数据挖掘：基本步骤，使用智能方法提取数据模式模式评估：根据某种兴趣度度量，识别表示知识的真正有趣的模式知识表示：使用可视化和知识表示技术，向用户提供挖掘的知识。数据仓库（5,8,67）：数据仓库是一个从多个数据源收集的信息储存库，存放在一个一致的模式下，并且通常驻留在某个站点；是一个面向主题的、集成的、时变的和非易失的数据集合，可以对数据进行清理和集成等操作，支持管理部门的决策过程。多维数据立方体（8）：作为数据仓库的一种实际物理结构（另外一种是关系数据库），提供数据的多维视图，并允许计算和快速访问汇总数据。数据集市（9）：数据集市是数据仓库的一个部门子集。它焦点在选定的主题上，是部门范围的。（数据仓库是企业范围的）OLAP及相应的操作（9）：联机分析处理，OLAP操作使用数据的领域背景知识，允许在不同的抽象层提供数据。其操作的例子包括下钻和上卷。事物数据库（10）:由一个文件组成，其中每个记录代表一个事物。通常，一个事物包含唯一的事物标识号（trans_ID）和组成该事物的项的列表。时间数据库（11）：通常存放包含时间相关属性的关系数据库。空间数据库（11）：包含设计空间的信息。多媒体数据库（12）：存放图像、音频和视频数据。异构数据库（12）：由一组互连的、自治的成员数据库组成。这些成员数据库相互通信，以便交换信息和回答查询。频繁模式（15）：是指在数据中频繁出现的模式。存在多种类型的频繁模式，包括项集、子序列和子结构。Support/Confidenct(15):置信度又称为规则的正确率，是指在前提出现的情况下，后件出现的概率支持度又称为规则的覆盖率，是指包含规则出现的属性值的交易占所有交易的百分比分类（15）：分类是一个过程，它找出描述和区分数据类或概念的模型（或函数），以便能够使用模型预测类标号未知的对象类。导出模型是基于对训练数据集（即类标号已知的数据对象）的分析。预测（15）：建立连续值函数模型。它用来预测空缺的或不知道的数值数据值，而不是类标号。决策树（16）：是一种类似于流程图的树结构，其中每个节点代表在一个属性值上的测试，每个分枝代表测试的一个输出，而树叶代表类或类分布。聚类分析（17）：聚类分析数据不考虑已知的类标号，对象根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组。离群点（17）：数据库中可能包含一些数据对象，它们与数据的一般行为或模型不一致。均值（33）：设x1,x2,…..xn是n个值或观测的集合。该值集的均值是：加权算术平均（33）：;在集合中每个值xi与一个权值wi相关联，权值反应对应值的显著性、重要性或出现频率。中位数（33）：设给定的N个不同值得数据集按数值序排序。如果N是奇数，则中位数是有序集的中位数；否则，中位数是中间两个值得平均值。众数、中列数、百分位数（34）：众数：另外一个中心趋势量，集合中出现频率最高的数。中列数：数据集的最大和最小值的平均值。百分位数：在数值序下，数据集合的第K个百分位数是具有如下性质的值xl:百分之K的数据项位于或低于xl.百分位数的求法：特点：数组按低到高，即从小到大。Eg,实际步骤：排序（升）求（n-1）*k%; 整数部分i;小数部分j;最终结果=（1-j）*(1+i)th+j*(i+2)th.（th表示序列中第几个数）如题：求1 3 4 5 6 7 8 9 19 29 39 49 59 69 80的30%百分位数。解：（16-1）*0.3=4.5；得出整数部分为4，小数部分为0.5；结果=（1-0.5）*6+0.5*7=6.5五数概况（35）：由中位数，四分位数Q1和Q3,最小和最大观·测值组成，按一下序列写为：Minimun,Q1,Median,Q3,Maximum.方差、标准差（35）：N个观测值x1,x2………Xn的方差是：其中，x是观测值的均值，观测值的方差是标准差得平方根。直方图（36）：频率直方图，是一种概括给定属性分布的图形方法。属性A的直方图是将A的数据分布划分成不相交的子集或桶。通常，每个桶的宽度是一致的。每个桶用一个矩形表示，其高度等于桶中的值计数或相对频率。分箱（40）：分箱方法通过考察数据的“邻近”（即周围的值）来光滑有序数的值。有序值分布到一些“桶”或箱中。一般来说，