- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘小题整理2
第四章
数据挖掘的主要技术:回归、贝叶斯、决策树、规则、神经网络、距离
分类中的类别是:预先定义的、不重叠的、并且划分了整个数据库
分类中当被预测值为连续时称之为预测,当被预测的值离散时,称之为分类。
这种方法之所以被称做是“朴素的”,是因为它假设各种属性之间是独立的。
朴素贝叶斯计算步骤:先计算先验概率、后计算条件概率、计算后验概率、预测元组的种类
朴素贝叶斯需要扫描一次训练数据
朴素贝叶斯变量之间关系要求独立,不能有连续属性值,如果有,应该划分成区间
相似性测量以及相关系数的适用范围:一是两个变量一是两个点(有多个属性或坐标)
K最近邻是一种最常用的基于距离度量的分类方法
决策树方法之间的不同在于如何构建树
CART是一种产生二叉决策树的技术
神经网络的种类:根据连接类型分类前馈型(前向型神经网络)和反馈型。根据学习方式分为有指导学习和无指导学习。
神经网络应用于分类属于有指导学习
神经网络算法:传播、反向传播、梯度下降
神经网络中改变结点的输入弧上权重的方法:Hebb法则r wij= c xij yj、Delta法则r wij= c xij (dj – yj),反向传播是一种调整神经网络权值的技术,是Delta法则的推广。
反向传播算法:从汇结点(输入层)到源结点(输入层)反向传播权值的变化。
剃度下降是一种调整网络权值的技术。
剃度下降算法是通过均方误差产生权重调整量的技术。它的思想是发现使MSE最小化的权值。
神经网络的结构主要有:感知器、自组织特征影射、径向基函数网络
自组织映射属于竞争型无指导学习
径向基函数网络:径向基函数是函数值随着与中心点的距离远近升高或下降的一类函数
径向基函数是具有高斯形状的函数
一条分类规则两部分组成,即前件(If部分,对应a)和后件(Then部分,对应c)。 前件部分包含了一个谓词,后件部分包含了对谓词的判断(类别)。
1R算法是一种简单的方法,它生成的简单规则集合等价于具有一个层次的决策树。基本思想是基于训练数据选择可以进行分类的最佳属性。其中最佳是通过对误差计数来定义的
第五章
聚类算法有哪些?层次算法、划分算法、遗传算法、大型数据库聚类
聚类中的组不是预先定义的(类的数目及类的含义),无指导学习,而是根据实际数据的特征按照数据之间的相似性定义。
具体应用:动植物分类、疾病分类、图象处理、模式识别和文本检索等。
所谓异常点是指数据集中与其他的点显著不同的样本点。
聚类算法的分类:
层次聚类(产生嵌套的簇集)---划分聚类(一次产生所有的簇,不需要几个步骤)
根据具体的实现技术:层次算法包括凝聚算法(自底向上)和分裂算法(自顶向下)。
根据算法对成员的处理方式:增量(串行)模式和同时模式;
根据算法对成员属性值的处理方式:单一处理模式和多处理模式。
层次聚类算法有哪些?单连接、MST单连接、全连接、平均连接
谱系图: 表示层次聚类算法的树形结构图。
谱系图的每一层显示该层的簇集。
叶结点 – 一个个包含单个成员的簇
根结点 – 一个包含全部成员的簇
在树的每一层都采用距离度量合并相邻的下层簇。
在某一层的所有簇是并列的。
单连接技术:
主要思想是发现最大的连通子图
如果至少存在一条连接两个簇的边,并且两点之间的最短距离小于或等于给定的阈值,则合并这两个簇
可以是凝聚的,也可以是分裂的
划分聚类:又称为非层次聚类,通常处理静止的数据集。
划分算法:最小生成树( MST )、K均值(K-Means)、平方误差( Squared Error )、最近邻算法(Nearest Neighbor)、PAM、BEA、GA
K-均值聚类和平方误差聚类:
迭代过程一致
初始化不一样…
停止准则不一样…
PAM 距离代价的计算:在算法的迭代过程中,如果替代后能够减少距离代价,则进行替代(交换)。
结合能量算法(BEA):在一个分布式数据库中,每一产生的簇称做一个纵向片段,并且存储在与其他片段不同的位置上。
第六章
传统的聚类算法对于类别数据(非数值性数据)往往无能为力。
关联规则的算法:Apriori算法、抽样算法、划分算法、并行算法
要想产生关联规则,需要有非空子集
大项目集的任一子集也一定是大的,因此大项目集只能从所有大的子集的组合(连接运算)产生。
如果一个项目集不是大的,那么它的超集也不是大的。
任何一个大项目集在至少在一个划分是大的。
大部分平行或分布式关联规则算法要么试图将数据并行化(或者划分),要么试图将侯选并行化(或者划分)。两者分别称之为数据并行和任务并行。数据并行和任务并行的典型算法分别为记数分配算法和数据分配算法。
文档评论(0)