数据挖掘三、四答案.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘三、四答案

一 概念 分类:是指将数据映射到预先定义好的群组或类。 回归是指将数据项映射到一个实值预测变量。指根据输入值估计一个输出值。 KDD:是从数据中发现有用的信息和模式的过程。 数据挖掘:是指使用算法来抽取信息和模式,是KDD过程的一个步骤。 查准率:检索到的相关文档数/检索到的文档数。 查全率:/实际相关的文档数 模式匹配:是指找出在数据中出现的预先定义的模式。 操作型数据库、数据仓库 应用:OLTP、OLAP 使用:精确查询、特定查询 时态:快照、历史的 修改:动态、静态 面向:应用、商业 数据;操作性数值、集成的 规模:GB、TB 级别:细节的、汇总的 访问:经常、不经常 响应:几秒、几分钟 数据模式:关系型、雪花 二 1结点i的输出值为yi,而实际的输出应该为di 2detla:△wij=cXij(dj-yj) △wij为权值的改变 对应的给定结点j,输入元组的权值由元组w1j,w2j,….wkj表示,输出值与输入值为yj和X1j,…,Xkj,c为常数叫做学习率,dj为实际输出值。 3写出采用K最近邻算法 准备训练样本库S,未知元组t; 根据距离函数计算t 和每个训练样本的距离,选择与待分类样本距离最小的K个样本作为 的K个最近邻; 根据K个最近邻判断 t所属类别(假设共有J类):根据t 的K个最近邻,依次计算每类的权重P 其中,Pa 是 的K个最近邻中的样本 将 分类到类别 的权重,最简单的可采用。 将t 归属为权重最大的那个类别。 三 关联规则 给定一组项目I={I1,I2,…,Im}和数据库D={t1,t2,…,tn},其中t2 ={Ii1,Ii2,…,Iik}并且Iij∈I, 关联规则是形如X=Y的蕴涵式,其中X,Y I是两个项目集合,称为项目集并且X∩Y=空. 支持度 关联规则X=Y的支持度(s)是数据库中包含X∪Y的事物占库中所有事物的百分比. 置信度或强度 关联规则X=Y的置信度或强度(s)是数据库中包含X∪Y的事物与包含X的事物的比值. 大项目集 出现次数大于阈值s的项目集 Apriori基本思想 1利用一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生 k+1?项集。具体做法就是: 首先找出频繁1-项集,记为L1 ; 然后利用L1来挖掘L2 ,即频繁2-项集; 不断如此循环下去直到无法发现更多的频繁k-项集为止。 2每挖掘一层 就需要扫描整个数据库一遍。 5.7.4.1.0 抽样算法 算法步骤 对数据库进行抽样 利用apriori算法或其他算法发现抽样样本集合中的大项目集PL 计算PL的负边界 BD-(PL)(本身不在PL中,但其子集都在PL中的最小集合 候选集合C=PL ∪BD-(PL) 对数据库进行第一趟扫描,对C中所有候选进行计数.建立大项目集合L, 建立缺失大项目集ML(不在PL中但在L中的大项目) 如果ML为空(所有大项目都在PL中),结束,否则继续 重复应用边界函数,直到候选集合不再发生变化(C初值L,大项目集合) C=C ∪BD-(C) 第二次扫描数据库,对C中所有候选进行计数找出大项目集合 四 1概念 簇:一些相似成员的集合,不同簇中的成员是不相似的 簇中两点之间的距离要小于簇中的一点与簇外任意一点之间的距离。 质心:指簇的中心,不一定是簇中的一个实际的点。 异常点就是指数据机种与其它的点显著不同的样本点 异常点挖掘是指在数据集中标识出异常点的过程 聚类:定义5.1 给定由一些元组组成的数据库D={t1,t2,…,tn}和整数值k,则聚类问题就是定义一被映射到该簇中的元组组成,即Kj ={ti|f(ti)=Kj,1≤j≤k,ti∈D}。 2簇之间距离计算方法 单连接 全连接 平均 质心 中心点 3⑴凝聚层次法聚类(单连接) 距离测量采用最常用的欧式距离 聚类的过程为: 初识每个数据元组为一簇,设定距离小于阈值min 找出出距离小于min且距离最近的两个簇进行聚类.重复该工作执导找不到可以合并的簇。 ⑵划分算法K-均值聚类算法 步骤如下: 选择一个含有随机选择样本的k个簇的初始划分,计算这些簇的的平均值。 根据距离把每个样本重新分配到距离它最近的簇。 计算被分配到每个簇的样本的均值向量。 重复2,3直到k个簇的质心点不再发生变化或准则函数收敛。 ⑶大型数据库聚类 BIRCH应用于大型数据库的步骤 产生初始CF树; 应用聚类算法对所有叶结点进行聚类。 通过将所有点分配到离自身最近的点质心所代表的簇中,实现重新聚 四章 决策树 在这个数据集上计算age, student, credit rating的信息增益比 H(D)=5/14log(14/5)+9/14log(14/9)=0.3571*0.4471+0.6829*0.191

文档评论(0)

uc007 + 关注
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档