数据挖掘三、四答案.docVIP

下载本文档

5
0
约5.01千字
约 4页
2016-11-23 发布于广东
举报
版权申诉

数据挖掘三、四答案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘三、四答案

一概念分类：是指将数据映射到预先定义好的群组或类。回归是指将数据项映射到一个实值预测变量。指根据输入值估计一个输出值。 KDD：是从数据中发现有用的信息和模式的过程。数据挖掘：是指使用算法来抽取信息和模式，是KDD过程的一个步骤。查准率：检索到的相关文档数/检索到的文档数。查全率：/实际相关的文档数模式匹配：是指找出在数据中出现的预先定义的模式。操作型数据库、数据仓库应用：OLTP、OLAP 使用：精确查询、特定查询时态：快照、历史的修改：动态、静态面向：应用、商业数据;操作性数值、集成的规模：GB、TB 级别：细节的、汇总的访问：经常、不经常响应：几秒、几分钟数据模式：关系型、雪花二 1结点i的输出值为yi，而实际的输出应该为di 2detla:△wij=cXij(dj-yj) △wij为权值的改变对应的给定结点j,输入元组的权值由元组w1j,w2j,….wkj表示，输出值与输入值为yj和X1j,…,Xkj,c为常数叫做学习率，dj为实际输出值。 3写出采用K最近邻算法准备训练样本库S，未知元组t；根据距离函数计算t 和每个训练样本的距离，选择与待分类样本距离最小的K个样本作为的K个最近邻；根据K个最近邻判断 t所属类别（假设共有J类)：根据t 的K个最近邻，依次计算每类的权重P 其中，Pa 是的K个最近邻中的样本将分类到类别的权重，最简单的可采用。将t 归属为权重最大的那个类别。三关联规则给定一组项目I={I1,I2,…,Im}和数据库D={t1,t2,…,tn},其中t2 ={Ii1,Ii2,…,Iik}并且Iij∈I, 关联规则是形如X=Y的蕴涵式,其中X,Y I是两个项目集合,称为项目集并且X∩Y=空. 支持度关联规则X=Y的支持度(s)是数据库中包含X∪Y的事物占库中所有事物的百分比. 置信度或强度关联规则X=Y的置信度或强度(s)是数据库中包含X∪Y的事物与包含X的事物的比值. 大项目集出现次数大于阈值s的项目集 Apriori基本思想 1利用一个层次顺序搜索的循环方法来完成频繁项集的挖掘工作。这一循环方法就是利用k-项集来产生 k+1?项集。具体做法就是：首先找出频繁1-项集，记为L1 ；然后利用L1来挖掘L2 ，即频繁2-项集；不断如此循环下去直到无法发现更多的频繁k-项集为止。 2每挖掘一层就需要扫描整个数据库一遍。 5.7．4．1.0 抽样算法算法步骤对数据库进行抽样利用apriori算法或其他算法发现抽样样本集合中的大项目集PL 计算PL的负边界 BD-(PL)(本身不在PL中,但其子集都在PL中的最小集合候选集合C=PL ∪BD-(PL) 对数据库进行第一趟扫描,对C中所有候选进行计数.建立大项目集合L, 建立缺失大项目集ML(不在PL中但在L中的大项目) 如果ML为空(所有大项目都在PL中),结束,否则继续重复应用边界函数,直到候选集合不再发生变化(C初值L,大项目集合) C=C ∪BD-(C) 第二次扫描数据库,对C中所有候选进行计数找出大项目集合四 1概念簇：一些相似成员的集合，不同簇中的成员是不相似的簇中两点之间的距离要小于簇中的一点与簇外任意一点之间的距离。质心：指簇的中心，不一定是簇中的一个实际的点。异常点就是指数据机种与其它的点显著不同的样本点异常点挖掘是指在数据集中标识出异常点的过程聚类：定义5.1 给定由一些元组组成的数据库D={t1,t2,…,tn}和整数值k，则聚类问题就是定义一被映射到该簇中的元组组成，即Kj ={ti|f(ti)=Kj，1≤j≤k，ti∈D}。 2簇之间距离计算方法单连接全连接平均质心中心点 3⑴凝聚层次法聚类(单连接) 距离测量采用最常用的欧式距离聚类的过程为：初识每个数据元组为一簇,设定距离小于阈值min 找出出距离小于min且距离最近的两个簇进行聚类.重复该工作执导找不到可以合并的簇。 ⑵划分算法K-均值聚类算法步骤如下：选择一个含有随机选择样本的k个簇的初始划分，计算这些簇的的平均值。根据距离把每个样本重新分配到距离它最近的簇。计算被分配到每个簇的样本的均值向量。重复2，3直到k个簇的质心点不再发生变化或准则函数收敛。 ⑶大型数据库聚类 BIRCH应用于大型数据库的步骤产生初始CF树；应用聚类算法对所有叶结点进行聚类。通过将所有点分配到离自身最近的点质心所代表的簇中，实现重新聚四章决策树在这个数据集上计算age， student， credit rating的信息增益比 H(D)=5/14log（14/5）+9/14log（14/9）=0.3571*0.4471+0.6829*0.191