classification e 数据仓储与数据挖掘 典型实例.pptVIP

classification e 数据仓储与数据挖掘 典型实例.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
classification e 数据仓储与数据挖掘 典型实例.ppt

本讲内容 k-NN分类 预测 分类的准确性 k-Nearest Neighbors Definition: Given a query point p, and a distance function dist(), let qk be a point in the database such that count( {q| dist(p,q) =dist(p,qk), q ?D} ) = k-1 The k-nearest neighbors of p are all points q such that dist(p,q) = dist(p,qk) p qk k=10 k-NN分类 每个训练样本都看作n维空间中的一个点。 给定一个未知样本(类似于查询点q), 首先找到该样本的k个近邻,将这k个近邻按照类标号进行分组,未知样本最终被分到组员最多的那个组。 本讲内容 k-NN分类 预测 分类的准确性 What Is Prediction? Prediction is similar to classification First, construct a model Second, use model to predict unknown value Major method for prediction: regression Linear and multiple regression Non-linear regression Prediction is different from classification Classification refers to predict categorical class label Prediction models continuous-valued functions Linear regression 在线性回归中,数据用直线建模。是最简单的回归形式。 双变量回归将一个随机变量Y(称作响应变量)视为另一个随机变量X(称为预测变量)的线性函数。即: Y = ? + ?X 其中,?和?是回归系数 建模的过程主要是求回归系数,常用的方法: 最小二乘法 用最小二乘法求回归系数 给定s个样本或形如(x1,y1), (x2,y2),…, (xs,ys)的数据点,回归系数?和?可以用下式计算: 其中,是x1, x2 ,.., xs的平均值,而 是y1, y2 ,.., ys的平均值。 与其它复杂的回归方法相比,线性回归常常给出很好的近似。 用最小二乘法求回归系数:例子 用方程Y = ? + ?X表示年薪和工作年数之间的关系。 给定左图数据,计算出 = 9.1, = 55.4。 用最小二乘法求回归系数:例子 用k-NN进行线性回归 给定样本x, 根据训练集求出它的k个近邻,则: multiple regression 多元回归是线性回归的扩展,涉及多个预测变量。 响应变量Y可以是一个多维特征向量的线性函数。 基于两个预测属性或变量X1和X2的多元回归模型的例子是 最小二乘法同样可以用在这里求解?,?1和?2 Non-linear regression 通过在基本线性模型上添加多项式项,多项式回归可以用于建模。 通过对变量进行变换,可以将非线性模型转换成线性的,然后用最小二乘法求解。 Non-linear regression 例 下面的三次多项式 通过定义如下新变量: X1 = X X 2 = X 2 X 3 =X 3 可以转换成线性形式,结果为: 本讲内容 k-NN分类 预测 分类的准确性

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档