- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
线性回归与分类
线性回归与分类
PAGE / NUMPAGES
线性回归与分类
线性回归与线性分类
线性回归
在温洲的一个房产网()我弄到了下面的一些数据:
现在我们以横轴表示房子面积,纵轴表示房子价格,画到坐标轴上:
现在问题来了, 我想要一套 200 平方米的房子价格大概是多少呢这时在数据表中我又找不到到对应的数据。那么这时就要做线性回归分析了。如下图找到下面这样的一条直线,使图中的所有点到直线的距离最小(即使误差最小)。
下面我们用数学语言来表达“使图中的所有点到直线的距离最小”这句话。
图中的(面积,价格)可以用坐标点 (Xi,Yi)表示。数学中的直线方程解析式为:
y=kx+b,现在我们用机器学习里的表达方式如下 :
y=b+wx (在机器学习中 b 叫偏至, w 叫超越平面参数)
这样的表达还不够统一,不方便计算,写成下式:
y’=w’x’,(w ’=[1,w] x’=[1,x]).
现在我们继续把上面改写成向量形式, 以便于推广到 N 维形式,改写成正式:
“使图中的所有点到直线的距离最小”用数学的语言描述如下:
上式叫误差平方和式,写成向量形式如下:
我们的目标是使 J(W)最小,上式对 W 求导得:
W 就是我们要求的结果了。把 200 平方米的代入式( 1)就得到我们的估计
房价了
这里的解有一个陷阱,不知道大家知道了没有。在分类问题中,我会提出一种要求更低的解决算法,即著名的感知机算法。
线性分类
什么是分类呢下面我列出一些实际的分类任务如下:
识别图像中的人脸,非人脸。
识别正常邮件,垃圾邮件。
识别信贷中的正常行为,欺诈行为。
入侵检测中的系统的的 正常访问 跟非法访问。
一些符号说明如下:
以下图的两类分类问题为例,样本点的类别是已知的,并且两类样本点是线性可分的,
定义映谢:
求分类平面
使得:
为了便于计算,对 (2)式进行扩展,定义:
所以式 (2)式又可以简化为:
分类平面应该尽可能的把两类点集分开,即,使下式的平方误差最小:
依照回归的例子,我们有同样的结论:
上面的解要求
是正定的,也就是可逆的。现中的数据往往会不满足这一条件。
还好有个万金有的方法,梯度下降算法,梯度下降算法能得到局部最优解。
我们先看一下,一元二次函数:
通过对上式求一阶导数,得到一下最优解:
X=-b/(2a)处是方程的一个最优解
现在我们随机给定一个初始的 x,要经过怎么样的过程,或没什么方向才能靠近
-b/(2a)这个解答案就是没着,曲线 y 的梯度下降方向。
函数:
那么梯度定义如下:
算法的迭代式如下:
回到我们的问题也就是:
n 是学习速率, n 一般取 ~,一般我们会设定一个最大的迭次系数。
过大会过快收敛,不利于达到局部的最优解,太小又会收敛太慢。下面看一元二次函数应用的例子:
二值分类例子:
代码说明:
回归例子
一元二次函数例子
二值分类例子
您可能关注的文档
最近下载
- 《城镇排水管道检测与评估技术规程》.pdf VIP
- 统编版《道德与法治》六年级下册第8课《科技发展 造福人类》精品课件(含视频).pptx
- 2025年党支部书记学习教育专题党课中央八项规定专题党课讲稿(严守中央八项规定精神,争做新时代合格党员;从中央八项规定精神看党员干部的责任与担当).docx VIP
- 3.3 探秘澜沧江—湄公河流域的河流地貌课件高中地理鲁教版(2019)必修一.pptx
- GB50666-2011混凝土结构工程施工规范.doc VIP
- 现代畜牧业发展理论与实践(畜牧业发展历程).ppt VIP
- 座便器检验报告.pdf
- 线上音乐特色作业说民乐-奏民乐设计.docx VIP
- QB∕T 5362-2019 玻璃器皿单位产品能源消耗限额(可复制版).pdf
- TCESA 1177-2021 非结构化数据应用分级要求.pdf VIP
文档评论(0)