- 0
- 0
- 约4.62千字
- 约 8页
- 2026-01-21 发布于上海
- 举报
机器学习逻辑回归模型推导
引言
在机器学习的分类任务中,逻辑回归(LogisticRegression)是最基础却至关重要的模型之一。它虽名为“回归”,却主要用于解决二分类问题,广泛应用于疾病诊断、信用评估、用户行为预测等场景。与线性回归直接预测连续值不同,逻辑回归通过引入非线性变换,将线性模型的输出映射到概率空间,从而实现对类别概率的估计。要深入理解这一模型的核心能力,关键在于掌握其数学推导过程——从模型形式的假设,到参数估计的方法选择,再到优化算法的实现逻辑。本文将沿着“问题提出-模型构建-参数求解-算法优化”的脉络,逐步展开逻辑回归模型的完整推导。
一、从线性回归到逻辑回归:模型假设的演进
(一)线性回归在分类问题中的局限性
在机器学习的基础框架中,线性回归是处理连续型目标变量的经典模型,其核心假设是“输出变量是输入特征的线性组合”,即通过公式(y=w^Tx+b)描述输入(x)与输出(y)的关系。然而,当面对分类问题(如判断邮件是否为垃圾邮件、用户是否会购买产品)时,目标变量(y)是离散的类别标签(通常取0或1),直接应用线性回归会遇到两个关键问题:
其一,线性回归的输出范围是全体实数,而分类任务需要的是样本属于某一类别的概率(取值在[0,1]区间)。若强行用线性模型预测概率,当输入特征的线性组合超出[0,1]范围时,模型会给出不合理的概率值(如负数或大于1的数),这显然不符合概率的基本定义。
其二,线性回归的损失函数(如均方误差)在分类场景下不具备良好的优化特性。由于类别标签是离散的0-1值,线性回归的预测值与真实值的误差会集中在两个点上,导致损失函数的梯度变化不平稳,模型难以有效学习到类别边界。
(二)逻辑回归的核心假设:概率的对数优势比线性
为解决上述问题,逻辑回归引入了“概率的对数优势比(LogOddsRatio)”这一概念。优势比(Odds)指样本属于正类的概率(P(y=1|x))与属于负类的概率(P(y=0|x))的比值,即(=)。对数优势比则是对这一比值取自然对数,得到((P)=())。
逻辑回归的核心假设是:对数优势比与输入特征的线性组合成正比,即(()=w^Tx+b)。这一假设巧妙地将线性模型的输出(实数范围)与概率([0,1]区间)联系起来——通过对数优势比的线性关系,既保留了线性模型的简洁性,又将输出约束到概率空间。
(三)Sigmoid函数的引入与模型形式确定
基于对数优势比的线性假设,我们可以将概率(P(y=1|x))显式表达出来。对等式两边取指数并整理,得到(=e{wTx+b}),进一步变形可得(P=),这就是Sigmoid函数(也称为逻辑函数)的形式:((z)=),其中(z=w^Tx+b)。
Sigmoid函数的选择并非偶然,它具有两个关键特性:其一,其输出范围严格在(0,1)之间,符合概率的取值要求;其二,函数是单调递增的,输入(z)越大,输出概率越接近1;输入(z)越小,输出概率越接近0,这与分类任务中“输入特征越强,正类概率越高”的直觉一致。因此,逻辑回归的最终模型形式可表示为:
当((w^Tx+b))时,预测为正类(y=1);否则预测为负类(y=0)。这里的0.5是常用的分类阈值,实际应用中可根据具体任务调整。
二、从概率假设到参数估计:最大似然估计的推导
(一)似然函数的构造:基于独立同分布假设
模型形式确定后,下一步是估计参数(w)和(b)(通常将(b)合并到(w)中,通过增加一个常数特征项(x_0=1)实现)。机器学习中常用的参数估计方法是最大似然估计(MaximumLikelihoodEstimation,MLE),其核心思想是:找到一组参数,使得观测到的样本数据出现的概率最大。
假设我们有(n)个独立同分布的训练样本({(x_1,y_1),(x_2,y_2),…,(x_n,y_n)}),其中(y_i{0,1})。对于每个样本(x_i),其属于正类的概率为(p_i=(w^Tx_i)),属于负类的概率为(1p_i)。由于样本独立,所有样本的联合概率(即似然函数)是各个样本概率的乘积:
(L(w)=_{i=1}^n[p_i^{y_i}(1p_i)^{1y_i}])
(二)对数似然函数的转换:简化乘积运算
直接最大化似然函数(L(w))涉及多个小数的连乘,计算时容易出现数值下溢(即结果趋近于0,导致计算机无法精确表示)。为解决这一问题,通常对似然函数取自然对
您可能关注的文档
- 2025年数据科学专业认证(CDSP)考试题库(附答案和详细解析)(1218).docx
- 2025年注册地质工程师考试题库(附答案和详细解析)(1230).docx
- 2025年艺术品鉴定评估师考试题库(附答案和详细解析)(1225).docx
- 2026年RPA工程师考试题库(附答案和详细解析)(0105).docx
- 2026年临床医学检验技术资格考试题库(附答案和详细解析)(0108).docx
- 2026年侍酒师考试题库(附答案和详细解析)(0108).docx
- 2026年区块链审计师考试题库(附答案和详细解析)(0104).docx
- 2026年国际风险管理师(PRM)考试题库(附答案和详细解析)(0102).docx
- CFA二级“公司金融”资本结构考点.docx
- mRNA技术在肿瘤疫苗中的研发进展.docx
最近下载
- 2025年半导体封装材料行业市场规模预测报告.docx VIP
- 新高考数学一轮复习讲义 第19讲 三角恒等变换(原卷版).doc VIP
- 【中职语文】中职高考语文文学常识.pdf VIP
- 2025广东广州市南沙区教育局直属事业单位引进少年宫主任1人考试参考试题及答案解析.docx VIP
- 2025年度医院党委领导班子民主生活会“五个带头”对照检查材料.docx VIP
- 医疗美容私密项目综合运营方案.pptx
- 医疗美容私密品相设计方法.pptx
- 水库白蚁防治施工方案.docx VIP
- 2025年中考语文总复习第三部分现实之思专题二非连续性文本读写(核心考点突破).pptx VIP
- 2026年民主生活会在带头强化政治忠诚、提高政治能力、敬畏人民、敬畏组织、敬畏法纪等“五个带头”方面对照检查发言材料(4篇文)供参考.docx VIP
原创力文档

文档评论(0)