- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
LLMs损失函数篇
来自:AiGC面试宝典
宁静致远2024年01月28日13:20
•LLMs损失函数篇
•一、介绍一下KL散度?
•二、交叉熵损失函数写一下,物理意义是什么?
•三、KL散度与交叉熵的区别?
•四、多任务学习各loss差异过大怎样处理?
•五、分类问题为什么用交叉熵损失函数不用均方误差(MSE)?
•六、什么是信息增益?
•七、多分类的分类损失函数(Softmax)?
•八、softmax和交叉熵损失怎么计算,二值交叉熵呢?
•九、如果softmax的e次方超过float的值了怎么办?
一、介绍一下KL散度?
KL(Kullback-Leibler)散度衡量了两个概率分布之间的差异。其公式为:
二、交叉熵损失函数写一下,物理意义是什么?
交叉熵损失函数(Cross-EntropyLossFunction)是用于度量两个概率分布之间的差异的一种损失函数。在分类
问题中,它通常用于衡量模型的预测分布与实际标签分布之间的差异。
注:其中,p表示真实标签,q表示模型预测的标签,N表示样本数量。该公式可以看作是一个
基于概率分布的比较方式,即将真实标签看做一个概率分布,将模型预测的标签也看做一个概率
分布,然后计算它们之间的交叉熵。
物理意义:交叉熵损失函数可以用来衡量实际标签分布与模型预测分布之间的“信息差”。当两个
分布完全一致时,交叉熵损失为0,表示模型的预测与实际情况完全吻合。当两个分布之间存在
差异时,损失函数的值会增加,表示预测错误程度的大小。
三、KL散度与交叉熵的区别?
KL散度指的是相对熵,KL散度是两个概率分布P和Q差别的非对称性的度量。KL散度越小表示两个分布越接近。
也就是说KL散度是不对称的,且KL散度的值是非负数。(也就是熵和交叉熵的差)
•交叉熵损失函数是二分类问题中最常用的损失函数,由于其定义出于信息学的角度,可以泛化到多分类问题
中。
•KL散度是一种用于衡量两个分布之间差异的指标,交叉熵损失函数是KL散度的一种特殊形式。在二分类问题
中,交叉熵函数只有一项,而在多分类问题中有多项。
四、多任务学习各loss差异过大怎样处理?
多任务学习中,如果各任务的损失差异过大,可以通过动态调整损失权重、使用任务特定的损失函数、改变模型
架构或引入正则化等方法来处理。目标是平衡各任务的贡献,以便更好地训练模型。
五、分类问题为什么用交叉熵损失函数不用均方误差(MSE)?
交叉熵损失函数通常在分类问题中使用,而均方误差(MSE)损失函数通常用于回归问题。这是因为分类问题和
回归问题具有不同的特点和需求。
分类问题的目标是将输入样本分到不同的类别中,输出为类别的概率分布。交叉熵损失函数可以度量两个概率分
布之间的差异,使得模型更好地拟合真实的类别分布。它对概率的细微差异更敏感,可以更好地区分不同的类
别。此外,交叉熵损失函数在梯度计算时具有较好的数学性质,有助于更稳定地进行模型优化。
相比之下,均方误差(MSE)损失函数更适用于回归问题,其中目标是预测连续数值而不是类别。MSE损失函
数度量预测值与真实值之间的差异的平方,适用于连续数值的回归问题。在分类问题中使用MSE损失函数可能不
太合适,因为它对概率的微小差异不够敏感,而且在分类问题中通常需要使用激活函数(如sigmoid或softmax)
将输出映射到概率空间,使得MSE的数学性质不再适用。
综上所述,交叉熵损失函数更适合分类问题,而MSE损失函数更适合回归问题。
六、什么是信息增益?
信息增益是在决策树算法中用于选择最佳特征的一种评价指标。在决策树的生成过程中,选择最佳特征来进行节
点的分裂是关键步骤之一,信息增益可以帮助确定最佳特征。
信息增益衡量了在特征已知的情况下,将样本集合划分成不同类别的纯度提升程度。它基于信息论的概念,使用
熵来度量样本集合的不确定性。具体而言,信息增益是原始集合的熵与特定特征下的条件熵之间的差异。
在决策树的生成过程中,选择具有最大信息增益的特征作为当前节点的分裂标准,可以将样本划分为更加纯净的
子节点。信息增益越大,意味着使用该特征进行划分可以更好地减少样本集合的不确定性,提高分类的准确性。
七、
您可能关注的文档
最近下载
- 河北省唐山市丰润区2023-2024学年七年级下学期期中语文试题.docx VIP
- 2021年12月全国大学英语CET四级真题和答案解析(第三套).pdf
- 《微观经济学》教学设计.docx
- 国家开放大学最新《机电控制工程基础》形考任务(1-4)试题及答案解析.pdf VIP
- 《企业财务会计决算》课件.ppt VIP
- 电功和电功率计算题专题练习(含答案解析) .pdf VIP
- 云南省公路工程试验检测费用指导价.doc
- 专题18 热学-五年(2020-2024)高考物理真题分类汇编(解析版).docx
- 建筑工程图集 19DX101-1:建筑电气常用数据.pdf VIP
- 三菱电梯SG-VFA原理图电气原理图纸.pdf
文档评论(0)