数据智能与应用 (15).pptVIP

  • 2
  • 0
  • 约小于1千字
  • 约 9页
  • 2024-03-26 发布于陕西
  • 举报

3.6分类算法3.6.1应用场景1.文字识别2.广告点击预测3.垃圾邮件分类4.植物识别浙大校友研发的一款可以识别植物的APP垃圾邮件/短信的识别

3.6分类算法3.6.1常用算法应用场景常用算法名称适用问题生成/判别模型感知机二分类判别K-近邻多分类判别逻辑回归二分类判别支持向量机二分类判别决策树多分类判别集成方法二分类判别朴素贝叶斯多分类生成隐马尔可夫模型标注生成

3.6分类算法3.6.1常用算法生成模型判别模型学习目标:X,y的联合分布概率学习目标:X,y的条件分布概率

3.6分类算法3.6.1逻辑回归正例反例2.sigmoid函数适用于二分类3.从sigmoid推广到softmax用于多分类1.用线性回归的思想做分类Sigmoid函数

3.6分类算法3.6.1逻辑回归决策边界sigmoid判别结果则判定为正例则判定为反例

3.6分类算法3.6.1逻辑回归优点1.实现简单,广泛的应用于工业问题上;2.分类时计算量非常小,速度很快,存储资源低;3.便利的观测样本概率分数;4.计算代价不高,易于理解和实现。缺点1.当特征空间很大时,逻辑回归的性能不是很好;2.容易欠拟合,一般准确度不太高;3.不能很好地处理大量多类特征或变量;4.模型需要线性可分,对于非线性特征,需要进行转换。

3.6分类算法3.6.2k最近邻kNN类别1样本类别2样本待分类样本kNN适用于多分类通过最近的k个已知样本来确定待分类样本的类别k=3k=5

3.6分类算法3.6.2k最近邻kNN曼哈顿距离欧式距离K值的选取

3.6分类算法3.6.2k最近邻kNNKNN算法优点模型好理解,易于实现只需保存训练样本和标记,无需估计参数,无需训练KNN算法缺点对k的取值较为敏感当样本不平衡时,新样本的类别偏向训练样本中数量占优的类别,容易导致预测错误对内存要求较高,因为该算法存储了所有训练数据

文档评论(0)

1亿VIP精品文档

相关文档