- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第5章 数据挖掘算法基础;;分类算法构造一个分类模型,模型的输入为样本的属性值,输出为对应的类别,将每个样本映射到预先定义好的类别。
回归算法则是建立两种或两种以上变量间相互依赖的函数模型,然后使用函数模型预测目标的值。
;常用的分类与回归算法:
; 对于分类模型的评价,常用的模型评价指标包括了准确率、精确率、反馈率、混淆矩阵和ROC曲线等。
;准确率
准确率(Accuracy)是指预测正确的结果所占总样本的百分比:
错误率
错误率(Fallibility)是指预测??误的结果所占总样本的百分比:
;精确率
精确率(Precision)是指所有被预测为正的样本中实际为正的样本的概率:
反馈率
反馈率(Recall)是指实际为正样本预测为正样本占实际为正样本的总数概率:
;
; 对于回归模型,常用的模型评价指标包括了绝对误差与相对误差、误差分析中的综合指标(平均绝对误差、均方误差、均方根误差)、平均绝对百分误差和Kappa统计量等。
绝对误差(Absolute Error):
相对误差(Relative Error):
平均绝对误差(Mean Absolute Error,MAE):
;均方误差(Mean Squared Error,MSE):
均方根误差:
平均绝对百分误差:
;Kappa统计
Kappa统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,将由随机造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。
Kappa取值在区间[-1,1]内,其值的大小均有不同意义,具体如下:
当Kappa=1时,说明两次判断的结果完全一致。
当Kappa=-1时,说明两次判断的结果完全不一致。
当Kappa=0时,说明两次判断的结果是随机造成。
当Kappa0时,说明一致程度比随机造成的还差,两次检查结果很不一致,在实际应用中无意义。
当Kappa0时,说明有意义,Kappa愈大,说明一致性愈好。
当 时,说明已经取得相当满意的一致程度。
当 Kappa0.4时,说明一致程度不够。
; 对于由d个属性组成的样本集 , 其中 是 在第 个属性上的取值,线性模型即通过学习得到一个属性的线性组合来预测样本标签的函数:
其中, 表示回归系数的集合,其中回归系数 表示属性在预测目标变量时的重要性,b为常数。; 使用scikit-learn库中linear_model模块的LinearRegression类可以建立线性回归模型,其基本使用格式和常用参数描述如下:
class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X = True, n_jobs = 1)
; 逻辑回归是一种广义的线性回归模型,但实际是逻辑回归是一个分类算法。具体的分类方法:设定一个分类阈值,将预测结果 大于分类阈值的样本归为正类,反之归为反类。
其中, 的取值范围是 , 与线性模型中的一致。; 逻辑回归模型的建模步骤:
; 使用scikit-learn库中linear_model模块的LogisticRegression类可以建立逻辑回归模型,其语法格式和常用参数描述如下:
class sklearn.linear_model.LogisticRegression(penalty = l2, class_weight = None, random_state = None, solver = liblinear, max_iter = 100); 决策树是一树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。;决策树;用于评价拆分分类目标变量的纯度度量包括:
熵(entropy,信息量)
信息增益(Gain)
信息增益率
基尼(Gini,总体发散性)
改变拆分准则(splitting criteria)导致树的外观互不相同。
; 常用的决策树算法:;决策树;决策树; 如果数据集D中共有N类样本,出现的概率分别为
您可能关注的文档
最近下载
- 五恒系统方案书.pdf VIP
- 全套干扰峰分析图解析.docx
- 第十五讲新时代与中华民族共同体建设(2012— -中华民族共同体概论专家大讲堂课件.pdf VIP
- 种植施肥机械——栽植机械(水稻钵苗栽植机械)课件讲解.pptx VIP
- 企业工会助推企业高质量发展.docx VIP
- 施工技术管理措施.doc VIP
- 第六章维生素与辅酶.ppt VIP
- DB65T 4063-2017 沙化土地封禁保护区沙障技术技术工程.pdf VIP
- 2026江苏辖区农村商业银行泗阳农村商业银行校园招聘15人笔试备考试题及答案解析.docx VIP
- 种植施肥机械——栽植机械(水稻插秧机)课件讲解.pptx VIP
文档评论(0)