数据挖掘模型基础知识培训 .pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘模型基础知识培训 悦岚数猎 悦岚 (上海)数据服务有限公司 二〇一六年三月 DataShire 目前有十个数据挖掘 算法建模,包括:离散化,量化, 线性回归,逻辑回归,里脊回归, ALS推荐,决策树,支持向量机, 朴素贝叶斯,K-Means聚类, 关联规则。下文将对各模型进行 介绍,共十一个模型一一展开: 离散化模型介绍 离散化模型介绍 离散化方法(discretization method)把无限空间中无限的个体映射到有限的空间中去,以此提高 算法的时空效率。即把连续型数据切分为若干“段”,是数据分析中常用的手段。切分的原则有 等距,等频,优化,或根据数据特点而定。 进行离散化的原因: ①算法需要 ②离散化可以有效地克服数据中隐藏的缺陷 ③有利于对非线性关系进行诊断和描述 即使在连续型自变量和目标变量之间的关系比较明确,例如可以用直线描述的情况下,对自变量 进行离散处理也有若干优点。一是便于模型的解释和使用,二是可以增加模型的区别能力。 离散化模型介绍 DataShire中的离散化将连续型变量的取值范围均匀划成n等份,每份的间距相等。模型运 用思路:一个人的年龄一般被认为是连续变量,因为年龄是随着时间而逐渐增加的,为了区分不 同年龄段的客户群体,对不同年龄段的客户进行分析,我们需将客户年龄进行分段,这就需用离 散化方法进行处理,我们可以将客户年龄段分成五组,1-20年龄段的为一组,21-40年龄段的为 一组,…,81- 100年龄段的为一组。我们平台采用此种方法。只需设置好最大离散区间数目,就 可将连续数据分成对应的组进行标记。(此例只是一种思路,不可死板硬套) 注:模型选择要具体情况具体对待,不可随便使用,要经过对比,筛选出比较合适的模型。否则 会对决策造成重大负面影响。 DataShire中离散化模型属性参数设置: 最大离散区间数目:连续数据的分段数。例如,设为n,则将连续数据分成n个区间,每个区 间取相同的值,映射(压缩)到[0,1]区间。 量化模型介绍 量化模型介绍 量化(quantify)是将社会现象与人类行为用数量方式展现出来,进而搜集数据、分析、验证与 解释的研究方法的总称。 在综合评价时,会遇到一些定性指标,通常总希望能给予量化,使量化后的指标可与其它定量指 标一起使用。古典线性回归模型中的经济变量都是定量的变量,但是在经济中也存在许多定性的 变量,如职业、性别、战争、自然灾害、季节等,它们对某些经济变量也有显著影响,那么如何 将这些定性变量引入模型呢?定性变量一般量化都比较困难,但大多定性变量都可区分为不同的 状态.例如学生可区分为小学生、中学生、大学生、硕士研究生、博士生;战争可区分为发生与不 发生;季节可区分为春、夏、秋、冬等等。 量化模型介绍 量化模型介绍 模型运用思路: features中有一个描述距离范围的字段,包含0- 1miles,1-2miles,2-5miles,5- 10miles。对于这样 的字段是不能直接在模型中运行的,这就需将其量化表示。根据上述量化方法,我们假设他们一一 映射为1,2,3,4,即0- 1miles映射为1,1-2miles映射为2,2-5miles映射为3,5- 10miles映射为4 。如 果将量化区间的最大值设为1,量化区间的最小值设为0,那么最终按照压缩比例将0- 1miles,1- 2miles,2-5miles,5- 10miles量化为0.25,0.5,0.75,1 。(此例只是一种思路,不可死板硬套) 注:模型选择要具体情况具体对待,不可随便使用,要经过对比,筛选出比较合适的模型。否则会 对决策造成重大负面影响。 DataShire中量化模型属性参数设置:  根据数据情况,在右侧PROPERTIES面板中基于模型介绍配置模型的属性参数。  量化区间的最大值:即是你所希望得到

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档