- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘模型基础知识培训.doc
数据挖掘模型基础知识培训
数据挖掘模型基础知识培训
悦岚数猎
悦岚(上海)数据服务有限公司
二〇一六年三月
DataShire目前有十个数据挖掘
算法建模,包括:离散化,量化,
线性回归,逻辑回归,里脊回归,
ALS推荐,决策树,支持向量机,
朴素贝叶斯,K-Means聚类,
关联规则。下文将对各模型进行
介绍,共十一个模型一一展开:
离散化模型介绍
离散化方法(discretization method)把无限空间中无限的个体映射到有限的空间中去,以此提高
算法的时空效率。即把连续型数据切分为若干“段”,是数据分析中常用的手段。切分的原则有
等距,等频,优化,或根据数据特点而定。
进行离散化的原因:
①算法需要
②离散化可以有效地克服数据中隐藏的缺陷
③有利于对非线性关系进行诊断和描述
即使在连续型自变量和目标变量之间的关系比较明确,例如可以用直线描述的情况下,对自变量
进行离散处理也有若干优点。一是便于模型的解释和使用,二是可以增加模型的区别能力。
离散化模型介绍
DataShire中的离散化将连续型变量的取值范围均匀划成n等份,每份的间距相等。模型运
用思路:一个人的年龄一般被认为是连续变量,因为年龄是随着时间而逐渐增加的,为了区分不
同年龄段的客户群体,对不同年龄段的客户进行分析,我们需将客户年龄进行分段,这就需用离
散化方法进行处理,我们可以将客户年龄段分成五组,1-20年龄段的为一组,21-40年龄段的为
一组,…,81-100年龄段的为一组。我们平台采用此种方法。只需设置好最大离散区间数目,就
可将连续数据分成对应的组进行标记。(此例只是一种思路,不可死板硬套)
注:模型选择要具体情况具体对待,不可随便使用,要经过对比,筛选出比较合适的模型。否则
会对决策造成重大负面影响。
DataShire中离散化模型属性参数设置:
最大离散区间数目:连续数据的分段数。例如,设为n,则将连续数据分成n个区间,每个区
间取相同的值,映射(压缩)到[0,1]区间。
离散化模型介绍
量化模型介绍
量化(quantify)是将社会现象与人类行为用数量方式展现出来,进而搜集数据、分析、验证与
解释的研究方法的总称。
在综合评价时,会遇到一些定性指标,通常总希望能给予量化,使量化后的指标可与其它定量指
标一起使用。古典线性回归模型中的经济变量都是定量的变量,但是在经济中也存在许多定性的
变量,如职业、性别、战争、自然灾害、季节等,它们对某些经济变量也有显著影响,那么如何
将这些定性变量引入模型呢?定性变量一般量化都比较困难,但大多定性变量都可区分为不同的
状态.例如学生可区分为小学生、中学生、大学生、硕士研究生、博士生;战争可区分为发生与不
发生;季节可区分为春、夏、秋、冬等等。
量化模型介绍
量化模型介绍
模型运用思路:
features中有一个描述距离范围的字段,包含0-1miles,1-2miles,2-5miles,5-10miles。对于这样
的字段是不能直接在模型中运行的,这就需将其量化表示。根据上述量化方法,我们假设他们一一
映射为1,2,73,4,即0-1miles映射为1,1-2miles映射为2,2-5miles映射为3,5-10miles映射为4。如
果将量化区间的最大值设为1,量化区间的最小值设为0,那么最终按照压缩比例将0-1miles,1-
2miles,2-5miles,5-10miles量化为0.25,0.5,0.75,1。(此例只是一种思路,不可死板硬套)
注:模型选择要具体情况具体对待,不可随便使用,要经过对比,筛选出比较合适的模型。否则会
对决策造成重大负面影响。
DataShire中量化模型属性参数设置:
?? 根据数据情况,在右侧PROPERTIES面板中基于模型介绍配置模型的属性参数。
?? 量化区间的最大值:即是你所希望得到的量化数值的取值范围的上限。
?? 量化区间的最小值:即是你所希望得到的量化数值的取值范围的下限。
量化模型介绍
梯度下降算法
梯度下降法通过迭代更新来逐步进行的参数优化方法,最终结果为局部
最优。通过多次运算可以达到全局最优。
θi会向着梯度最小的方向进行减少。θi表示更新之前的值,-后面的
部分表示按梯度方向减少的量,α表示步长,也就是每次按照梯度减
少的方向变化多少。
梯度下降算法
线性回归模型介绍
线性回归,是利用数理统计中回归分析,来确定两种或两种以上变量
间相互依赖的定量关系的一种统
您可能关注的文档
- 组织动态达标培训创建学习型企业.doc
- 浅析发展期的房地产企业品牌管理.doc
- 传统建材新营销受电子商务营销渠道冲击.doc
- 招商人员培训计划.doc
- 天连锁酒店人事支持中心相关管理规定.doc
- 烟草公众服务平台培训.doc
- 灰色品牌效用与消费者间的经济分析.doc
- 施工企业安全培训塔吊事故.doc
- QMS training for Lowe’s Supplier.doc
- 浙江注协选拔注册会计师赴比利时参加反倾销培训.doc
- 2025年鸡西市麻山区公益性岗位招聘8人(公共基础知识)测试题附答案.docx
- 杭州之江湾股权投资基金管理有限公司招聘参考题库附答案.docx
- 2026江苏辖区农村商业银行常熟农商银行校园招聘200人(公共基础知识)测试题附答案.docx
- 2025年中国石油新疆油田分公司秋季高校毕业生招聘360人(公共基础知识)综合能力测试题附答案.docx
- 2023年攀枝花市直属机关遴选公务员笔试真题汇编附答案解析(夺冠).docx
- 2026广发银行太原分行校园招聘(公共基础知识)测试题附答案.docx
- 2025四川成都医学院招聘事业编制辅导员10人(公共基础知识)测试题附答案.docx
- 2026年毛概期末考试试题库必考题.docx
- 2025年合肥市某国有企业2025年岗位外包招聘(公共基础知识)测试题附答案.docx
- 2026年重庆青年职业技术学院单招(计算机)测试模拟题库附答案.docx
原创力文档


文档评论(0)