- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
术语、任务、方法、步骤
5.2.6 标准化数据 一些算法要求在实施算法之前把数据进行标准化。标准化的方法是减去均值再除以标准差。 5.数据准备 5.2预处理数据和清理数据 5.3 划分数据 在有约束学习算法里,预测或分类模型在用于新数据时效果如何评价? 我们对比较各种模型的性能特别感兴趣,因为这样我们就可以选择一个最佳的模型装配到实际系统中。 选择在现有数据上对结果变量进行分类或预测表现最好的模型,这个策略是最好的吗? 5.数据准备 5.3.1 训练数据 通常是划分出的最大数据集合,这部分数据用于建立我们要考察的各种模型。这些模型通常是建立在同一个训练数据集合上。 5.3.2 验证数据 这部分数据用于评价每一个模型的性能,你可以比较这些模型并选择一个最佳模型。 5.3 划分数据 5.数据准备 5.3.3 测试数据 这一部分数据是用于评价被选择的最佳模型在新数据上的性能。 为什么既有验证数据还要有测试数据呢?当我们使用验证数据比较多个模型并挑选出在验证数据上表现最好的模型时,我们有遇到了过分拟和问题-有可能被选择模型刚好对验证数据匹配最好。 5.数据准备 5.3 划分数据 6.建立模型-线性回归的一个例子 目的 预测波士顿居民区域的房屋中间值。 2. 获取数据 我们将使用波士顿房屋统计数据。因为给出的数据集合很小,所以我们不需要从中采样――我们可以把数据全都用上。 3. 探索、清理、和预处理数据 首先我们要注意变量(犯罪率、每套房子的房间数、等等)的描述以确保我们完全理解它们。 表2.2:波士顿房屋统计数据变量解释 变量名称 变量描述 犯罪率 人口平均犯罪率 庭院面积 庭院面积超过25000平方英尺的比例 非商业占地 非零售业占地的比例 靠近河流 查尔斯河标志变量(=1,该区靠河;=0,不靠河) 氧化氮 氧化氮浓度(1/千万) 房间数 套房间数 老房比率 1940年前房屋有房主居住的比例 上班距离 到波士顿5个就业中心的加权距离 交通方便度 进入辐式高速公路的难易指数 税率 每1万美元的全值财产税率 小学师生比 小学师生比例 黑人集中度 1000(Bk - 0.63)2,Bk=黑人比例 低收入比例 低收入人口比例 中位数 房主居住房屋的中间值(单位:千美元) 4. 精简数据和把它划分成训练、验证以及测试数据块 我们的数据只有13个变量,因此不需要数据精简。如果我们有更多的变量,在这个阶段我们可能会使用如主成分分析的数据精简技术把多个简单变量压缩为较少数量的变量。 我们将把在总的数据里按照随机方式选择了2块数据:训练数据和验证数据。训练数据设为80条,验证数据设为40条(读者可以随意地设置数据分块方式以及各数据块的大小) 6.建立模型-线性回归的一个例子 5. 决定数据挖掘任务 在这个例子里,如上所述,就是用13个预测变量去预测住房的中间值。 6. 选择技术 在本例,就是多元线性回归。 7. 用算法去执行这个任务 在完成数据划分之后,点击数据分块界面下方的预测按钮,待预测界面弹出之后,选择一些变量作为预测变量,一个变量作为结果变量。在我们的例子里,前面13个变量为预测变量,中位数变量被选作结果变量(或者输出变量) 6.建立模型-线性回归的一个例子 8. 解释各算法的结果 在此阶段,我们通常会尝试其它预测算法(例如,回归树),以观察它们产生误差的大小。我们也会尝试改变各个模型的参数设置以选择精简的变量集合,这一变量集合可能使得模型在验证数据上工作效果更好 。 9. 应用模型 在最佳模型选出来之后,把它用在新数据上以预测记录里没有中间值的房屋中间值。这当然是总的目标。 6.建立模型-线性回归的一个例子 术语、任务、方法、步骤 讲课内容纲要 数据挖掘常用术语 数据挖掘的任务 机器学习方法 数据挖掘的步骤 数据准备 应用举例 “算法”指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。 “属性”也被称为“特性”、“变量”、或者从数据库的观点,是一个“域” 。 “个体”是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、或者“行”(每一行通常代表一个记录,每一列代表一个变量)。 1常用术语 “置信度”在形如“如果买了A和B,就要买C”的关联法则里有特定的含义。置信度是已经买了A和B,还要买C的条件概率。 在统计学里,关于选择不同的随机样本导致的估计值的误差大小,置信度有更广泛的含义。 “因变量”在有约束学习里是那个被预测的变量;也被称作“输出变量”、“目标变量”、或者“结果变量”。 1常用术语 “估计”指的是预测一个连续型输出变量的值;也被称作“预测”。 “特征”也被称作“属性”、“变量”,或者从数据库的观点,称为“域”。
您可能关注的文档
最近下载
- 食材配送服务质量保证措施.pdf VIP
- 2025高考全国二卷语文真题试卷+解析及答案.docx VIP
- 气瓶充装安全风险管控清单.docx
- 人教版小学数学新教材培训心得体会.docx VIP
- 2025年广东兴业银行广州分行社会招聘笔试备考试题及答案解析.docx VIP
- 反洗钱法及受益所有人信息管理办法知识测试试卷.docx
- 货币金融学(第十二版)PPT课件(全).pptx VIP
- 2025年浙江省农村发展集团有限公司招聘笔试备考试题及答案解析.docx VIP
- 2025年职业技能大赛(电工赛项)理论考试题库500题(含答案).docx VIP
- 2025年大学英语四级词汇(乱序版).pdf VIP
文档评论(0)