- 1、本文档共58页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第3讲:SPSS11.5基础使用
SPSS 基本功能和操作 ;;统计分析的技术思路;统计分析是正确理解数据的工具;描述性统计;变量:测量尺度;数据分析项目各阶段;SPSS软件功能;SPSS产品简介;进入SPSS;SPSS窗口简介;Syntax;SPSS的Help系统;SPSS的环境设置;命令语法规则;利用命令Help;各自适用条件;SPSS的变量;变量和数据整理;变量或数据转换;数据分析和方法;数据分析和图形分析,展示;有用的工具;汇总
数据 ;汇总数据;描述统计测定指标;保留语法-下次再作——研究痕迹;频数分析;描述性分析;A;探索数据关系
EXPLORING RELATIONSHIPS
定类变量交互分析CATEGORICAL DEPENDENT VARIABLES
连续变量趋势图分析CONTINUOUS DEPENDENT VARIABLES
相关和散点图分析RELATIONSHIPS BETWEEN INDEPENDENT VARIABLES;计算新变量;对变量重新赋值;字符型变量自动转换为数值型变量;Do if … else if Logistic;图形模块的应用;表格编辑规则;表属性;SPSS结果的发布;文件的合并----增加记录和变量;定义商业问题 ;理解商业问题 ;性别;家庭收入;数据质量评估;资料清理;还有一个不是很常用的方法是按照数据库中值的分布规律为缺值的字段添值。比如如果数据库中包含40%男性和60%女性,那么在为那些性别缺失的记录添值时也按这个比例随机赋值。
还有一种方法是为这个缺失值的字段用统计分类和预测技术建立一个预测模型,然后按照这个模型的预测结果添值,这种方法效果应该最好,当然也最花时间。
承认生活并不是十全十美是必要的,数据分析也是一样,你也不可能解决所有遇到的问题,只能做得尽量好一点。
检查和修正数据质量问题是一项非常耗费时间和金钱的工作,对解决不了的问题,通常你只能采取折衷的办法,先用现有的资料分析,把问题放到将来去解决。;进行“描述型分析”以获得更详细的关于可视化、描述性统计量、频数分析、关联分析、交叉分析、连结分析及其它资料分析方法。
分析的目的是找到对预测输出影响最大的数据域和变量,并决定是否需要定义转换和导出新的字段(变量)。
如果资料集包含成百上千的字段,那么浏览分析这些资料将是一件非常耗时和累人的事情,这时你需要选择一个具有好的接口和功能强大的工具软件来协助你完成这些事情。
;理想情况下,你可以选择拥有的所有变量;
把他们输入到统计分析工具中,让他来帮你选择哪些是最好的预测变量。
实际上这样做并不是很好:一方面是由于随着变量个数的增加,模型的建立时间也随之上升;另一方面盲目的把所有的变量都加进去会导致建立错误的模型。比如,建立预测模型的一个常见错误就是把一个依赖于目标变量的变量(由目标变量导出)作为预测变量,像用生日来“预测”年龄。
在原理上说,一些数据算法自动忽略不相关的变量、自动计算相关的(协)变量;
在实际应用中完全依赖这些工具是不明智的,毕竟最了解你的资料的还是你自己。
利用你的领域知识,你会做出大部分正确的选择。例如,用身份证号或人名做预测变量要么不会有任何用处,甚至降低了其它重要变量的影响力。 ;与选择变量类似,你可能也想用你所有的记录来建立模型,然而如果你的资料量确实非常巨大的话,要么要花费很长的时间来建立这个模型,要么买一台计算能力非常强大的机器。
因此,如果资料量特别大,进行抽样就是一个很好的主意。如果做的足够仔细,保证抽样是按真正的随机来进行的,抽样对大部分商业问题来说都不会丢失信息。
你可以用所有的资料建立一个模型;
你还可以用抽样的方法根据不同得抽样方法建立几个模型,然后评价这几个模型选择一个最好的。
我们认为后面这种方法得到的方法更准确、更健壮。
你可能选择资料中明显的异常资料删除掉。然而在某些情况下,这些看来异常的资料可能包含了你要建立模型的重要信息。基于你对问题的理解方式的不同,通常可以把这些异常忽略掉。比如可以把异常认为是人为的录入错误。
有时也需要向资料中添加一些新的资料(如,那些没有做出购买的客户)。
;很多情况下需要从原始资料中衍生一些新的变量作为预测变量。
比如,用话费额度占收入的百分比来预测信用风险比直接用话费额度和收入做预测变量更准确一些,也更容易理解一些。
很多变量如果组合起来(加、减、比率等)会比这些变量自身影响力更大。
一些变量如果扩大它的范围也会成为一个非常好的预测变量,比如用一段时间内话费变化情况代替一个单一的话费资料。
;对建立模型来说要记住的最重要的事是它是一个反复的过程。
需要仔细考察不同的模型以判断哪个模型对你的商业问题最有用。
你在寻找好的模型的过程中学到的的东西会启发你修改你的资料,甚至改变最初对问题的定义。
一旦决定了预测的类型之后(分类还??
文档评论(0)