python课件与代码数据整理.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* “Orion_profit” * 此处输入答案 此处输入答案 * * data KDD99_LOANS_1; set KDD99_LOANS_1; if operation= then operation=其它; if operation=从他行收款 then index=trans_id1; if operation=汇款到另一家银行 then index=trans_id2; if operation=信贷资金 then index=trans_id3; if operation=信用卡借方 then index=trans_id4; if operation=支取现金 then index=trans_id5; if operation=其它 then index=trans_id6; run; * * * * * * * WIDETABLE * * * * * 拆分列任务 确定输出表的存储名称和位置 如果勾选,可以在值标识符列的取值前加上一个指定的前缀,这可以避免列名不符合SAS命名要求,但是该功能不常使用,因为我们要保证选择更有意义的变量充当该角色。 练习 继续上例,现需要得到客户在获得贷款前1年内不同业务的平均额度情况,并将两份数据合并。 堆叠列任务 该任务是拆分列的逆操作,使用表“WIDETABLE”完成以下操作。 堆叠列任务 用此处的列构建 一行或多行 堆叠列任务 以此处的列为基础堆叠成子组 堆叠列任务 原表中month1的属性 堆叠列任务 命名存放堆叠变量名称的列 创建简单查询 纵向连接表 横向连接表 对数据分组和汇总 重组 个案排秩 变量归一化与分布转换 在进行多元统计分析是,进行适当的变量归一化是得到优良结果的前提条件,部分多元统计方法(主成分、因子分析、聚类等)提供默认的归一化方法,但不能满足数据分布多样化的需求。 变量转换有两种: 消除量纲但是不改变分布(归一化) :中心标准化、极差标准化; 同时消除量纲与改变分布:对数、百分位秩、Tukey评分等。 以下使用Profile_telecom数据对其中的cnt_call(通话次数)变量进行归一化。 中心标准化 该归一化方法之前章节讲过,是主成分等分析方法默认的,因此用处不大。 极差标准化 该方法和中心标准化类似,只不过值域为[0,1],该方法没有命令可以完成,只能根据公式编程完成。 原始变量 中心标准化 极差标准化 百分位秩 变量从小到大排序,然后依次赋予序列号,最后用总的样本量除以序列号, 值域[0,100] 。 Tukey正态分布打分 变量取自然对数 数学表达式: SAS函数: 百分位秩 Tukey正态分布打分 变量取自然对数 变量转换总结 正态分布和对称分布的变量使用中心标准化和极差标准化都可以(归一化); 非对称变量选用百分位秩和取对数比较多,尤其是取对数,由于其具有经济学意义,因此使用的最多。 说明:对于右偏的变量,一般而言取对数是不错的处理方法。这部分内容超出授课范围,请参加多元统计中的广义线性模型的原理。 * * * * s105d07 * s105d07 * s105d07 * s105d09 * * 横向连接表操作 3、点击“添加表”,定位到DISP表,点击“打开”后DISP表被添加进来,而且自动起了T2这个别名。打开“连接表”,查看表连接的情况。 横向连接表操作 4、双击连接标识,弹出“连接属性”对话框,默认是内连接,此处改为左连接。 横向连接表操作 4、双击连接标识,弹出“连接属性”对话框,默认是内连接,此处改为左连接。然后点击确定按钮。 横向连接表操作 SAS EG会将两个表中名称相同的列当做连接条件。如果两张表没有找到同名列,则出现如下的提示: 这没有关系,只要在“表和连接”对话框中右击计划建立连接的列,指定建立连接的表和列就可以,如右图所示: 横向连接表操作 5、同样的方法再连接第三张Client表,选择需要展现的变量。 横向连接表操作 刚才操作生成的SQL语言如下: PROC SQL; CREATE TABLE WORK.QUERY_FOR_KDD99_CARD AS SELECT t1.card_id, t1.disp_id, t1.issued, t1.type, t3.sex, t3.birth_date, t3.district_id FROM PKDD99.KDD99_CARD t1 LEFT JOIN PKDD99.KDD99_DISP t2 ON (t1.disp_

文档评论(0)

潮起潮落 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档