- 2
- 0
- 约3.36千字
- 约 10页
- 2019-04-02 发布于湖南
- 举报
Clementine数据读入与集成
内容索引 变量类型 数据读入 生成实验方案数据 数据集成 变量类型(DM角度) 连续数值型(Range):如年龄 离散数值型(Discrete):如家庭人口数 实例化后,转为二分或多分类型。 二分类型(Flag):如性别 多分类型(Set):如职业 定序型(Ordered Sets):如学历和收入水平 缺省型(Default):尚未明确的变量类型 无类型型(Typeless):文字等复杂数据的变量,通常不参与建模。 非实例化变量:仅指定名称,未输入或读入具体变量值,系统默认缺省型。 实例化:系统根据所输入数据自动将缺省型改为上述其他类型,称变量实例化。 数据读入 源选项卡支持读入数据 自由格式文本文件 固定格式文本文件 Spss数据文件 SAS数据集 Excel电子表格 数据库文件等 读自由格式文本文件 使用“可变文件”节点 该节点没有数据展示功能,需使用“表”节点 读DRUG.txt 读自由格式文本文件 文件选项卡 文件:指定文件夹和文件名 读取文件中的字段名:文件中第一行是变量名,选择该项,否则不选。 指定字段数:指定文件包含几个变量列。如文件以分隔符分割,系统可自动判断,常不选。 定界符:指定文件的列分隔符(一般为逗号),行分隔符(一般为新行) 读自由格式文本文件 数据选项卡 指定读入数据的基本类型等。 显示将要读入数据的变量名和系统根据数据判断出的变量存储类型。通常无需修改。 读自由格式文本文件 过滤选项卡 指定不读哪些变量 可重新修改变量名 读自由格式文本文件 类型选项卡 指定所读数据的变量类型, 并对变量的缺省值和取值合理性进行检查。 “读取值”按钮读入数据,称对节点实例化处理。窗口中的变量范围不能随文本文件的修改动态更新,只能重新实例化。 如只更新某个变量,在“值”下拉框中手工选择“读取”或“读取+”,再按“读取所有值”按钮。 读自由格式文本文件 注解选项卡 给节点命名和添加注释性文字。 名称:指定节点名称 工具提示文本:鼠标指到数据流编辑区的节点时,显示在此输入的说明文字。 读Excel电子表格数据 使用“Excel”节点 读入Students.xls “工作表” 索引:工作表编号,从0开始 名称:输入工作表名 数据范围 明确范围:读特定区域数据,如A10:B20 读Excel电子表格数据 数据说明 家长是否鼓励学生参加社会公益活动 学生是否参与某次公益活动 读Spss(.sav)数据文件 使用“SPSS文件”节点 读取Telephone.sav 读取名称和标签 同时读入spss文件的变量名和变量名标签 读取数据和标签 同时读入spss文件的变量值和变量值标签 读取标签作为名称 spss文件变量名标签作为clementine数据的变量名 读取数据作为标签 spss变量值标签作为clementine的变量值 读Spss(.sav)数据文件 数据说明 基本服务累计开通月数、是否申请无线转移服务、上月基本费用、上月限制性免费服务项目的费用、无线服务费用、是否电子支付、客户所申请的服务套餐类型、是否流失。 读数据库文件 应用开放式数据库互联ODBC(open database connectivity) 读取WebData.mdb,包含 Customer1:客户基本信息 平均每天在线时间、居住区域等 Customer2:客户上网基本情况 平均日在线时间、平均夜在线时间、浏览器类型、平均收发邮件时间、平均网聊时间等 Clickpath 浏览网页类型、顺序 步骤 建立数据源 通过数据源访问数据库 读数据库文件——建立数据源 建立数据源 Windows控制面板——管理工具——数据源ODBC——用户DSN. 数据源驱动:Microsoft Access Driver(*.mdb) 读数据库文件——通过数据源访问数据库 使用“数据库”节点 生成实验方案数据 使用“用户输入”节点 进行实验设计 实验因素:实验条件 水平:实验因素的具体取值 实验指标:衡量实验结果好坏程度的指标。 例如:大豆产量实验,目的是考察氮肥施加量、磷肥施加量,大豆品种对大豆亩产量的影响。每亩地氮肥、磷肥施肥量各为0,1,2,3公斤,大豆品种包括甲、乙、丙三种。 实验因素:氮肥施加量,磷肥施加量。各有0,1,2,3四个水平,大豆品种三个水平。 全面实验方案:三个因素全面组合共48种水平。 实验指标:大豆亩产量 生成实验方案数据 编辑节点: m大豆亩产量(不在这里输入,缺省值$null$),p品种,l磷肥,d氮肥。 因素水平值 可以用空格分开,如0 1 2 3 可以用逗号分割。如0,3,1;表示水平值为0-3,数据递增1。 字符串
原创力文档

文档评论(0)