西南财经大学数据挖掘系统使用说明ICDMS1.pdfVIP

下载本文档

11
0
约 24页
2016-03-12 发布于安徽
举报
版权申诉

西南财经大学数据挖掘系统使用说明ICDMS1.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

西南财经大学数据挖掘系统使用说明ICDMS1.pdf

作者：李保坤，美国新墨西哥州立大学博士西南财经大学统计学院张丽娟，中国地质大学博士北京工业大学继续教育学院一读入数据 1. 数据准备 a. 文本文件（.txt 后缀），第一行为变量名行，从第二行起为数字（或字符）行。样式为 b. Excel 工作簿（.xls 后缀）的第一页(即：sheet1)，第一行为变量名行，从第二行起为数字（或字符）行。样式为 c. MS Access 数据库(.mdb)文件。下图为“样本数据库.mdb”的数据表canF 。 d. SAS 软件的.dat 格式数据文件，类似.txt 格式（略） 2. 读入系统 a. 在数优华智数据挖掘系统界面中，单击“ ”图标。 b. 在弹出的对话框中，找到并打开包含数据的文件夹。如果数据文件是 Excel 工作簿，如“逃税数据.xls”，选择数据文件，单击“打开”按钮，数据即被读入挖掘系统。 c. 如果数据文件是文本格式或者 MS Access 数据库的数据表，如“样本数据库.mdb”，选择该数据文件，单击“打开”按钮，得到如果数据量不是很大，例如不到 2 万条记录，可选择使用全部数据选项，否则对数据进行简单随机抽样。点击“确定”按钮，数据库对话框出现：选择所需要的数据表，例如 canF，点击“返回”按钮，该数据表的数据即被调入系统（部分显示）：二选择算法我们把数据挖掘算法归为两类：有约束学习算法和无约束学习算法。有约束学习算法包括用于预测和分类的多元回归、简单贝叶斯、分类树、Logistic 回归、判别分析、神经网络、k 最近邻点、支持向量机（试用）。无约束学习算法包括聚类分析、关联分析、主成分分析、数据标准化、画散点图。以下按照两种学习方法分别介绍各种算法的使用。 1. 有约束学习算法有约束学习指的是用已有记录得到算法（逻辑回归、回归树等等）的过程。在这些记录里人们感兴趣的输出变量是已知的，这个算法“学习”如何预测新记录里输出变量的值（数量或类别），这些值在新纪录里是没有的。通常的数据挖掘按 SEMMA 思想需要 5 个步骤，即：数据抽样、探索数据、修正数据、建模、模型评价。考虑到一般的应用中数据集合质量较好，因此我们对 SEMMA 步骤作了简化，即软件不包括修正数据部分。另外探索数据的部分使用画散点图和相关系数两种方式，为简单化挖掘步骤，这一部分也没有出现在我们的挖掘流程图中。因此，我们的数据挖掘建模系统只包含了最核心的数据抽样（数据划分）、和建模两个部分。数据划分 a. 点击工具条上的“有约束学习”按钮，“数据挖掘建模”界面弹出。 b. 在此，数据划分有 4 种方式：随机划分、过度划分、简单划分和不需划分。随机划分: 最常用的划分方式，它是通过把数据集合的记录进行简单随机化，然后按不同的比例划分到训练数据、验证数据和测试数据集合几个部分。过度划分: 针对的是输出变量中事件发生的类别和事件不发生的类别在数量上差别较大时采用的划分方式。这种方式对稀有事件和多类别输出变量较为适用。简单划分: 对数据集合不进行随机化的划分，按照数据的位置分块。不需划分: 是把所有数据都放入训练数据的方式。具体操作如下：－选择“随机划分”方式，并点击划分。“简单随机采样”界面弹出。确定数据的划分范围，并点击“划分”按钮进行数据划分。在此界面中的随机化种子决定了数据的随机划分。换句话说，不同的随机化种子给出了不同的数据划分结果。以下是对“逃税数据.xls”进行的随机化分。－选择“过度划分”方式，并点击划分，“加权采样”界面弹出。先确定数据的划分范围，然后在右边的选择文本框中选择待分类变量。对于“样本数据库.mdb”的 canF 数据表，假如我们的目的是找出关于高度类别变量tall 进行分类，在右边的选择文本框中选择 tall ，该变量几个类别的百分数显示在左下的权重栏中。在此我们发现 3 个类别中“1”和“3 ”类的比例太少，为了得到效果较好的模型，通常需要对这些类别进行过度采样。例如我们可以把所有的“1” 和“3 ”类记录全用上，“2 ”类的记录采样 20% ，修改左下的权重栏如下。点击“划分”按钮进行数据划分。－选择“简单