DM_Chap3_数据读入和数据集成.pptVIP

下载本文档

2
0
约7.1千字
约 33页
2019-01-25 发布于浙江
举报
版权申诉

DM_Chap3_数据读入和数据集成.ppt

1、本文档共33页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据的横向合并（续二）合并选项卡仅包含匹配的记录（内部连接）。选择此选项将只合并完整的记录。包含匹配和不匹配的记录（完全外部连接）。选择此选项将执行“完全外部连接”。这意味着，如果不存在所有输入表中所共有的关键字段值，则不完整记录仍将保留。未定义的值 ($null$) 会添加到关键字段，并包括在输出记录中。包含匹配的和选定的未匹配记录（部分外部连接）。选择此选项会对在子对话框中选择的表执行“部分外部连接”。单击选择可指定将在合并中为其保留不完整记录的表。包含第一个数据集中的不与任何其他记录相匹配的记录（反连接）。选择此选项将执行“反连接”类型，其中只有第一个数据集中的不匹配记录会传递到下游。可以使用“输入”选项卡上的箭头指定输入数据集的顺序。这种连接类型在输出数据集中不包括完整记录数据的横向合并（续三）过滤选项卡：字段：显示当前连接的数据源中的输入字段。标记：列出与数据源链接相关联的标记名称（或编号）。单击输入选项卡可更改到此合并节点的活动链接。源节点：显示要合并其数据的源节点。已连接的节点：显示与合并节点连接的节点的节点名称。复杂的数据挖掘经常需要若干可能包括同一个源节点的合并或追加操作。连接的节点名称提供了一种区分这些内容的方法。过滤：显示输入字段和输出字段之间的当前连接。活动连接会显示一个未断开的箭头。带有红色 X 的连接表示经过过滤的字段。字段：列出合并或追加之后的输出字段。重复字段显示为红色。单击上面的过滤字段可禁用重复的字段。查看当前字段：选择此选项可查看被选作关键字段的字段信息。查看未使用的字段设置：选择此选项可查看当前未使用的字段的相关信息。数据的横向合并（续四）优化选项卡：一个输入数据集相对较大：选择此选项可表明其中一个输入数据集比其他数据集大很多。系统会在内存中缓存较小的数据集，然后在不缓存或不对其进行排序的情况下处理较大的数据集，来执行合并。所有输入已按关键字段排序：选择此选项可指明输入数据已经按照将要用于合并的一个或多个关键字段进行排序。请确保所有输入数据集均已排序。指定现有排序顺序：指定已经排序的字段。使用“选择字段”对话框，向列表添加字段。第三章读入和数据集成第三章读入和数据集成 3.1 为什么要预处理数据 3.2 变量类型 3.3 数据读入 3.4 数据集成 3.1 为什么要预处理数据现实世界的数据是不完整的，含噪声的、不一致的，并且这是大型的、现实世界数据库或数据仓库的共同特点。数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。由于高质量的决策必然依赖于高质量的数据，因此数据预处理是知识发现过程的重要步骤。检查异常数据、尽早地调整数据，并规约待分析的数据，将在决策过程得到高回报。数据预处理的形式第三章读入和数据集成 3.1 为什么要预处理数据 3.2 变量类型 3.3 数据读入 3.4 数据集成 3.2 变量类型明确变量类型是数据挖掘的第一步，是实现数据正确加工和挖掘分析的基础从计算机存储角度看数据类型整数型实数型字符串型日期型时间型：用来存储持续时间数据时间戳型：用来存储时间点数据时间型和时间戳型的数据表现形式形同，如01:25:30，但含义却不同。时间型表示所持续的时间，而时间戳型则表示某个时刻。从数据挖掘的角度看数据类型连续数值型二分类型多分类型定序型无类型：学号等编号变量或长文字等复杂数据变量，往往是无类型变量，无类型变量通常不参与数据建模。离散型：是一个变量的半实例化状态，一旦实例化后，会最终转化为二分类型或多分类型缺省型：是一种尚未明确的变量类型，对于仅指定了变量名而尚未读入变量值的变量，Clementine无法确定其具体数据类型，默认为缺省型，这样的状态为非实例化状态。一旦读入变量值，会根据输入数据的所有详细信息，自动将缺省型转化为除离散型之外的其他类型，此时称变量已被实例化，处于实例化状态。变量的非实例化、半实例化、实例化状态非实例化：存储类型和取值都未知半实例化：仅知道变量的存储类型，但取值范围未知实例化：变量的存储类型和取值均已确定需要说明的问题在数据挖掘的实际问题中，更多考虑的是计量类型，因为不同计量类型变量所适合的分析方法是不同的。在涉及复杂计算需要编写程序时，为保证程序语法的合理性，应关注变量的存储类型第三章读入和数据集成 3.1 为什么要预处理数据 3.2 变量类型 3.3 数据读入 3.4 数据集成 3.3 数据读入读自由格式的文本文件读Excel电子表格文件读SPSS格式文件读数据库文件用户输入节点读自由格式的文本文件选择Source选项卡中的Var.File节点 File选项卡文件：指定文件名