三讲数据预处理.pptVIP

下载本文档

7
0
约8千字
约 69页
2017-11-20 发布于江苏
举报
版权申诉

三讲数据预处理.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

三讲数据预处理

* * * 5.设置“备份”文件系统任务回到控制流的编辑界面。双击“备份”文件系统任务组件。把源连接设置为数据流中创建的“输出文件”连接，而目标连接选择“新建连接”选项。在弹出的“文件连接管理器编辑器”窗口中在“使用类型”中选择“现有文件夹”，同时指定需要复制的目标备份文件夹。 * * * 6、运行包单击工具栏上的“运行 ”按钮，可以运行这个包。在运行过程中，控制流和数据流中没有问题的会变成绿色。如果运行成功，在输出窗口中可以看到显示运行成功的信息。 * * * Binning方法将排序的数据参照其周围数据将变得平滑 * Combines data from multiple sources into a coherent data store * * Terabyte= 1000 G 数据立方体聚集: 在创建数据立方体的时候应用聚集运算任务在包中提供功能。优先约束将容器和任务连接成一个控制流。 * * 决策树归纳的一个例子初始的属性集合: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6? Class 1 Class 2 Class 1 Class 2 Reduced attribute set: {A1, A4, A6} Y N Y N Y N * 数值压缩数值压缩：通过选择替代的、较小的数据表示形式来减少数据量。参数方法用一个模型来估计数据，因此一般来说只有模型参数需要存储，而无须存储实际数据。例如：线性回归模型。非参数方法无须假设模型存储简约后的表示，包括： histograms, clustering, sampling * 回归模型线性回归: 将数据建模，用来拟合一条直线，用来近似给定数据。 Y = ? + ? X 经常使用最小二乘方法来拟合直线多元回归:Y = b0 + b1 X1 + b2 X2. * Histograms * Cluster Raw Data Cluster/Stratified Sample * Sampling SRSWOR (simple random sample without replacement) SRSWR Raw Data * 数据预处理为什么要预处理数据? 数据清理数据集成与转换数据简约(归约) 离散化与概念分层生成用SSIS对数据进行ETL操作 * 离散化和概念分层离散化：将连续属性的范围分成区间，用来减少给定连续属性值的个数。为什么要离散化有些分类算法只接受类别属性减小数据大小为进一步分析做准备概念分层：通过用高层概念(如青年,中年,老年)收集和替换低层概念(如年龄属性的数值)来减少数据量。 * 数值型数据的离散化和概念分层生成方法 Binning Histogram analysis Clustering analysis Entropy-based discretization Segmentation by natural partitioning * 基于熵的离散化给定一组样本 S, 如果 S利用边界 T被划分为两个区间S1和 S2, 划分之后的熵为使得熵函数在所有可能的边界中取得最小值的那个边界被选作为二元离散因子递归地将这一过程应用于所得的分区, 直到满足特定的结束条件, e.g., 实验表明这样处理数据可以减少数据大小, 以及改善分类准确率。 * 总结数据准备是数据仓库和数据挖掘中的大问题数据准备包括数据清理和数据集成数据归约和属性选择离散化目前已经开发了许多中方法用于数据准备, 但其仍是个活跃的研究领域 * 数据预处理为什么要预处理数据? 数据清理数据集成与转换数据简约(归约) 离散化与概念分层生成用SSIS对数据进行ETL操作用SSIS对数据进行ETL操作 SQL Server Integration Services（SSIS）是由SQL Server 2000中的DTS服务升级而来，是用于生成高性能数据集成和工作流解决方案的平台，可以进行数据的提取、转换和加载（ETL）操作。 SSIS可以解决业务数据库中数据模型不同、数据不兼容等问题。 SSIS通过包来管理复杂的数据整合任务，通过控制流、数据流和事件处理程序等组件来处理这些任务。 * * 包包控制流任务源转换目标数据流任务包的典型使用方式第一个SSIS包的设计将设计一个包来处理AdventureWorks数据库的“TransactionHistoryArchive”表，同时把处理后的数据转换为平面文件目标（文本文件），并且在包内把此目标文件复制到备份文件夹中。 * 1.新建项目 * * 2.设置连接管