《数据搜集与下》课件.pptVIP

下载本文档

0
0
约6.15千字
约 45页
2024-12-30 发布于四川
举报
版权申诉

《数据搜集与下》课件.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

****************************缺失数据处理缺失数据原因数据采集过程中，各种因素导致数据缺失。例如，数据输入错误、设备故障、数据丢失等。处理方法根据数据特点和缺失模式选择合适方法，如删除法、插补法等，确保数据完整性。影响因素缺失数据处理方法会影响后续分析结果，需谨慎选择，避免引入偏差或误差。删除法数据缺失当数据集中存在大量缺失值时，删除法可以有效简化数据集，减少处理复杂度。数据质量如果删除后的数据量仍然足够大，且删除的数据不影响分析结果，则删除法是合理的处理方法。删除策略可以选择删除整行或整列，具体策略取决于数据结构和缺失值分布。插补法11.平均值插补使用缺失值所在列的平均值来填充缺失值。22.中位数插补使用缺失值所在列的中位数来填充缺失值。33.最近邻插补使用与缺失值所在行最相似的行的值来填充缺失值。44.线性插补使用缺失值前后两个值的线性组合来填充缺失值。平均值/中位数法此方法适用于数值型数据。用缺失数据所在列的平均值或中位数来填充缺失值。如果数据分布较为集中，平均值填充比较合适。如果数据分布存在偏态，中位数填充更准确。异常值处理1数据可视化识别使用直方图、箱线图等可视化方法2z-score计算每个数据点与平均值的标准差倍数3IQR法计算数据点的四分位距范围异常值是指明显偏离数据集中的其他数据点的数据值。识别和处理异常值是数据预处理的重要步骤。异常值处理散点图识别散点图可以直观地显示数据分布，异常值通常会远离其他数据点。箱线图识别箱线图显示数据分布的五数概括，异常值位于箱线图的边缘或超出范围。直方图识别直方图显示数据频率分布，异常值通常位于直方图的边缘或峰值之外。异常值处理-z-score数据分布z-score衡量数据点距离平均值的标准差倍数。图表分析数据点远离平均值，超过一定阈值，可判断为异常值。计算公式z-score通过计算数据点与平均值的差值除以标准差来获得。IQR法计算IQRIQR表示四分位距，是数据集中第三四分位数（Q3）与第一四分位数（Q1）的差值。计算IQR可以帮助识别异常值，IQR值越大，数据分布越分散。判定异常值根据IQR和Q1、Q3计算上下界限，落在界限之外的数值被视为异常值。下界限=Q1-1.5*IQR，上界限=Q3+1.5*IQR。数据合并技巧数据合并是数据整理过程中重要的步骤，能够将多个数据源整合到一起，形成更全面的数据集。正确的数据合并方法可以提高数据分析效率，挖掘更多有价值的信息。1纵向合并追加数据记录2横向合并扩展数据列3连接方式根据共同字段进行连接纵向合并用于将具有相同结构的数据集追加到一起，扩展数据记录数量。横向合并用于将具有相同记录数量的多个数据集合并，扩展数据列数量。连接方式则根据数据集中共同的字段进行匹配，实现数据集的融合。纵向合并数据添加纵向合并用于将两个或多个数据集在行方向上进行合并，并将它们组合成一个更大的数据集。相同列名合并的数据集必须具有相同的列名，以便将数据正确地添加到一起。无重复行确保合并后的数据集不包含重复的行，以防止数据冗余。横向合并合并列将多个数据集的相同行合并成一个新数据集。例如，将不同年份的销售数据合并到一个表中。连接条件通过指定连接条件，将两个数据集的相同列进行匹配，并合并成一个新的数据集。连接方式选择11.内连接仅保留两个表中都存在的记录。22.左外连接保留左表所有记录，右表匹配到的记录。33.右外连接保留右表所有记录，左表匹配到的记录。44.全连接保留两个表的所有记录，并进行匹配。数据分组与排序分组依据选择选择合适的分组依据，例如性别、年龄、地区等。分组聚合函数使用平均值、总和、计数等函数，汇总分组后的数据。排序算法选择选择合适的排序算法，例如冒泡排序、快速排序等，对数据进行排序。分组依据选择地理位置分组根据城市、省份、国家等地理信息对数据进行分组，方便分析地区差异。时间分组根据日期、月份、季度等时间信息对数据进行分组，分析数据随时间变化趋势。用户属性分组根据用户的年龄、性别、收入等属性进行分组，了解不同用户群体的特点。产品类别分组根据产品类型、价格、品牌等信息对数据进行分组，分析不同产品类别。分组聚合函数求和计算分组内所有数值的总和。平均值计算分组内所有数值的平均值。计数统计分组内数据的数量。最大值找到分组内所有数值中的最大值。排序算法选择冒泡排序简单易懂，适用于小