- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
第3章数据处理
一、教学目标
让学生理解数据处理在数据分析和数据挖掘中的重要性,掌握完整的数据处理流程。
教授学生数据导入导出的基本操作,包括不同文件类型和数据库的数据导入导出方法。
熟悉数据清洗技术,能够处理缺失值、重复值等问题,确保数据的质量和一致性。
引导学生利用pandas库和NumPy库进行数据结构和数据分析,包括数据访问、清洗、抽取、合并和计算等操作。
通过实训项目,提高学生的数据处理实践能力,加深对Python数据处理技术的理解和应用。
二、教学内容
3.1数据导入导出
文件导入和导出:介绍CSV、Excel等文件的导入导出方法,使用pandas库的read_csv()、read_excel()、to_csv()、to_excel()等函数。
数据库导入和导出:概述数据从一个数据库导入另一个数据库或从数据库导出数据的过程,涉及数据格式转换和加载。
网页数据导入和导出:简要介绍网页数据导入导出的应用场景,如网页爬取、数据采集等,具体操作将在后续章节展开。
3.2数据清洗
数据排序:使用pandas的sort_values()方法对数据进行升序和降序排列。
重复数据处理:使用duplicated()函数标识重复行,使用drop_duplicates()函数删除重复行。
缺失值处理:使用isnull()方法查找缺失值,使用dropna()方法删除缺失值行,使用fillna()方法填充缺失值。
3.3数据转换
数据类型查看:介绍使用type()函数、isinstance()函数、__class__属性和type()函数结合__name__属性查看数据类型的方法。
数值与字符串转换:使用str()函数将数值转换为字符串,使用int()或float()函数将字符串转换为数值。
字符串与日期时间对象转换:使用datetime.strptime()函数将字符串转换为日期时间对象,使用strftime()函数将日期时间对象转换为字符串。
3.4数据抽取
字符串拆分:使用字符串的split()方法和正则表达式模块re进行字符串拆分。
记录抽取:介绍将抽取的记录写入文件和存储到数据框的方法,使用文件操作和pandas库的to_csv()函数。
3.5数据合并
记录合并:使用pandas的merge()函数、concat()函数和join()方法进行记录合并,包括内连接、行拼接等。
字段合并:使用字符串连接操作和字符串格式化合并字段,介绍使用字符串方法和正则表达式进行复杂字段合并。
字段匹配:使用merge()函数和merge_asof()函数进行字段匹配和字段模糊匹配。
3.6数据计算
简单计算:使用Python基本运算符和内置数学函数进行数值计算。
时间计算:使用datetime模块和pandas库进行时间计算,包括时间加减、时间差计算等。
数据分组:使用pandas的groupby()函数对数据进行分组,并计算每个分组的统计值。
3.7应用实例——电影票房统计之数据处理
数据收集:介绍获取电影票房数据的途径和内容,包括票房收入、排片情况、观众反馈和地域分布等。
数据清洗和转换:演示如何对票房数据进行清洗和转换,包括删除多余字符、转换数据类型、抽取年份和月份等,并将清洗后的数据输出为Excel文件。
三、课后实训
实训项目1:数据导入导出操作
导入CSV和Excel文件:使用pandas库读取CSV和Excel文件中的数据,并输出查看。
导出数据到CSV和Excel文件:将处理后的数据导出为CSV和Excel文件,指定编码和是否保留索引。
实训项目2:数据清洗实践
重复数据处理:创建一个包含重复数据的DataFrame,使用duplicated()和drop_duplicates()函数识别和删除重复行。
缺失值处理:创建一个包含缺失值的DataFrame,使用isnull()、dropna()和fillna()方法查找、删除和填充缺失值。
实训项目3:数据转换应用
类型转换:定义不同类型的变量,使用type()、isinstance()、__class__属性和type()结合__name__属性查看变量类型。
字符串与数值转换:将数值变量转换为字符串,将字符串变量转换为整数或浮点数。
日期时间转换:将日期时间字符串转换为日期时间对象,将日期时间对象转换为指定格式的字符串。
实训项目4:数据抽取与合并
字符串拆分与记录抽取:使用split()方法和正则表达式拆分字符串,将拆分后的数据存储到列表或数据框中。
数据合并操作:使用merge()、concat()和join()方法对多个数据框进行合并,实现不同数据集的整合。
实训项目5:电影票房数据分析
票房数据收集与导入:从猫眼网站下载各年度、月份的总票房情况,导入到P
您可能关注的文档
最近下载
- AITO-问界-M7-车主手册说明书.pdf VIP
- 酒店工作述职报告.pptx VIP
- 2025年版高等职业教育本科专业教学标准 260601 航空智能制造技术.docx VIP
- (建筑施工企业) 职业病防护用品管理.docx VIP
- 一汽大众焊装夹具方案+制造标准1.5版本.ppt VIP
- 专桥[01]2051 后张法预应力混凝土梁T梁 跨度16m、20m、24m、32m(2000年)(不全).pdf VIP
- 大学生职业生涯发展与规划.pdf VIP
- 医学课件-《我国主要眼底病慢病管理专家共识》解读.pptx
- 《孤独之旅》PPT【优秀课件PPT】.pptx VIP
- RAZ-J分级阅读小学英语绘本CHANGES(可打印成册).pdf VIP
原创力文档


文档评论(0)