幻灯片 1_10315.pptVIP

  • 19
  • 0
  • 约6.89千字
  • 约 32页
  • 2016-05-24 发布于山西
  • 举报
幻灯片 1_10315

习题 将MovieLens 1M数据集从zip文件中解压出来之后,可以通过pandas.read_table将各个表分别读到一个pandas DataFrame对象中,对数据进行如下分析操作: (1) 先用pandas的merge函数将ratings跟users合并到一起,然后再将movies也合并进去。 (2) 使用pivot_table方法产生另一个DataFrame,其内容为电影平均得分,行标为电影名称,列标为性别。 (3) 过滤掉评分数据不够500条的电影。 (4) 了解男性观众最不喜欢的电影(对M列升序排列) (5) 得到分歧最大且使用两种方法得到男性观众更喜欢的电影 (6) 通过计算得分数据的方差(var),找出分歧最大的电影(不考虑性别因素) * * * * * * Python程序设计(111100) * 11.1 NumPy简介 11.2 Pandas简介 11.3 数据分析应用 第十一章 Python在数据分析中的应用 数据分析的四大任务 数据准备(读写各种各样的文件格式和数据库) 数据处理(对数据进行清洗、修整、整合等处理以便进行分析) 数据分析(根据分析目的对数据集做合适的数学和统计运算) 数据可视化(展示数据分析成果) * NumPy简介 Numpy(Numerical Python的简称)是Python科学计算的基础包。它提供了以下功能

文档评论(0)

1亿VIP精品文档

相关文档