Python基于豆瓣电影的可视化分析系统.pdfVIP

Python基于豆瓣电影的可视化分析系统.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Python基于⾖瓣电影的可视化分析系统 Python 基于⾖瓣电影的可视化分析系统 前⾔ 这是本⼈这学期云计算课程 ⾃⼰构思 计的综合实验作品,看标题就知道是通过python实现的,且和⾖瓣电影密不可分。本⼈想法是做⼀ 个具有普适性的系统,不仅可以⽤于交作业,⽽且 ⾃⼰也可以从中获得便利。 详细请看接下来的介绍。 ⼀、项 ⽬介绍 ⼆、效果展⽰ 1、 爬⾍运⾏效果 2、 针对某部电影的分析结果 千与千寻 千 と千尋の神隠 し为例 : a. 不同时间影评⼈数 b. 影评推荐指数 c. 短评内容词云 3、 随机多部电影的综合分析结果 调整过后的dashboard.html 这个静态⽹页是可以动态点击的,查看统计结果⾮常⽅便,不过整齐的样式需要⾃⼰布置这也是致命缺点,没法动态绑定数据。 三、 项 ⽬分析 1、 ⾖瓣电影爬⾍的分析 ⾖瓣电影官⽹虽然没有令⼈窒息的反爬操作,但是接⼝较为隐蔽,需要通过Fiddler抓包⼯具辅助,才能找到电影数据接⼝。编写爬⾍时使 ⽤xpath对⽹页数据进⾏提取,使⽤正则表达式过滤冗余⽂本数据并对⽂本进⾏清洗。爬⾍运⾏过程中要控制爬取速度,否则在运⾏时不会 出现爬取问题,但经过⼀段时间后⾖瓣官⽹检测到本台主机IP的不正常请求,就会对IP进⾏封锁,阻⽌下⼀次⼤规模爬取。通过登录⾖瓣账 号获得Cookie可以减缓这⼀点,并且可以访问到更多的数据量,不过并不能保证不会被封号。最后将爬取数据保存为csv⽂件,⽅便后期使 ⽤pandas等做数据处理。 2、 针对某部电影的数据分析 从不同时期影评⼈数、影评推荐指数、短评内容三个⾓度⼊⼿分析,不同时期的影评⼈数可以间接反映电影的热度,因为⼤多数⼈都是在电 影刚上映观影完后写的影评 ;影评推荐指数可以直接看出观众对电影的喜好程度,对最热门的评论的汇总更能体现这部电影在⼤众中的影响 ⼒,⽽不是单靠官⽅给出的⾖瓣评分 ;短评词云可以体现电影的许多要素,⽐如演员、题材、主要情节剧情、观众评价,可以让影迷马上把 握该电影脉搏,从⽽决定这部电影是否值得⼀看。 3、 随机多部电影的综合数据分析 如果说针对某部电影的分析是让影迷决定是否看该部电影,那么随机多部电影的综合分析结果就是指引影迷去观看哪部电影。使⽤随机序号 ⽣成器在热门电影列表中任意选择电影,然后可视化出电影评分排⾏榜、电影Top20⾼分排⾏榜,电影上映时间线和电影类型分布,多⽅位 直观俯瞰热门电影⾏情。对于⼤众来说可以得知哪些电影近期更受欢迎,哪些电影评分⾼,电影在哪个时间段上映,从⽽发现 ⾃⼰喜欢的电 影和属于⾃⼰的电影偏好。对于电影制作⽅,可以针对电影类型分布,保持哪些电影类型的产出,加⼤哪类电影的制作投⼊以顺应⼤众⼝ 味,甚⾄可以决策在什么时候上映哪些类型的电影能获得最⼤收益。 总结 ⿇雀虽⼩五脏俱全,这个项 ⽬还有很多改进可扩展的地⽅,⽐如 计⼀个前端⽹页进⾏展⽰,提供更多的爬⾍选项定制爬取的电影数据,制 作动态数据展⽰等。这期间我更体会到开发离不开官⽅⽂档的事实,有很多问题在官⽅⽂档⾥都可以得到解决。 参考⽹站

文档评论(0)

武松 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档