fetchQzone项目展示.doc

  1. 1、本文档共24页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
fetchQzone项目展示概要1

题目 基于chrome平台的QQ空间信 息抓取与分析系统 目 录 目 录 I 摘要 II 第1章 引言 1 1.1 设计意义 1 1.2 国内外发展现状 1 1.3 数据抓取挖掘系统研究内容 2 第2章 相关技术 3 2.1 Python 3 2.2 Django 3 2.3 MySQL 4 2.4 Chrome Extension 4 第3章 抓取分析系统 5 3.1信息抓取整理模块 5 3.2信息存储模块 6 3.3 信息分析模块 6 3.4数据库设计 7 3.4.1 用户信息表 7 3.4.2 用户昵称表 7 3.4.3 用户说说评论表 8 3.4.4 用户说说表 8 第4章 信息抓取分析系统实现 10 4.1 信息抓取模块 10 4.2 信息存储模块 11 4.3 信息分析模块 11 4.3.1 说说单元展示 11 4.3.2 亲密度分析 12 4.3.3 二度人脉分析 12 4.3.4 两人交互分析 13 4.3.5 活动时间分析 14 4.3.6 共同好友分析 15 参考文献 16 致谢 17 附录一:程序 18 摘要 QQ空间作为一个特殊的社交平台,它记录了大量年轻用户的信息,具有很高的分析价值和封闭性的特点。相当一部分QQ用户的空间信息不能匿名访问,必须以用户好友的身份才能访问,这样传统的爬虫系统就无能为力了,你不可能模拟用户的好友进行抓取。故本系统另辟蹊径,既然不能匿名访问,我们就在用户好友获取信息后,再进行抓取。我们可以使用浏览器提供的插件功能,开发一套信息抓取系统,用于获取信息,然后再进行挖掘,将数据上传到服务器端后,可以进行很多有用的分析。Chrome浏览器平台是一款优秀的浏览器内核,市场占有率高,插件开发方便,开发者可以不必了解太多浏览器底层的细节,借助浏览器提供的接口API,就可以开发一些定制功能。 本系统信息抓取插件基于chrome浏览器。系统采用python语言开发,配合python下的优秀web框架django,数据库采用MySQL,可以有效降低开发难度,提升开发速度。python具有开发速度快,开发简单的优势。Mysql数据库是一款大多应用于中小型系统的数据库系统,开源免费,运行效率极佳。本系统在chrome浏览器插件中进行数据收集,在服务器端进行数据挖掘。可以通过用户间关系,分析共同好友,分析二度人脉,分析用户和朋友们的亲密程度,用户发说说,做评论的时间段统计。 关键词:Qzone;信息抓取;数据挖掘 引言 1.1 设计意义 QQ空间信息抓取价值分析。众所周知,QQ空间(也常常称为Qzone,以下将QQ空间等同于Qzone)在年轻人中非常流行,据2015年数据WeareSocial统计,QZONE用户数高达6.29亿,居世界社交平台/软件第三位,国内第二位。这些年轻用户在QQ空间里将自己日常的情绪变化,社会热点等等记录下来,具有极高的分析价值。 但是却很少有网络爬虫能够有效抓取QQ空间的数据,传统爬虫对此很难爬取。因为QQ空间处于高度封闭状态,信息不能被搜索引擎捕捉到。本系统另辟蹊径,在浏览器中构建插件,把信息的捕获从服务器端移动到客户端,在客户端进行信息的抓取,过滤,去重,规整等一些繁琐的操作。这样,抓取QQ空间信息就变成了可能,我们通过在客户端构建爬虫,可以有效减轻服务器抓取数据的计算量,降低开发难度。 1.2 国内外发展现状 为什么传统爬虫抓取信息失效?分析数据,首先要获取数据。对于一般的web公开数据,我们倾向于使用各种爬虫来抓取数据,但是对于Qzone,因为其大部分用户将自己空间的访问权限设置为好友可见,故传统的爬虫以匿名方式或陌生方式来访问,并不能获得想要的数据。必须在其QQ好友访问是才有可能拿到说说、评论、昵称、时间数据,这样传统爬虫就失效了。 浏览器内抓取信息的优势,和传统爬虫的比较,如果我们在浏览器内抓取信息,就可以解决不以朋友身份访问就不能抓取的问题。 对于QQ空间来说,虽然每天都会产生海量信息,但是却不能得到有效发掘,因为人们觉得QQ空间都是年轻人玩的东西,仅仅是简单的心情感慨。但是这些数据是人情绪的变迁,是社会热点的反应,记录了他们的爱情,朋友,学业的方方面面。如果分析这些内容,可以有效挖掘QQ用户的人脉关系、作息时间、心情变化等很多内容。比如,通过分析发现一个同学常常在半夜凌晨2点回复,评论他人消息,可以得出此人有熬夜的习惯。通过分析社交状况,可以找到他的最好朋友。这些都是有价值的社交信息。如果把所有的信息加以汇总,那么大致就可以

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档