基于上网日志大数据的数据挖掘及可视化研究-计算机技术专业论文.docxVIP

基于上网日志大数据的数据挖掘及可视化研究-计算机技术专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据 万方数据 Dissertation Submitted to Hangzhou Dianzi University for the Degree of Master Research on data mining and visualization based on big data of Internet log Candidate: Li ming dong Supervisor: Prof. Jiang yun liang March,2016 杭州电子科技大学 学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明: 所呈交的学位论文,是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发 表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明 确方式标明。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名: 日期: 年 月 日 学位论文使用授权说明 本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发 表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论 文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采 用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定) 论文作者签名: 日期: 年 月 日 指导教师签名: 日期: 年 月 日 杭州 杭州电子科技大学硕士学位论文 摘 要 随着信息技术和互联网技术的高速发展,人们利用信息化的程度越来越高,并在信 息化的过程中产生了大量的结构化和非结构的数据信息。如何采集、存储、分析大量的 数据化信息成为人们研究的热点之一。互联网商业巨头 Google 公司在 2004 年率先提出 如何处理大规模数据的分布式计算框架,之后开源的分布式 Hadoop 技术应运而生。利 用分布式存储计算框架 Hadoop 平台处理各种形式的大数据成为业界的主流技术。目前, 我们国家通信运营商每天都会产生大量的、各种各样的日志数据,如何能够有效的加以 利用,是个造福社会的大工程。 本文针对我们所拥有某市一个月的移动用户的微信上网日志进行大数据处理及分 析。我们采用了数据挖掘中经典的 K-means 算法进行了时间聚类,将用户的上网时间分 为了 4 类,对用户在各个时段的上网习惯进行了聚类。实验主要运用 Hadoop 集群的 MapReduce 计算框架在多维度上进行需求机能测试,对各种需求情况进行深度研究的应 用实验,并综合分析各维度的结果,在此结果上分析出上网用户的业务偏好、上网时段 的偏好、人流的迁徙等,除此之外还对较大事件的交通及人群的疏导,起到事前预警的 作用。 同时,论文还针对基站位置数据的分析、基于公众事件的数据分析、基于群体迁徙 的数据分析,将预先处理好的数据结果进行可视化,从可视化的结果中,可以在上述三 方面的应用中发现人流量的一个大致变化,能够归结出基于特定群体性事件大家的出行 规律,通过交通提前疏导和限行,能够有效防止出现交通拥堵,同时对群众出行的时段 也能够提供有效的建议。 关键词:Hadoop, 大数据,数据挖掘,K-MEANS 算法,上网日志分析 I ABSTRACT With the rapid development of information technology and Internet technology, people’s life is more intimately bounded with the information technology, and in the process of information。It generated a large number of structured and unstructured data. How to collect, store and analyze a large amount of data has became one of the hot research topics.Internet business giant Google company first proposed a distributed computing framework dealing with large-scale data, later the open source distributed technology. Hadoop came into being. Using distributed storage and c

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档