- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
万方数据
万方数据
Dissertation Submitted to Hangzhou Dianzi University for the Degree of Master
Research on data mining and visualization based on big data of Internet log
Candidate: Li ming dong Supervisor: Prof. Jiang yun liang
March,2016
杭州电子科技大学
学位论文原创性声明和使用授权说明
原创性声明
本人郑重声明: 所呈交的学位论文,是本人在导师的指导下,独立进行研究工作 所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发 表或撰写过的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明 确方式标明。
申请学位论文与资料若有不实之处,本人承担一切相关责任。 论文作者签名: 日期: 年 月 日
学位论文使用授权说明
本人完全了解杭州电子科技大学关于保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属杭州电子科技大学。本人保证毕业离校后,发 表论文或使用论文工作成果时署名单位仍然为杭州电子科技大学。学校有权保留送交论 文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采 用影印、缩印或其它复制手段保存论文。(保密论文在解密后遵守此规定)
论文作者签名:
日期:
年
月
日
指导教师签名:
日期:
年
月
日
杭州
杭州电子科技大学硕士学位论文
摘 要
随着信息技术和互联网技术的高速发展,人们利用信息化的程度越来越高,并在信 息化的过程中产生了大量的结构化和非结构的数据信息。如何采集、存储、分析大量的 数据化信息成为人们研究的热点之一。互联网商业巨头 Google 公司在 2004 年率先提出 如何处理大规模数据的分布式计算框架,之后开源的分布式 Hadoop 技术应运而生。利 用分布式存储计算框架 Hadoop 平台处理各种形式的大数据成为业界的主流技术。目前, 我们国家通信运营商每天都会产生大量的、各种各样的日志数据,如何能够有效的加以 利用,是个造福社会的大工程。
本文针对我们所拥有某市一个月的移动用户的微信上网日志进行大数据处理及分 析。我们采用了数据挖掘中经典的 K-means 算法进行了时间聚类,将用户的上网时间分 为了 4 类,对用户在各个时段的上网习惯进行了聚类。实验主要运用 Hadoop 集群的 MapReduce 计算框架在多维度上进行需求机能测试,对各种需求情况进行深度研究的应 用实验,并综合分析各维度的结果,在此结果上分析出上网用户的业务偏好、上网时段 的偏好、人流的迁徙等,除此之外还对较大事件的交通及人群的疏导,起到事前预警的 作用。
同时,论文还针对基站位置数据的分析、基于公众事件的数据分析、基于群体迁徙 的数据分析,将预先处理好的数据结果进行可视化,从可视化的结果中,可以在上述三 方面的应用中发现人流量的一个大致变化,能够归结出基于特定群体性事件大家的出行 规律,通过交通提前疏导和限行,能够有效防止出现交通拥堵,同时对群众出行的时段 也能够提供有效的建议。
关键词:Hadoop, 大数据,数据挖掘,K-MEANS 算法,上网日志分析
I
ABSTRACT
With the rapid development of information technology and Internet technology, people’s life is more intimately bounded with the information technology, and in the process of
information。It generated a large number of structured and unstructured data. How to collect,
store and analyze a large amount of data has became one of the hot research topics.Internet business giant Google company first proposed a distributed computing framework dealing with large-scale data, later the open source distributed technology. Hadoop came into being. Using distributed storage and c
您可能关注的文档
- 基于长期监测数据的在役混凝土梁桥时变可靠度评估方法-土木工程;桥梁与隧道工程专业论文.docx
- 基于网络技术的远程教学系统设计-软件工程专业论文.docx
- 基于数字印前流程的模拟印刷系统的研究与开发-制浆造纸工程专业论文.docx
- 基于神经网络的并联式混合动力客车动力系统研究-动力工程及工程热物理专业论文.docx
- 基于时间维度的日本当代建筑空间特征解读-建筑设计及其理论专业论文.docx
- 基于数据的铅锌熔炼过程自适应在线监控与故障诊断-控制科学与工程专业论文.docx
- 基于物联网与GPRS的温室环境监测系统设计与实现-农业信息化专业论文.docx
- 基于内容挖掘的话题微博情感分析研究-图书情报专业论文.docx
- 基于视频分析的车辆跟踪与异常行为识别研究-计算机应用技术专业论文.docx
- 基于视觉与触觉集成传感的多坐标组合测量系统的研究-仪器科学与技术;测试计量技术及仪器专业论文.docx
- 基于内容的无线传感器网络视频压缩算法研究-计算机应用技术专业论文.docx
- 基于时间效应的网上商场推荐系统研究与应用-软件工程专业论文.docx
- 基于深度学习的方面级别评论情感分析-计算机应用技术专业论文.docx
- 基于网络视角的虚拟R&D组织形态及其治理机制研究-管理科学与工程专业论文.docx
- 基于特定说话人识别的门禁系统研究-控制科学与工程专业论文.docx
- 基于时间差分的单机单频伪距定位及应用-大地测量学与测量工程专业论文.docx
- 基于神经网络的动态误差建模及实验研究-精密仪器及机械专业论文.docx
- 基于项目法人治理的政府投资高速公路投资控制研究-技术经济及管理专业论文.docx
- 基于数据挖掘明清时代胃脘痛医案舌诊与脉诊研究-中医学专业论文.docx
- 基于网格的远程教学分析-教育技术学专业论文.docx
最近下载
- 日立电梯MCA13中文注释版电气原理图.pdf
- 财务总监培训战略成本管理-战略成本管理.ppt VIP
- 战略成本管理 .pdf VIP
- 2024-2025学年江苏省无锡市锡山高级中学高一(上)月考物理试卷(10月)(含答案).docx VIP
- 江苏省梅村某中学2022年物理高一年级上册期末达标检测试题含解析.pdf VIP
- 江苏省梅村高级中学2022年物理高一年级上册期末经典试题含解析.pdf VIP
- 小学道德与法治教学论文(5篇).pdf VIP
- 2025年智启未来·险见新机-人保寿险大模型探索及实践.docx
- 大班美术优秀教案及教学反思《秋天的画报》.docx VIP
- 《光纤耦合器讲解》课件.ppt VIP
原创力文档


文档评论(0)