网站大量收购闲置独家精品文档,联系QQ:2885784924

项目10 大数据分析案例技术实践.pptx

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

项目10大数据分析案例技术实践

才园水利水电生版社

@数据来源:用户访问法律服务网站过程中产生的数据。

数据格式:数据以文件形式保存

执行环境:基于已搭建好的SparkStandalone环境

基于SparkSql技术进行离线数据处理

基于Flume和Kafka环境进行实时数据模拟、采集和传输,基于Flink技术进行数

据接收和处理

项目导读

项目10

项目10

培养学生一丝不苟,大国工匠精神

掌握数据分析与探索的基本方法

掌握基于Maven项目开发环境搭建、项目打包与项目提交

掌握离线数据分析、过滤、统计和处

理技术的流程和方法

了解实时数据分析、统计和处理的流程和方法

教学目标

CONTENTS

任务一法律服务大数据分析与探索

任务二基于Maven项目开发环境搭建

任务三离线基础数据分析与统计

任务四离线基础数据的过滤与统计

任务五离线数据的处理

任务六实时数据分析与处理

项目10

项目10

任务一法律服务大数据分析与探索

才园水利水电生版社

任务描述项目10任务一

随着互联网时代的发展,越来越多的法律服务应用不断出现,用户量也随之增加,引发了法律服务相关的数据规模的爆炸式增长。

用户使用传统搜索引擎从海量法律相关的数据中快速准确地寻找到自己感兴趣的信息,在这个过程中将产生大量的日志数据。

如今随着大数据技术的成熟,平台可以使用基于大数据技术来实现对日志数据的分析与处理,延长日志数据的价值链。

案例背景项目10任务一【知识链接】

基于一个大型法律资讯网站的基础上构建了一个法律服务大数据分析与处理系统。

用户每做出一个访问和搜索操作,后台服务器都会接收到相应的请求并触发相应的事件,从而生成相应的日志数据。

研究用户的兴趣偏好,探索数据潜在的商业价值,改善用户浏览体验,为用户提供个性化法律信息服务,增加用户黏度,减少用户流失。

系统架构及流程项目10任务一【知识链接】

法律资讯网站提供相关法律信息查询、咨询和搜索等服务。这些服务会产生日志数据。

法律资讯网站会定时把日志数据生成日志文件,然后传输到法律服务大数据分析与处理系统中(比如使用HDFS保存这些日志文件)。

数据分析任务有两部分:离线数据分析与处理,实时数据处理

数据放在一份得到的CSV数据里,数据一共含有21个字段,其中包含:IP、地区

编号、浏览器代理、用户ID、客户端ID、时间戳、标准时间、页面路径、年月日、访

问网页、网页类型、主机名、页面标题等。

系统数据说明项目10任务一【任务实施】

属性名称

属性说明

realip

真实IP

realareacode

地区编号

useragent

浏览器代理

useros

用户浏览器类型

userid

用户ID,识别不同用户登录的一个唯一的识别字段

clientid

客户端ID

times_tamp

时间戳

timestamp_format

标准化时间,记录的是用户访问该网页时的详细时间

pagepath

路径

ymd

年月日,记录的是用户访问的日期

fullurl

网址,网页的详细地址,标识了用户访问的不同页面

fullurlid

网址类型,网页的类型ID,通过ID可以知道页面所属类型

hostname

源地址名

pagetitle

网页标题

pagetitlecategoryid

标题类型ID

pagetitlecategoryname

标题类型名称

pagetitlekw

标题类型关键字

fullreferrer

入口源

fullreferrerurl

入口网址

organickeyword

搜索关键字

source

搜索源

系统数据说明

2网页类型说明项目10任务一【任务实施】

fullurlid字段是针对在法律资讯网站中不同网页类型的编码。

网页类型编码

网页类型的网址示例

说明

101001

http://www.***.cn/ask/

咨询首页

101002

http://www.***.cn/ask/browse*.html

咨询列表页

101003

http://www.***.cn/ask/question_*.htm1

咨询内容页

101004

http://www.***.cn/ask/expert/

律师专家团

101005

http://www.***.

您可能关注的文档

文档评论(0)

乐毅淘文斋 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8121131046000040

1亿VIP精品文档

相关文档