- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术与应用大赛样题.doc
样题一:搜狗搜索用户行为分析
用户行为分析主要是研究用户在互联网上用户、点击、行为
通过对用户行为数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而为企业的经营提供支持。
本赛题大数据技术
2、数据集描述
大小:
数据范围:
数据格式:
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL
其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。
数据样例:
3、任务说明
参赛选手需提供的平台功能完成如下任务
第一部分 数据采集
配置平台提供的爬虫功能根据给定的大赛平台模拟在线音乐服务web网页采集数据
注:本部分仅考核参赛选手数据采集技能,为避免赛题错误传递,本部分结果数据不作为后续任务输入,不影响后续任务执行。
第二部分 数据预处理
原始数据存放在文件系统,请apReduce或Spark代码数据预处理
原始数据格式为gb18030解压之后出现中文乱码,请的编码格式解决数据乱码问题
原始数据中,的分隔符为空格,请将为按 “t”分隔
第三部分 基于Hive构建数据仓库
创建Hive数据表,预处理之后的导入进行处理。
条数统计
统计非空查询条数不为空的查询即有效查询次数
统计独立UID(用户ID)总数,以了解用户总数
一天内各的访问量
输出参考格式为,小时查询次数
的
01,1点的
……………
23,23点的
关键词分析
分析所有用户关键词长度查询关键词,有的查询可能有多个关键词以了解用户的查询习惯
次数前关键词以了
输出格式为:查询次数
的
关键词2,关键词2的
…………..
关键词10,关键词10的
用户查询次数分析
用户查询次数分布
次数,用户数
次的用户数
2次的用户数
…………
N,查询N次的用户数
10,关键词10的
所有用户的平均查询次数
次数大于的用户总数
分析
输出格式为,点击次数前
1,排名第1的URL被点击的次数
22的URL被点击的次数
…………
50,排名第50的URL被点击的次数
查询中,的结果就是用户输入的网址的占比
查询中含有+、-、and、or等符号以运用高级检索功能进行检索的查询占比例。
输出
根据,输出详细说明文档:需①每个任务代码或②代码或的时间及结果截③每个任务图表展现(不定)
第六部分 可视化展示
使用平台提供的API,根据以上任务输出结果,用Java/.Net/Python等开发语言,完成一天内各的访问量排名
样题二:全网新闻文本
1、赛题背景
随着互联网的持续发展,网络媒体迅速壮大并逐渐渗透到人们工作生活的各个方面。由于具备开放、自由及高效等优势,网络媒体的影响力越来越大,已成为我国新闻传播事业的重要组成部分。网络新闻的极大丰富给实时掌握特定领域的新闻热点带来了挑战。因此,设计一个专门化、自动化的网络新闻文本分类系统来实现网络媒体中海量信息的自动分类,对于提高新闻热点分析的效率具有重要的现实意义。而网络新闻文本分类系统的核心便是新闻文本分类算法。
赛题全网的文本数据,环境下的文本分类算法,文本分类的。
描述
大小:
数据范围:
同时提供。
格式:
doc
docno页面ID/docno
contenttitle页面标题/contenttitle
content页面内容/content
/doc
数据样例:
3、任务说明
以下任务均在大数据平台下进行,数据预处理到模型评估均MapReduce或Spark。
采集
配置平台提供的爬虫功能根据给定的大赛平台模拟在线音乐服务web网页采集数据
注:本部分仅考核参赛选手数据采集技能,为避免赛题错误传递,本部分结果数据不作为后续任务输入,不影响后续任务执行。
第二部分 数据预处理
原始数据存放在文件系统,请apReduce或Spark代码数据预处理
从原始数据文件提取正文和类别标签
对所有新闻分词
分词后的新闻文本进行停用词过滤
向量化
构建数据字典
的新闻文本进行特征词提取字典。
例如:的数据字典矩阵的值可以tf、tfidf等。如果维数过高,可进行降维处理。
第四模型
对向量化后的训练集分类自行选择算法
第五部分 预测与评估
测试集根据训练得到的模型文件,进行分类。
对比测试集分类结果和真实类别标签
本赛题
具体来说,模型的F1-Score的计算方法如下:
其中,P是准确率, R是召回率。
第六部分
文档的内容:
结果
2)程序代码
第七部分 可视化展示
使用平台提供的API,根据以上任务输出结果,用Java/.Net/Python等开发语言,完成分类结果图可视化展示程序的开发。
您可能关注的文档
- 城市经济与公共管理学院--王婷--4050人群社会保险补助.doc
- 城市设计历程-清华大学建筑学院.doc
- 城市轨道交通试运营前安全评价规范-国家安全生产监督管理总局.doc
- 城市进程中小洲村的可持续发展.doc
- 城镇污水处理厂项目应注意的问题.doc.doc
- 培智学校标准正文.doc.doc
- 培训的时间A.ppt
- 基于AD6634的数字下变频技术研究.doc
- 基于cameralink总线的多台ccd高速图像采集技术(程祖桥-China-VO.ppt
- 基于DM342的PMP设计.doc
- CNAS-CL63-2017 司法鉴定-法庭科学机构能力认可准则在声像资料鉴定领域的应用说明.docx
- 12J7-3 河北《内装修-吊顶》.docx
- 12N2 河北省12系列建筑标准设计图集 燃气(油)供热锅炉房工程.docx
- 内蒙古 12S8 排水工程 DBJ03-22-2014.docx
- 山西省 12S10 12系列建筑标准设计 管道支架、吊架.docx
- 16J601-木门窗标准图集.docx
- 12J8 河北省12系列《 楼梯》.docx
- CNAS-GL37 2015 校准和测量能力(CMC)表示指南.docx
- CNAS-RL02-2016 能力验证规则.docx
- 津02SJ601 PVC塑料门窗标准.docx
文档评论(0)