大数据技术与应用大赛样题.doc.doc

下载文档

846
0
约2千字
约 9页
2017-03-08 发布于天津
举报
版权申诉
保障服务

大数据技术与应用大赛样题.doc.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据技术与应用大赛样题.doc

样题一：搜狗搜索用户行为分析用户行为分析主要是研究用户在互联网上用户、点击、行为通过对用户行为数据进行分析，可以让企业更加详细、清楚地了解用户的行为习惯，从而为企业的经营提供支持。本赛题大数据技术 2、数据集描述大小：数据范围：数据格式：访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID。数据样例： 3、任务说明参赛选手需提供的平台功能完成如下任务第一部分数据采集配置平台提供的爬虫功能根据给定的大赛平台模拟在线音乐服务web网页采集数据注：本部分仅考核参赛选手数据采集技能，为避免赛题错误传递，本部分结果数据不作为后续任务输入，不影响后续任务执行。第二部分数据预处理原始数据存放在文件系统，请apReduce或Spark代码数据预处理原始数据格式为gb18030解压之后出现中文乱码，请的编码格式解决数据乱码问题原始数据中，的分隔符为空格，请将为按 “t”分隔第三部分基于Hive构建数据仓库创建Hive数据表，预处理之后的导入进行处理。条数统计统计非空查询条数不为空的查询即有效查询次数统计独立UID（用户ID）总数，以了解用户总数一天内各的访问量输出参考格式为，小时查询次数的 01，1点的 …………… 23，23点的关键词分析分析所有用户关键词长度查询关键词，有的查询可能有多个关键词以了解用户的查询习惯次数前关键词以了输出格式为：查询次数的关键词2，关键词2的 ………….. 关键词10，关键词10的用户查询次数分析用户查询次数分布次数，用户数次的用户数 2次的用户数 ………… N，查询N次的用户数 10，关键词10的所有用户的平均查询次数次数大于的用户总数分析输出格式为，点击次数前 1，排名第1的URL被点击的次数 22的URL被点击的次数 ………… 50，排名第50的URL被点击的次数查询中，的结果就是用户输入的网址的占比查询中含有＋、－、and、or等符号以运用高级检索功能进行检索的查询占比例。输出根据，输出详细说明文档：需①每个任务代码或②代码或的时间及结果截③每个任务图表展现（不定）第六部分可视化展示使用平台提供的API,根据以上任务输出结果，用Java/.Net/Python等开发语言，完成一天内各的访问量排名样题二：全网新闻文本 1、赛题背景随着互联网的持续发展，网络媒体迅速壮大并逐渐渗透到人们工作生活的各个方面。由于具备开放、自由及高效等优势，网络媒体的影响力越来越大，已成为我国新闻传播事业的重要组成部分。网络新闻的极大丰富给实时掌握特定领域的新闻热点带来了挑战。因此，设计一个专门化、自动化的网络新闻文本分类系统来实现网络媒体中海量信息的自动分类，对于提高新闻热点分析的效率具有重要的现实意义。而网络新闻文本分类系统的核心便是新闻文本分类算法。赛题全网的文本数据，环境下的文本分类算法，文本分类的。描述大小：数据范围：同时提供。格式： doc docno页面ID/docno contenttitle页面标题/contenttitle content页面内容/content /doc 数据样例： 3、任务说明以下任务均在大数据平台下进行，数据预处理到模型评估均MapReduce或Spark。采集配置平台提供的爬虫功能根据给定的大赛平台模拟在线音乐服务web网页采集数据注：本部分仅考核参赛选手数据采集技能，为避免赛题错误传递，本部分结果数据不作为后续任务输入，不影响后续任务执行。第二部分数据预处理原始数据存放在文件系统，请apReduce或Spark代码数据预处理从原始数据文件提取正文和类别标签对所有新闻分词分词后的新闻文本进行停用词过滤向量化构建数据字典的新闻文本进行特征词提取字典。例如：的数据字典矩阵的值可以tf、tfidf等。如果维数过高，可进行降维处理。第四模型对向量化后的训练集分类自行选择算法第五部分预测与评估测试集根据训练得到的模型文件，进行分类。对比测试集分类结果和真实类别标签本赛题具体来说，模型的F1-Score的计算方法如下：其中，P是准确率， R是召回率。第六部分文档的内容：结果 2)程序代码第七部分可视化展示使用平台提供的API,根据以上任务输出结果，用Java/.Net/Python等开发语言，完成分类结果图可视化展示程序的开发。