网站大量收购独家精品文档,联系QQ:2885784924

大数据技术与应用大赛样题.doc.doc

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据技术与应用大赛样题.doc

样题一:搜狗搜索用户行为分析 用户行为分析主要是研究用户在互联网上用户、点击、行为 通过对用户行为数据进行分析,可以让企业更加详细、清楚地了解用户的行为习惯,从而为企业的经营提供支持。 本赛题大数据技术 2、数据集描述 大小: 数据范围: 数据格式: 访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击的URL 其中,用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值,即同一次使用浏览器输入的不同查询对应同一个用户ID。 数据样例: 3、任务说明 参赛选手需提供的平台功能完成如下任务 第一部分 数据采集 配置平台提供的爬虫功能根据给定的大赛平台模拟在线音乐服务web网页采集数据 注:本部分仅考核参赛选手数据采集技能,为避免赛题错误传递,本部分结果数据不作为后续任务输入,不影响后续任务执行。 第二部分 数据预处理 原始数据存放在文件系统,请apReduce或Spark代码数据预处理 原始数据格式为gb18030解压之后出现中文乱码,请的编码格式解决数据乱码问题 原始数据中,的分隔符为空格,请将为按 “t”分隔 第三部分 基于Hive构建数据仓库 创建Hive数据表,预处理之后的导入进行处理。 条数统计 统计非空查询条数不为空的查询即有效查询次数 统计独立UID(用户ID)总数,以了解用户总数 一天内各的访问量 输出参考格式为,小时查询次数 的 01,1点的 …………… 23,23点的 关键词分析 分析所有用户关键词长度查询关键词,有的查询可能有多个关键词以了解用户的查询习惯 次数前关键词以了 输出格式为:查询次数 的 关键词2,关键词2的 ………….. 关键词10,关键词10的 用户查询次数分析 用户查询次数分布 次数,用户数 次的用户数 2次的用户数 ………… N,查询N次的用户数 10,关键词10的 所有用户的平均查询次数 次数大于的用户总数 分析 输出格式为,点击次数前 1,排名第1的URL被点击的次数 22的URL被点击的次数 ………… 50,排名第50的URL被点击的次数 查询中,的结果就是用户输入的网址的占比 查询中含有+、-、and、or等符号以运用高级检索功能进行检索的查询占比例。 输出 根据,输出详细说明文档:需①每个任务代码或②代码或的时间及结果截③每个任务图表展现(不定) 第六部分 可视化展示 使用平台提供的API,根据以上任务输出结果,用Java/.Net/Python等开发语言,完成一天内各的访问量排名 样题二:全网新闻文本 1、赛题背景 随着互联网的持续发展,网络媒体迅速壮大并逐渐渗透到人们工作生活的各个方面。由于具备开放、自由及高效等优势,网络媒体的影响力越来越大,已成为我国新闻传播事业的重要组成部分。网络新闻的极大丰富给实时掌握特定领域的新闻热点带来了挑战。因此,设计一个专门化、自动化的网络新闻文本分类系统来实现网络媒体中海量信息的自动分类,对于提高新闻热点分析的效率具有重要的现实意义。而网络新闻文本分类系统的核心便是新闻文本分类算法。 赛题全网的文本数据,环境下的文本分类算法,文本分类的。 描述 大小: 数据范围: 同时提供。 格式: doc docno页面ID/docno contenttitle页面标题/contenttitle content页面内容/content /doc 数据样例: 3、任务说明 以下任务均在大数据平台下进行,数据预处理到模型评估均MapReduce或Spark。 采集 配置平台提供的爬虫功能根据给定的大赛平台模拟在线音乐服务web网页采集数据 注:本部分仅考核参赛选手数据采集技能,为避免赛题错误传递,本部分结果数据不作为后续任务输入,不影响后续任务执行。 第二部分 数据预处理 原始数据存放在文件系统,请apReduce或Spark代码数据预处理 从原始数据文件提取正文和类别标签 对所有新闻分词 分词后的新闻文本进行停用词过滤 向量化 构建数据字典 的新闻文本进行特征词提取字典。 例如:的数据字典矩阵的值可以tf、tfidf等。如果维数过高,可进行降维处理。 第四模型 对向量化后的训练集分类自行选择算法 第五部分 预测与评估 测试集根据训练得到的模型文件,进行分类。 对比测试集分类结果和真实类别标签 本赛题 具体来说,模型的F1-Score的计算方法如下: 其中,P是准确率, R是召回率。 第六部分 文档的内容: 结果 2)程序代码 第七部分 可视化展示 使用平台提供的API,根据以上任务输出结果,用Java/.Net/Python等开发语言,完成分类结果图可视化展示程序的开发。

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档