- 3
- 0
- 约2.98千字
- 约 4页
- 2017-06-08 发布于天津
- 举报
poj题目分类项目报告
POJ题目分类项目报告
王海波 杜仲轩 张东颖
【项目介绍】
POJ题目分类项目是以POJ PKU Online Judge 用户提交并审核通过的数据为基础,通过分析提交代码中用户所定义使用的函数名将同类或类似题目聚集在一起,使得用户可以方便地找到类似的题目加强训练,提高POJ用户体验;同时增强了POJ系统对题目的管理能力。
【开发平台】
使用IDE:Eclipse + Hadoop 0.17 plugin;
测试平台:alimama并行计算集群;
开发语言:Java、C++;
【项目设计】
一、数据来源
实验原始数据由杜仲轩获得,内容为ACM 系统数据库中提取用户已提交并审核通过的代码,容量为1.3GB左右。
二、数据分析
1 我们通过使用文本分析工具,将原始数据中所有由用户定义使用的函数名提取出来,并统计相同的函数名在不同题目中出现的次数,数据格式如下:
func_name prob_id_A@num_of_times_A [problem_id_B@num_of_times_B]…
2 分析同类函数名,并将同类函数名形成聚集。
在分析数据前我们曾经探讨过如何将算法实质相同的函数辨别出来并聚集在一起。例如:在使用最短路算法Dijkstra的题目中,用户倾向于定义名为dijkstra、dijk或zuiduanlu的函数,它们均实现了最短路算法。而我们
您可能关注的文档
- (为题。詹天佑是我国(的工程师。他的一生的突出成就是.ppt
- (一期)土地、建筑物权属及单一主体形成情况公示表.doc
- (一)高端人才.doc
- [教学目的]1、使学生了解大气环流的形成原因及影响.doc
- [url]福建商付宝电子商务有限公司(启付ipos全国战略合作.doc
- __学院学生综合素质测评汇总表.doc
- [学习目标]1.了解管理信息系统战略规划的概念,掌握管理信.ppt
- 《2016年重庆市专利事业发展战略推进计划》.doc
- 《背影》课件的教学思路每一个课件的使用都与相应的教学.ppt
- 《大学语文》复习指导说明.doc
- 【人民日报】十五五规划必刷100题及答案.docx
- 国家电网有限公司高校毕业生招聘考试公共与行业知识题库及答案(2026版).docx
- 高中入团积极分子考试题库及答案.docx
- 北京工业大学耿丹学院《社会福利思想》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《新中国史》2025-2026学年期末试卷.doc
- 北京工业大学耿丹学院《文献信息检索与利用》2025-2026学年期末试卷.doc
- 活动策划丨长城炮越野皮卡上市发布方案 .pdf
- 【中考动员】主题班会《100天做自己的六边形战士+》.pptx
- 中考英语高频词汇第二部分 阅读技能·提升练(学用).pdf
- 商业综合体安全生产管理制度.docx
原创力文档

文档评论(0)