- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2013数据挖掘课程设计与报告
2013数据挖掘课程设计与报告 邮件提交到:qiliuql@ (请记得注明姓名和学号) 基本安排 三类设计与报告 基本设计(3个候选)----粘帖主要代码与实验报告 扩展设计(2个候选) ----粘帖主要代码与实验报告 课程报告(3个候选) ----提交最终报告 以上8个候选中可任意选一个完成 如果完成多个候选任务,可以用来弥补平时成绩与期末成绩的不足 完成时间: 第一个Deadline: 2014.1.26日 最后一个Deadline:2014.2.14日 提交方式:邮件到qiliuql@(我会回复确认收到) 要求: 只需要独立完成、写出自己的认识即可 课程设计没有代码量限制,可以借助Weka等开源工具 课程报告至少撰写2000字 * 基本设计 候选1:分类算法 独立完成至少以下两个分类算法:KNN、Bayes、Decision Tree、SVM或ANN,并在Iris数据(/ml/datasets/Iris)上进行测试,对比算法优劣,最后提交实验报告,并在实验报告中粘帖主要代码。 也可以实现教材或课程中没涉及的分类算法,实现的分类算法越多,得分越高 如果能使用Ensemble算法(如Boosting、Adaboost)提升分类效果,也有额外加分 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述 基本设计 候选2:聚类算法 独立完成至少两个聚类算法,如K-means、EM、DBSCAN等,并在Protein-data数据(/ml/datasets/Protein+Data)上进行测试,对比算法优劣,最后提交实验报告,并在实验报告中粘帖主要代码。 也可以实现教材或课程中没涉及的聚类算法,实现的聚类算法越多,得分越高 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述 基本设计 候选3:关联规则 实现Aprior、FP-Growth或PrefixSpan频繁模式挖掘算法,并在UCI Slice Dataset (/ml/datasets/Molecular+Biology+%28Splice-junction+Gene+Sequences%29) 进行验证,提交主要实验代码以及找到的频繁模式。 支持度与置信度等参数可以自己设置与调节 可以使用自有数据(如工作中遇到的数据),但要给出大体的数据描述 扩展设计 候选4:有原始数据,有明确的数据挖掘问题 数据: /~qiliuql/files/DM2013/NetworkData.zip 数据描述:这是从DBLP下载的科学家发表论文的合作网络数据,包含两个文件 AuthorList.txt 科学家名字以及网络中的ID Network.txt 科学家ID、科学家ID、合作紧密度(即两个科学家对应网络结点间的连边权重) 问题:在这个已知的科学家合作网络中,找到你认为最重要的一组结点(如Top-10科学家)。 要求:完成实验报告、请附主要算法思想、实验代码与实验结果。(可以google一下你所找到的科学家名字,看看他们是不是真的非常有学术地位) 扩展设计 候选5:有原始数据,自己寻找数据挖掘问题 数据:利用候选4中的数据 问题:可以在这个网络中进行社团发现、链接预测、重要结点识别、为一些给定结点找到与其关系最紧密的结点、或者其他任何你认为有意思的问题 也可以完成针对相关算法的增量式、分布式算法设计等 要求:完成实验报告、请附主要算法思想、实验代码与实验结果。 课程报告 候选6:大数据与数据挖掘调研报告 写出你对“大数据”的理解,给出你在工作和生活中所遇到的大数据以及数据挖掘问题,同时解释一下数据挖掘方法在处理大数据问题时发挥的作用(结合实际场景)。 你怎么理解大数据与数据挖掘的核心价值。 你怎么看数据挖掘未来的机遇与挑战。 课程报告 候选7:智能服务中的群组效应(Group-effect)分析 背景:在智能服务中,我们经常会面对“群组”现象。如,推荐(检索)系统中的推荐(检索)结果是以群组的形式出现,社交网络中找到的影响力最大的一组用户也是以群组的形式展现。群组中的个体组合到一起发挥着功效(例如,左右用户对产品的选择),所以有必要从组合的观点分析和挖掘群组的效应,以及群组中个体的作用。 要求:请介绍一下,你在工作和生活中遇到的其他以群组形式出现的实际例子,同时给出在该应用下进行群组生成、分析与挖掘中存在的研究问题,以及可能的数据挖掘解决方案。 课程报告 候选8:数据挖掘可能的学科交叉点调研报告 背景:随着数据的积累,数据挖掘技术已经可以进行广泛应用。然而,当前数据挖掘的主要研究者多是来自于计算机学科,受学科局限性,在数据挖掘的理论提炼、技术更新、应用拓展等方面仍有诸多不足。作为一个开放性的领域,其他学科的相关成果必然可以用来指导
您可能关注的文档
- 13.2如何提取金属.ppt
- 13.光的偏振.ppt
- 13.《羊八井大型水契伦科夫探测器中双增益大动态范围前放的研.ppt
- 1305267550335515.ppt.ppt
- 135个寓教于乐的科学小游戏.doc
- 13185.ppt.ppt
- 13.应英系-国立高雄第一科技大学学生e部落格.ppt
- 13医院感染.ppt-吉林大学课程中心.ppt
- 13第十三章生化药物分析.ppt.ppt
- 13-14质量管理工具.ppt-同济大学经济与管理学院.ppt
- 广东省深圳市龙华区2024年七年级下学期期末英语试卷附参考答案.pdf
- 新乡航空工业(集团)有限公司校园招聘85人公开引进高层次人才和急需紧缺人才笔试参考题库答案详解版学生.docx
- 江苏省南京市六区重点名校2023-2024学年中考联考英语试卷含答案.pdf
- DB61T 1469-2021党政机关会议服务规范.docx
- 地区诚信与分析师盈利预测准确性:来自中国A股上市公司的证据.pdf
- DB61_T 1280-2019 矫形器配置服务规范.docx
- 特种设备隐患排查治理规范DB61T 1454—2021.docx
- 控制归责理论下个人信息处理民事责任的分配——以《中华人民共和国个人信息保护法》第21条为中心的分析.pdf
- 助残社会组织的发展困境与培育策略——基于甘肃的分析.pdf
- 城市地下空间兼顾人民防空工程设计标准.docx
文档评论(0)