PartIPartII小组任务(分组要求每组2~3人).PDF

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PartIPartII小组任务(分组要求每组2~3人).PDF

Part I 个人任务:在UCI 数据集上实现分类算法或者聚类算法 每个数据集(/ml/datasets.html)有详细的介绍 实验过程: 1、在 UCI 数据集中选择一类任务(分类或者是聚类),然后选定某个合适的数据集,要求 这个数据集不能太小,否则会影响最终的得分; 2、对你选择的数据集进行简单的描述,比如特征和数据集大小; 3、对数据集进行预处理,具体的预处理的方法可以参照课件NO. 11 (要求将数据集的最后 10%划分为测试集); 4 、对于分类任务,要求分别实现KNN 算法和逻辑斯蒂回归(Logistic Regression)算法; 对于聚类任务,要求分别实现层级聚类(Hierarchical clustering)算法和K-means 算法。针 对你选择的任务,需要对算法进行描述(可以采用伪代码的形式); 5、模型评估:根据课件中提到的评估准则 (聚类评估标准不少于 3 种),对你选择的任务 中使用的两种方法进行性能分析比较,要求有相应的图表分析给出; 6、编程语言不限 (注意,如果直接调用机器学习的包,不予计分) 实验报告要求: 1)实验报告需要给出你所选定数据集的描述,以及你对数据集所做的预处理的步骤;(10%) 2)实验报告需要你给出针对特定数据集的两个算法的描述(以伪代码的形式给出);(20%) 3)由于数据集为开放选取,所以对模型的评估需要你在测试集上进行,给出相应的图表分 析。在聚类任务中,对于K-means 算法,需要你给出不同K 值的选取以及对应的结果分析, 对于层级聚类,需要你给出预设的簇的个数K,以及对应的结果分析。(20%) 提交内容: 1)数据预处理的源码 (10%)、两个算法的源码 (20% + 20%), 以python 实现分类算法为例,分别为preprocessing.py、knn.py、logistic_regression.py 源码单独保存在一个文件夹“codes”中! 2)实验报告,保存为pdf 格式(50%)。 以上内容置于文件夹“实验二_part1”中 Part II 小组任务(分组要求:每组2~3 人) ①推荐系统 (Recommendation System) 该部分的实验我们采用了经典的推荐系统数据集:MovieLens。由于MovieLens 有很多版本, 出于对计算力的考虑,本次实验我们采用MovieLens 1M Dataset 数据集。该数据集的详细 描述会在/datasets/movielens/1m/中的README 中给出。 任务描述: 1、预处理:下载得到的文件包括三个部分:ratings.dat,users.dat,movies.dat。其中,ratings.dat 是核心文件,其余两个文件作为补充信息给出。为了便于处理,不同的数据集可以通过关键 字进行合并。另外,在进行模型训练前,需要在数据集中随机选择一部分作为测试集。 2、任务描述: 1)根据ratings.dat 建立评分矩阵(ratings matrix),分别使用Content-Based Methods 和Collaborative Filtering Methods 来补全矩阵; Tips :使用这种标准方法只能获得基本分。我们的数据集给出了附加的数据 users.dat 和movies.dat,所以可以尝试根据这些数据提高模型的性能。这里给出一个思路仅做参 考:通过用户评分过的电影来找到电影所属的流派,进而分析用户的流派喜好,根据用 户的流派喜好寻找最近邻,从而做出预测。 2)测试:获取测试集上的预测结果。 3)评估:使用不少于4 项的评价标准(例如 RMSE 、MAE、Precision 和 Recall)来评 估模型在训练集上的性能。同样,需要给出相应的图表分析。 4)编程语言不限 (注意,如果直接调用机器学习的包,不予计分) 3、根据实验的结果,对这两种方法的优缺点(Pros Cons)做出比较。 4 、进一步的思考:课上在最后提到了现在的推荐系统任务中,仍然存在很多的挑战,比如 多样性(Diversity)、准确性(Accuracy)以及扩展性(Scalability)。 针对多样性问题,在个性化的推荐系统中,多样性有3 个方面的含义:个体多样性、总体多 样性和时序多样性。个体多样性(individual diversity)从单个用户的角度来度量推荐的多样 性,主要考察系统能够找到用户喜欢的冷门项目的能力;总体多样性(aggregate diversity) 主要强调针对

文档评论(0)

shiyouguizi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档