- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
PartIPartII小组任务(分组要求每组2~3人).PDF
Part I
个人任务:在UCI 数据集上实现分类算法或者聚类算法
每个数据集(/ml/datasets.html)有详细的介绍
实验过程:
1、在 UCI 数据集中选择一类任务(分类或者是聚类),然后选定某个合适的数据集,要求
这个数据集不能太小,否则会影响最终的得分;
2、对你选择的数据集进行简单的描述,比如特征和数据集大小;
3、对数据集进行预处理,具体的预处理的方法可以参照课件NO. 11 (要求将数据集的最后
10%划分为测试集);
4 、对于分类任务,要求分别实现KNN 算法和逻辑斯蒂回归(Logistic Regression)算法;
对于聚类任务,要求分别实现层级聚类(Hierarchical clustering)算法和K-means 算法。针
对你选择的任务,需要对算法进行描述(可以采用伪代码的形式);
5、模型评估:根据课件中提到的评估准则 (聚类评估标准不少于 3 种),对你选择的任务
中使用的两种方法进行性能分析比较,要求有相应的图表分析给出;
6、编程语言不限 (注意,如果直接调用机器学习的包,不予计分)
实验报告要求:
1)实验报告需要给出你所选定数据集的描述,以及你对数据集所做的预处理的步骤;(10%)
2)实验报告需要你给出针对特定数据集的两个算法的描述(以伪代码的形式给出);(20%)
3)由于数据集为开放选取,所以对模型的评估需要你在测试集上进行,给出相应的图表分
析。在聚类任务中,对于K-means 算法,需要你给出不同K 值的选取以及对应的结果分析,
对于层级聚类,需要你给出预设的簇的个数K,以及对应的结果分析。(20%)
提交内容:
1)数据预处理的源码 (10%)、两个算法的源码 (20% + 20%),
以python 实现分类算法为例,分别为preprocessing.py、knn.py、logistic_regression.py
源码单独保存在一个文件夹“codes”中!
2)实验报告,保存为pdf 格式(50%)。
以上内容置于文件夹“实验二_part1”中
Part II 小组任务(分组要求:每组2~3 人)
①推荐系统 (Recommendation System)
该部分的实验我们采用了经典的推荐系统数据集:MovieLens。由于MovieLens 有很多版本,
出于对计算力的考虑,本次实验我们采用MovieLens 1M Dataset 数据集。该数据集的详细
描述会在/datasets/movielens/1m/中的README 中给出。
任务描述:
1、预处理:下载得到的文件包括三个部分:ratings.dat,users.dat,movies.dat。其中,ratings.dat
是核心文件,其余两个文件作为补充信息给出。为了便于处理,不同的数据集可以通过关键
字进行合并。另外,在进行模型训练前,需要在数据集中随机选择一部分作为测试集。
2、任务描述:
1)根据ratings.dat 建立评分矩阵(ratings matrix),分别使用Content-Based Methods
和Collaborative Filtering Methods 来补全矩阵;
Tips :使用这种标准方法只能获得基本分。我们的数据集给出了附加的数据 users.dat
和movies.dat,所以可以尝试根据这些数据提高模型的性能。这里给出一个思路仅做参
考:通过用户评分过的电影来找到电影所属的流派,进而分析用户的流派喜好,根据用
户的流派喜好寻找最近邻,从而做出预测。
2)测试:获取测试集上的预测结果。
3)评估:使用不少于4 项的评价标准(例如 RMSE 、MAE、Precision 和 Recall)来评
估模型在训练集上的性能。同样,需要给出相应的图表分析。
4)编程语言不限 (注意,如果直接调用机器学习的包,不予计分)
3、根据实验的结果,对这两种方法的优缺点(Pros Cons)做出比较。
4 、进一步的思考:课上在最后提到了现在的推荐系统任务中,仍然存在很多的挑战,比如
多样性(Diversity)、准确性(Accuracy)以及扩展性(Scalability)。
针对多样性问题,在个性化的推荐系统中,多样性有3 个方面的含义:个体多样性、总体多
样性和时序多样性。个体多样性(individual diversity)从单个用户的角度来度量推荐的多样
性,主要考察系统能够找到用户喜欢的冷门项目的能力;总体多样性(aggregate diversity)
主要强调针对
文档评论(0)