- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
人工智能基础
编程作业2
/~linlixu/ai2017spring/
完成截止时间:2017/6/25
提交至:ustc_ai2017@163.com
助教: 刘精昌 [xdjcl@]
丁三潮 [dingsc@]
林曜 [cxwdnyd@]
申书恒 [vaip@]
实验说明
目的
本次实验考虑机器学习中传统的监督学习问题与非监督学习,基于两个应用 :
电影评价分类和图像分割,并结合课上介绍的相应学习算法,在数据集上分别进
行实验,以加强对相关算法原理及应用的理解。
提交
1. 实验提交邮箱:ustc_ai2017@163.com,主题:学号_姓名_实验二
2. 附件格式为“学号_姓名.(rar|zip)” ,要包括实验报告和实验代码。两
个实验的文件分别放在part1 和part2 文件夹中。实验报告可以共用一
份,也可以每个实验用单独的实验报告。
3. 实验使用Python 语言
Part 1. 电影评价分类(75%)
数据集介绍:
Large Movie Review Dataset 电影评价数据集,是一个用于情感二分类
的数据集。简单来说,该数据集从 IMDB 中抓下了一些电影评论,并将评分=7
的评论定为正面评价,将评分=4 的评论定为负面评价。我们需要通过训练,使
得模型能够对于一个没有评分的评论做出正面或负面的判断。
我们将提供特征一个含所有评价中出现词(包括标点符号)的字典,即每一
行一个单词的文本文件,第 i 行出现单词的 index 为i-1。给出数据的每一行
则为一个评价,第一列为其评分,后序由空格隔开的每一个形如 x:y 的输入表
示该评价中出现index 为x 的单词y 次。
训练与测试
在监督学习中,训练数据带有标号,在训练的过程中需要从训练数据
traindata 和其对应的标号trainlabel 中学习相应的分类模型。
在测试过程中,用学习到的模型对测试集中的数据testdata 作预测,并将
预测结果与测试数据的真实标签testlabel 进行比较,从而度量分类模型的性
能。
∑ (predict = )
∈
Accuracy =
#
实验要求:
1. 实现数据集的特征抽取(10%)
提交一个Python 函数getFeature(comment),其中comment 为一条评价,要
求函数返回从一条评价中抽取的特征向量。特征向量抽取的方法为 bag of
words,但由于我们的词典库过于庞大,需要对该特征进行优化。思考优化方法,
并在实验报告中给出选择的原因与分析过程。
2. 实现一个朴素贝叶斯分类器(10%)
提交一个Python 函数nBayesClassifier(traindata, trainlabel,
testdata, testlabel, threshold),其中threshold 为用于判断类别的后
验概率的阈值,即如果P(good|comment) threshold 则判断为正面评价。
要求函数返回对测试数据的预测ypred,以及通过与ground truth(真实评价)
比较计算得到的分类正确率accuracy,ypred与accuracy 以tuple形式返回。
3. 实现一个最小二乘分类器(引入规范化项后)(10%)
1). 对引入了L2规范化项之后的最小二乘分类问题进行推导。即求解以下优化
问题:
2 ‖ ‖2
(−) +
2). 基于1 中的结果,实现并提交一个Python 函数lsClassifier(traindata,
trainlabel, testdata, test
原创力文档


文档评论(0)