智能信息获取技术实验指导书.doc

下载文档

49
0
约 9页
2017-06-10 发布于北京
举报
版权申诉
保障服务

智能信息获取技术实验指导书.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

智能信息获取技术实验指导书

智能信息获取技术实验指导书实验一一、实验名称：基于Na?ve Bayes的信息获取二、实验目的：通过一个已有的训练数据集，观察训练集中的实例，，建立Bayes网络的预测模型，更好地理解和掌握Bayes算法的基本原理，建立相应的预测模型，然后对新的未知实例进行预测，预测的准确程度来衡量所建立模型的好坏。三、实验要求 1、熟悉Weka平台 2、掌握Na?ve Bayes算法 3、对数据进行预处理，利用Weka和不同参数设置进行关联分析，对比结果，得出结论，对问题进行总结。四、实验平台新西兰怀卡托大学研制的Weka系统五、试验数据 1、使用银行对资产进行评估的数据bank-data.arf，数据里有12个属性，分别是id,age,sex,region,income,married,children, car, save_act, current_act, mortgage,pep.共600个实例。 2、将含有600个实例的“bank-data.csv”文件中取出300个实例用做训练集，在另外300个实例中取50个作为待预测的实例。 3、本测试集中将pep属性作为分类的目标类别，因此将其设为缺失值．缺失值用？表示。六、试验方法和步骤 1、数据准备（1）将原来的bank-data.csv”文件bank-data.csv.arff”。“ID”属性不需要的。把“Children”属性转换成分类型的两个值“YES”和“NO”。bank-data.csv.arff”文件的600条数据中前300条数据作为训练数据集，并保存为文件。（5）从后300条数据里抽取50条数据作为测试数据集，它们的“pep”属性都设为缺失值用Explorer”打开训练集，观察一下它是不是按照前面的要求处理好了。切换到Classify”选项卡点击Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里树型框下方有一个“Filter...”按钮，点击可以根据数据集的特性过滤掉不合适的算法。我们数据集的输入属性中有“Binary”型（即只有两个类的分类型）和数值型的属性，而Class变量是“Binary”的；于是我们勾选“Binary attributes”“Numeric attributes”和“Binary class”。点“OK”后回到树形图，可以发现一些算法名称变红了，说明它们不能用。点击“Choose”右边的文本框，弹出新窗口为该算法设置各种参数。点“More”查看参数说明，点“Capabilities”是查看算法适用范围。这里我们把参数保持默认。看左中的“Test Option”。我们没有专门设置检验数据集，为了保证生成的模型的准确性而不至于出现过拟合（overfitting）的现象，我们有必要采用10折交叉验证（10-fold cross validation）来选择和评估模型选上“Cross-validation”并在“Folds”框填上“10”。点“Start”按钮开始让算法生成模型。这个的误差分析等等结果出现在右边的“Classifier output”中。同时左下的“Results list”出现了一个项目显示刚才的时间和算法名称。右键点击“Results list”刚才出现的那一项，弹出菜单中选择“Visualize tree”，。注意待预测数据集和训练用数据集各个属性的设置必须是一致的。在“Test Opion”中选择“Supplied test set”，并且“Set”成要应用模型的数据集，这里是“bank-new.arff”文件右键点击“Result list”中刚产生的那一项，选择“Re-evaluate model on current test set”。右边显示结果的区域中会增加一些内容，告诉你该模型应用在这个数据集上表现将如何。的Class属性都是些缺失值，那这些内容是无意义的，我们关注的是模型在新数据集上的预测值。点击右键菜单中的“Visualize classifier errors” 将弹出一个新窗口显示一些有关预测误差的散点点击这个新窗口中的“Save”按钮，保存一个Arff文件打开这个文件可以看到在倒数第二个位置多了一个属性（predictedpep），这个属性上的值就是模型对每个实例的预测值“Edit”按钮可以查看这个数据集的内容。七、通过实验,要求同学在贝叶斯信息获取实验中解决以下问题，并递交完整的实验报告 1、在数据预处理中，通过转换与否的实验比较,判断是否一定要把“Children”属性转换成分类型的两个值“YES” “NO”。 2、在算法选择时,点击“Choose”按钮后可以看到哪些分类的算法分门别类的