- 1、本文档共114页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
数据探查数据可视化文本向量化数据转换贝叶斯分类模型训练数据预测基于贝叶斯理论的分类预测参考书目《机器学习技术任务驱动式教程》模块6机器学习技术
目录恶性肿瘤预测垃圾邮件预测广告短信预测小结习题六基于贝叶斯理论的分类预测模块6机器学习技术
breast-cancer-uci.data数据库来自威斯康星大学,记录了影响恶性癌症的10个特征信息,应用贝叶斯分类算法归纳出分类规则,分析特征信息的相关影响关系,最终判断患者是否患有恶性癌症。详细的字段描述见下表。1.1任务描述1恶性肿瘤预测字段字段类型允许为空标签?例子编号int否否1171845团块厚度int否否8细胞大小均匀性int否否6细胞形状均匀性int否否4边缘附着力int否否3
1.1任务描述字段字段类型允许为空标签?例子单层上皮细胞大小int否否5裸核str是否9乏味染色质int否否3正常核仁int否否1线粒体int否否1类别int否是4单层上皮细胞大小int否否5裸核str是否9接上1恶性肿瘤预测注:1.团块厚度、细胞大小均匀性、细胞形状均匀性、边缘附着力、单层上皮细胞大小、裸核、乏味染色质、正常核仁、线粒体字段中,取值均为1-10。2.类别字段中,2表示良性,4表示恶性。
1.1任务描述1)在数据探查时,将类别分为良性和恶性,分别统计特征分布。2)通过团块厚度、细胞大小均匀性、细胞形状均匀性、细胞形状均匀性、边缘附着力等特征,预测患者是否会患有恶性肿瘤。3)计算模型预测的准确率。4)特征团块厚度、细胞大小均匀性、细胞形状均匀性、边缘附着力、单层上皮细胞大小、裸核、乏味染色质、正常核仁、线粒体分别分别取值10、10、10、8、6、8、7、10、1,预测良性还是恶性。任务目标1恶性肿瘤预测
1.2任务分解import方式引入依赖的模块使用Matplotblib以密度图矩阵、热力图形式可视化样本的空间分布依赖库导入数据探查数据可视化从探查数据内容开始,经过分析数据分布,根据数据特征建立决策树分类模型,预测结果,计算预测的准确率。检查样本分布、特征/标签类型、空值、重复行、属性相互关系1恶性肿瘤预测
1.2任务分解转换Pandas类型到Numpy类型在已知样本上训练回归模型利用已经建立的逻辑贝叶斯模型进行结果预测数据转换模型训练预测接上模型评估根据测试集预测得到的label,跟真实label比较,计算预测准确率1恶性肿瘤预测
1.3任务实施1.3.1依赖库导入步骤1:定义2级标题。##fontcolor=black依赖库导入/font按“SHIFT+Enter”,运行结果如下:1恶性肿瘤预测
1.3任务实施步骤2:导入依赖库。importnumpyasnpimportpandasaspdimportmatplotlibasmplimportmatplotlib.pyplotaspltimportseabornassnsfromsklearnimportmodel_selectionfromsklearn.naive_bayesimportGaussianNB按“SHIFT+Enter”,检查输出无异常1恶性肿瘤预测
1.3任务实施1.3.2数据探查文件读入DataFrame对象后,需要观察不同标签的数据特征。步骤1:定义2级标题。##fontcolor=black数据探查/font按“SHIFT+Enter”,运行结果如下:1恶性肿瘤预测
1.3任务实施步骤2:读入数据集文件到DataFrame对象。df=pd.read_csv(c:/data/breast-cancer-uci.data,header=0)df.sample(5)按“SHIFT+Enter”,运行结果如下:1恶性肿瘤预测
1.3任务实施步骤3:利用数据交叉表进行数据字段描述。()按“SHIFT+Enter”,运行结果如下:1恶性肿瘤预测
1.3任务实施按“SHIFT+Enter”,运行结果如下:1恶性肿瘤预测
1.3任务实施步骤4:裸核字段频数统计。df[裸核].value_counts()1恶性肿瘤预测按“SHIFT+Enter”,运行结果如下:
1.3任务实施步骤5:裸核字段填充。df.loc[df[裸核]==?,裸核]=np.nandf[裸核].fillna(df[裸核].mode()[0],inplace=True)df[裸核].value_counts()1恶性肿瘤预测
1.3任务实施按“SHIFT+Enter”,运行结果如下:1恶性肿瘤预测
1.3任务实施步骤6:特征数据描述性统计。df.describe()按“SHIFT+Enter”,运行结果如下:1恶性肿瘤预测
1.3
您可能关注的文档
- 数据库应用基础(Access 2016) 赵增敏 习题答案.docx
- 《机器学习技术任务驱动式教程》习题答案汇总 第1--10章 .docx
- 机器学习技术任务驱动式教程-课件 模块1 了解机器学习.pptx
- 机器学习技术任务驱动式教程-课件 模块2 机器学习开发环境安装及使用.pptx
- 机器学习技术任务驱动式教程-课件 模块3 基于K-最近邻的分类预测.pptx
- 机器学习技术任务驱动式教程-课件 模块4 线性回归和逻辑回归预测.pptx
- 机器学习技术任务驱动式教程-课件 模块5 基于决策树的分类预测.pptx
- 机器学习技术任务驱动式教程-课件 模块7 基于支持向量机的分类预测.pptx
- 机器学习技术任务驱动式教程-课件 模块8 基于K-均值的聚类.pptx
- 机器学习技术任务驱动式教程-模块9 基于集成学习的分类预测.pptx
文档评论(0)