- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据上传完成后,新建一个命名为【医疗保险的欺诈发现】的空白工程,配置一个【输入源】组件,步骤如下。 在【工程】模块左下方的【组件】栏中,找到【系统组件】类下的【输入/输出】类。拖曳【输入/输出】类中的【输入源】组件至工程画布中。 获取数据 单击画布中的【输入源】组件,然后单击工程画布右侧【字段属性】栏中的【数据表】框,输入“policy_holder”,在弹出的下拉框中选择【policy_holder】,如图所示。 获取数据 右键点击【输入源】组件,选择【重命名】输入“投保人信息表”,如图所示。 获取数据 右键单击【投保人信息表】组件,选择【查看数据】,如图所示。由图可知,该数据共有400条记录。 获取数据 描述性统计分析,计算每个属性的记录总数、均值、方差、最小值、最大值和缺失值个数等指标,步骤如下。 拖曳【统计分析】类中的【全表统计】组件至工程画布中,并与【投保人信息表】组件相连接。 数据准备 1.描述性统计 单击画布中的【全表统计】组件,在工程画布右侧【字段属性】栏中,单击【特征】项下的【刷新】按钮,勾选全部字段,如图所示。 数据准备 右键单击【全表统计】组件,选择【运行该节点】。运行完成后,右键单击【全表统计】组件,选择【查看数据】,如图所示,字段“null”数值为0,说明数据中不存在空值的记录。 数据准备 将投保人信息表进行列名修改,步骤如下。 拖曳【数据预处理】类中的【修改列名】组件至工程画布中,并与【投保人信息表】组件相连接。 数据准备 2.修改列名 单击画布中的【修改列名】组件,在工程画布右侧【字段属性】栏中,单击【特征】项下的【刷新】按钮,勾选全部字段,如图所示。 数据准备 在工程画布右侧【字段属性】,在【新列名】项【新字段名】列中输入各字段的新字段名,如图所示。 数据准备 右键单击【修改列名】组件,选择【运行该节点】。运行完成后,右键单击【修改列名】组件,选择【查看数据】,如图所示,经过【修改列名】组件处理后,数据的字段名已修改为新字段名。 数据准备 选用保险条款分析投保人信息,并绘制饼图,步骤如下。 拖曳【绘图】类中的【饼图】组件至工程画布中,并与【保险条款频数统计】组件相连接。 数据准备 2.绘制保险条款类别饼图 单击画布中的【饼图】组件,在工程画布右侧【字段属性】栏中,单击【绘制数据】项下的【刷新】按钮,勾选count字段,单击【标签】项下的【刷新】按钮,勾选保险条款字段,如图所示。 数据准备 右键单击【饼图】组件,选择【运行该节点】。运行完成后,右键单击【饼图】组件,选择【查看报告】,如图所示,投保险条款分别为老年保障险与伤残险,这两种保险条款被投数量比例几近一致。 数据准备 本章主要根据投保人的住院开始时间属性将其划分为上、下半年两个部分后,分别统计得到半年保费覆盖额、半年账单金额、半年支付金额、半年支付笔数、年龄、性别、保险条款、治疗措施编码。采用的方法有表连接、数据编码化和数据标准化等。 特征工程 将投保人信息表的年龄、性别、保险条款、治疗措施编码,与索赔信息表统计得到半年保费覆盖额、半年账单金额、半年支付金额、半年支付笔数,按照投保人编号,所属时间段为组件就行全外连接,步骤如下。 拖曳【数据预处理】类中的【表连接】组件至工程画布中,并与【表堆叠】、【表连接】组件相连接。 单击【左表特征】项下的【刷新】按钮,选择全部字段。单击【右表特征】项下的【刷新】按钮,选择全部字段,单击【左表主键】项下的【刷新】按钮,选择“投保人编号”和“所属时间段”,单击【左表组件】项下的【刷新】按钮,选择“投保人编号”和“所属时间段”。 特征工程 1.表连接 单击工程画布右下方的【参数设置】栏,在【连接方法】项中选择【全外连接】,如图所示。 特征工程 运行【表连接】组件,运行完成后,右键单击【表连接】组件,选择【查看数据】查看组件数据。【表连接】组件处理后的数据共有800条记录,10个字段。 特征工程 由于数据中“保险条款”,“治疗措施编码”,“性别”为字符型数据,需要将这些字段进行独热编码,步骤如下。 拖曳【数据预处理】类中的【数据编码化】组件至工程画布中,并与【缺失值处理】组件相连接。 特征工程 2.数据编码化 单击【数据】项下的【刷新】按钮,勾选全部字段,单击【编码特征】项下的【刷新】按钮,勾选“保险条款”,“治疗措施编码”,“性别”字段,如图所示。 特征工程 运行【数据编码化】组件,运行完成后,右键单击【数据编码化】组件,选择【查看数据】查看组件数据,如图所示。字段“保险条款”,“治疗措施编码”,“性别”已独热编码化。 特征工程 由于属性间的数据取值范围差异较大,为了消除量级带来的影响,需要进行标准化处理,步骤如下。 拖曳【数据预处理】类中的【数据标准化】组件至工程画布中,并与【数据编码化】组件
您可能关注的文档
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第5章 无监督学习.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第6章 智能推荐.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第7章 医疗保险的欺诈发现模型.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第8章 中医证型关联规则分析.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第9章 糖尿病遗传风险预测.ppt
- 临床医学大数据分析与挖掘—基于Python的机器学习与临床决策 第10章 基于深度残差网的皮肤癌检测.ppt
- 2024年度民主生活会党员干部四个带头个人对照检查材料.docx
- 某县委2024年度履行党风廉政建设主体责任情况的汇报.docx
- 2024年度民主生活会个人对照检查材料(“四个带头”).docx
- 几种常用生物活性测试方法简介.ppt
文档评论(0)