传说宝可梦识别——基于孤立森林的异常值检测.pptxVIP

  • 1
  • 0
  • 约1.95千字
  • 约 19页
  • 2023-08-19 发布于江苏
  • 举报

传说宝可梦识别——基于孤立森林的异常值检测.pptx

传说宝可梦识别12.10汇报人:陈科锜——基于孤立森林的异常值检测 1孤立森林算法2背景与数据集 3数据预处理4训练结果CONTENTS 1孤立森林PART 01 01孤立森林– 背景介绍异常的定义针对于不同类型的异常,要用不同的算法来进行检测,而孤立森林算法主要针对的是连续型结构化数据中的异常点。使用孤立森林(Isolation Forest,简称为iForest)的前提是,将异常点定义为那些 “容易被孤立的离群点” —— 可以理解为分布稀疏,且距离高密度群体较远的点。从统计学来看,在数 据空间里,若一个区域内只有分布稀疏的点,表示数据点落在此区域的概率很低,因此可以认为这些区域的点是异常的。也就是说,孤立森林算法的理论基础有两点:异常数据占总样本量的比例很小;异常点的特征值与正常点的差异很大。4 01孤立森林– 背景介绍5 01孤立森林– 算法原理6 01孤立森林– 算法原理7 01孤立森林– 算法原理8 01孤立森林– 注意事项 若训练样本中异常样本的比例较高,可能会导致最终结果不理想,因为这违背了该算法的理论基础; 异常检测跟具体的应用场景紧密相关,因此算法检测出的“异常” 不一定是实际场景中的真正异常,所以在特征选择时,要尽量过滤不相关的特征。9 2背景与数据集PART 02 02背景– 宝可梦简介宝可梦(ポケモン,Pokémon)是GAME FREAK公司开发的《精灵宝可梦》系列游戏及其衍生动画中的神奇生物,有些宝可梦和人类友好地居住在一起;有些野生宝可梦 则栖息于草丛、洞窟或是大海里。宝可梦从蛋中出生,许多宝可梦可以进化成另一种宝可梦,从而体型变大或者能力变强。宝可梦可以学会各种招式,使用招式可以对战或进行各种活动。已知的宝可梦可以依据特征分为18种属性,如水火草电等,属性之间具有相克关系。也有同时拥有2种属性的宝可梦。11 02背景– 宝可梦简介传说的宝可梦通常出现于《宝可梦》系列的封面,在该款游戏的剧情中扮演重要角色。传说的宝可梦往往拥有非常强大的力量,并且数量十分稀少。它们有的被奉为传说中的神明或神使、有的被认为是世间某物的创造者或管理者、有的甚至在过去引起了巨大的灾害。还有部分传说的宝可梦是人类为了某些目的而制造的强大宝可梦,其中不乏以其他传说的宝可梦为范本所制成的宝可梦。12 02数据集介绍来源:/dataset/dataDetail?dataId=83064本数据涵盖了从第一代到第七代共801只宝可梦的信息。数据特征上包含了基础的能力值,对于其他属性的克制能力,身高,体重,种类等等。数据字段:见jupyter notebook13 3数据预处理PART 03 03选择特征原案例:除‘name’,‘Japanese_name’,‘pokedex_number’外的所有维度15改进:合并“type1”和“type2”为“types”变“abilities”为“first_ability”(正则) 去掉“classfication”,“against_?”,“capture_rate”、“percentage_male”、 “generation”、“base_happiness” 03字符串编码 标签编码 LabelEncoder:对分类特征进行编码,即对不连续的数值或文本进行编码。给每个标签分配一个 0 ~ n_class-1 之间的编码,将其映射为连续的数值 独热编码 OneHotEncoder:用 n 位状态寄存器对 n 个状态编码,在任意时刻只有 1位有效16LabelEncoder 和 OneHotEncoder 混合使用先用 LabelEncoder 将文本编码为数值再将 Label 传入 OneHotEncoder 进行编码* 在后续的调整过程中,发现 OneHot编码并没有明显提升算法的精度,却增加了时间开销,故将其舍去,直接用 LabelEncoder进行编码 4训练结果PART 04 04小结18孤立森林与其他异常检测算法的差异孤立森林的创新点包括以下四个:Partial models:在训练过程中,每棵孤立树都是随机选取部分样本;No distance or density measures:不同于 KMeans、DBSCAN 等算法,孤立森林不需要计算有关距离、密度的指标,可大幅度提升速度,减小系统开销;Linear time complexity:因为基于 ensemble,所以有线性时间复杂度。通常树的数量越多,算法越稳定;Handle extremely large data size:由于每棵树都是独立生成的,因此可部署在大规模分布式系统上来加速运算。 感谢您的观看汇报人:陈科锜

文档评论(0)

1亿VIP精品文档

相关文档