- 1、本文档共74页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析师知识分类总结
C1 统计基本概念篇
1. 异常值指什么?请列举1种识别连续型变量异常值的方法?
1)异常值outlier:一组观测值中与平均值的偏差超过两倍标准差的测定值
高度异常的异常值:与平均值的偏差超过三倍标准差的测定值
2)判断异常值的规则:
标准差已知:奈尔(Nair)检验法
标准差未知:t检验法,格拉布斯(Grubbs)检验法,风度检验法,狄克逊(Dixon)检验法,偏度检验法
3)盒形图 用的比较多
箱线图
箱线图(或称箱形图)能在同一张图上体现多个距和四分位数,“箱”显示出四分位数和四分位距的位置,“线”则显示出上、下界
2. 数据标准化技术
(1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即
(2)
2.数据标准化技术
3.缺失值处理方法
1)直接丢弃含缺失数据的记录
如:个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备,会造成资源的大量浪费,丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大,特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。
2)补缺
A. 用平均值来代替所有缺失数据:均值替换法
B. K -最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本,将这K个值加权平均来估计该样本的缺失数据。
C.用预测模型来预测每一个缺失数据:该方法最大限度地利用已知的相关数据,是比较流行的缺失数据处理技术。如:回归替换法
弊端:
A 容易忽视随机误差
B 研究者必须假设存在缺失值所在的变量与其他变量存在线性关系
4.常用的抽样方法有哪些
1. 简单抽样
即简单随机抽样,指保证大小为n的每个可能的样本都有相同的被抽中的概率。
2. 系统抽样
将总体中的各单元先按一定顺序排列,并编号,然后按照不一定的规则抽样。其中最常采用的是等距离抽样,即根据总体单位数和样本单位计算出抽样距离(即相同的间隔),然后按相同的距离或间隔抽选样本单位。例如:从1000个电话号码中抽取10个访问号码,间距为100,确定起点(起点<间距)后每100号码抽一访问号码。
3. 分层抽样
是把调查总体分为同质的、互不交叉的层(或类型),然后在各层(或类型)中独立抽取样本
4.整群抽样(Cluster sampling)(层层深入抽样,不断缩小抽样的范围)
5.统计学基础
1)随机变量均值,方差,标准差
2)方差:用来表示分布的散步大小
3)标准差:用σ表示,表示分布散步大小
6.常用分布
1)离散变量二项分布 记为b(n,p)
均值:E(x)=np
方差:Var(x)=np(1-p)
标准差:
2)离散变量泊松分布
3)连续型随机变量正态分布
7.统计定理
8 假设检验
C2 机器学习的数学基础
范数: 向量的范数可以简单形象的理解为向量的长度,或者向量到坐标系原点的距离,或者相应空间内的两个点之间的距离。
向量的范数定义:向量范数可简单理解为向量的长度,或者向量到坐标系原点的距离,或者相应空间内的两个点之间的距离
向量范数性质:向量范数是一个函数||x||
满足非负性||x|| = 0,齐次性||cx|| = |c| ||x|| ,三角不等式||x+y|| = ||x|| + ||y||
L1 范数: ||x||为 x 向量各个元素绝对值之和。
L2 范数: ||x||为 x 向量各个元素平方和的开方,L2 范数又称 Euclidean 范数或
者 Frobenius 范数
Lp 范数: ||x||为 x 向量各个元素绝对值 p 次方和的 1/p 次方
L∞范数: ||x||为 x 向量各个元素绝对值最大那个元素,如下:
各类距离意义与Python实现
闵可夫斯基距离(Minkowski Distance) 闵式距离
两个 n 维变量 A(x11 ,x12 ,…,x1n )与 B(x21 ,x22 ,…,x2n )间的闵可夫斯基距离定义为:
欧式距离
from numpy import *
vector1 = mat([1,2,3])
vector2 = mat([4,5,6])
print sqrt((vector1-vector2)*((vector1-vector2).T))
曼哈顿距离
二维平面两点
N维向量
from numpy import *
vector1 = mat([1,2,3])
vector2 = mat([4,5,6])
print sum(abs(vector1-vector2))
切比雪夫距离(
您可能关注的文档
- 在中插入视频和音频的方法说课稿题库.ppt
- 中国木质家具题库.ppt
- 中国钼矿资源题库.doc
- 凿岩工岗位安全生产责任制题库.doc
- 专题二_第2讲_力的合成与分解1题库.ppt
- 早产的诊治题库.ppt
- 早会展示(黄国伟)题库.ppt
- 221000304_王彩云_本科生毕业设计论文第一本精讲.doc
- 中国农业高新技术产业国外发展情况题库.docx
- 数据资产云图(DACP)答案.ppt
- 2023年甘肃省天水市清水县草川铺乡招聘社区工作者真题及完整答案详解1套.docx
- 2023年甘肃省天水市清水县红堡镇招聘社区工作者真题带答案详解.docx
- 2025年东莞市伊顿外国语学校高一入学分班考试语文作文模拟题及范文分析.docx
- 2023年甘肃省天水市清水县秦亭镇招聘社区工作者真题附答案详解.docx
- 2023年甘肃省天水市清水县红堡镇招聘社区工作者真题含答案详解.docx
- 2023年甘肃省天水市清水县红堡镇招聘社区工作者真题及答案详解一套.docx
- 2023年甘肃省天水市清水县红堡镇招聘社区工作者真题及完整答案详解1套.docx
- 2025年东莞市伊顿外国语学校高一入学分班考试语文作文押题及范文分析.docx
- 2023年甘肃省天水市清水县黄门乡招聘社区工作者真题带答案详解.docx
- 2023年甘肃省天水市清水县黄门乡招聘社区工作者真题及参考答案详解1套.docx
最近下载
- 电力调度数据网络接入技术规范及网络拓扑图.doc VIP
- ZZGA高频开关整流器使用说明书.doc
- 危重患者院内转运PPT.pptx VIP
- 匀变速直线运动的速度与时间的关系课件 2024-2025学年高一上学期物理人教版(2019)必修第一册.pptx VIP
- 《科学发展观》课件.ppt VIP
- 匀变速直线运动的位移与时间的关系 课件 -2024-2025学年高一上学期物理人教版(2019)必修第一册.pptx VIP
- 2022年西安市灞桥区事业单位考试真题.docx VIP
- 【课件】匀变速直线运动的位移与时间的关系+课件高一上学期物理人教版(2019)必修第一册.pptx VIP
- 2024西安市灞桥区事业单位考试笔试题库及答案.docx VIP
- 福建专升本 “三个代表” 重要思想(思维导图).pdf VIP
文档评论(0)