- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
演讲人:
日期:
统计基础知识培训
目录
CATALOGUE
01
统计学概述
02
数据收集与整理
03
描述性统计分析
04
概率基础概念
05
推断性统计方法
06
数据可视化应用
PART
01
统计学概述
学科定义与理论基础
包括描述性统计(如均值、方差)和推断性统计(如假设检验、回归分析),同时涉及实验设计、抽样技术等数据获取方法。
方法论范畴
跨学科融合
与计算机科学结合形成数据挖掘,与经济学结合衍生计量经济学,在生物医学领域发展为生物统计学,体现其极强的学科交叉性。
统计学是一门研究数据收集、整理、分析及推断的科学,其核心是通过样本推断总体特征,理论基础涵盖概率论、数理统计及随机过程等数学分支。
统计学的定义与范畴
统计学的基本应用场景
商业决策支持
通过市场调研数据分析消费者行为,指导产品定价、库存管理及营销策略优化,例如零售业的销售预测模型。
02
04
03
01
社会科学研究
在心理学、教育学等领域通过量表数据分析验证理论假设,如教育政策效果的多层次回归分析。
医学研究与公共卫生
应用于临床试验设计(如随机对照试验)、流行病学调查(如疾病发病率分析)及医疗资源分配效益评估。
工业质量控制
采用统计过程控制(SPC)监控生产线波动,六西格玛管理中的DMAIC方法论即依赖统计工具。
核心统计术语解析
总体指研究对象的全部个体集合,样本是从总体中抽取的有限观测单元,抽样误差是两者差异的关键衡量指标。
设定为0.05或0.01,表示拒绝真实原假设的最大允许概率,与P值共同构成统计决策依据。
Pearson相关系数衡量线性关联强度,但需警惕“相关不等于因果”,需结合格兰杰因果检验等进阶方法。
解释变量间高度相关会导致系数估计不稳定,可通过方差膨胀因子(VIF)诊断,解决方案包括主成分回归等。
总体与样本
假设检验的显著性水平(α)
相关系数与因果推断
回归分析的多重共线性
PART
02
数据收集与整理
定量数据以数值形式呈现,如身高、温度等,可进一步分为连续型(无限细分)和离散型(有限取值);定性数据描述属性或类别,如性别、颜色,分为名义型(无顺序)和有序型(有等级)。
数据类型与分类方法
定量数据与定性数据
结构化数据具有固定格式(如数据库表格),便于直接分析;非结构化数据(如文本、图像)需通过自然语言处理或计算机视觉技术转化后使用。
结构化与非结构化数据
横截面数据反映同一时间点的多个观测对象特征;时间序列数据记录同一对象在不同时间点的变化,需特殊建模方法处理自相关性。
横截面数据与时间序列数据
数据收集技术实践
抽样调查技术
包括简单随机抽样(保证每个个体等概率被抽中)、分层抽样(按特征分组后抽样)和整群抽样(以群体为单位),需根据研究目标选择误差最小的方法。
传感器与物联网采集
通过部署温度、压力等传感器实时记录物理环境数据,结合物联网协议(如MQTT)传输至云端,适用于工业监测与智慧城市场景。
网络爬虫与API接口
利用Python的Scrapy框架或Requests库抓取网页数据,或通过开放API(如Twitter、气象局)获取结构化数据,需遵守robots协议与数据隐私法规。
缺失值处理
采用删除法(剔除缺失记录)、均值/中位数填充(数值型数据)或预测模型(如回归插补),需评估对分析结果的影响。
异常值检测与修正
使用箱线图(1.5倍IQR规则)、Z-score标准化(阈值±3)或DBSCAN聚类识别异常值,结合业务逻辑判断是否修正或保留。
数据标准化与归一化
通过Min-Max缩放(将值映射到[0,1]区间)或Z-score标准化(均值为0、方差为1)消除量纲影响,提升模型收敛速度与精度。
特征编码与转换
对分类变量采用独热编码(生成二进制列)或标签编码(赋予数值标签),对文本数据使用TF-IDF或词嵌入技术转化为数值特征。
数据清洗与预处理步骤
PART
03
描述性统计分析
集中趋势度量指标
将数据按大小排序后位于中间位置的值,对异常值不敏感,适用于偏态分布或存在极端值的数据分析场景。
中位数
众数
几何平均数
通过所有观测值的总和除以观测数量计算得出,适用于对称分布且无极端值的数据集,反映数据的均衡中心位置。
数据集中出现频率最高的数值,适用于分类数据或需要快速识别典型值的场景,可能存在多众数或无众数情况。
适用于比率或指数型数据,通过各观测值连乘积的n次方根计算,能有效缓解极端值对结果的影响。
算术平均数
方差为各数据点与均值离差平方的平均值,标准差为其平方根,量化数据围绕均值的波动性,是分析稳定性的核心指标。
方差与标准差
上四分位数与下四分位数的差值,反映中间50%数据的离散情况,对异常值具有鲁棒性,常用于箱线图构建。
四分位距
01
02
03
04
数据集最大值与最小值的差值,
文档评论(0)