网站大量收购独家精品文档,联系QQ:2885784924

随机数据建模_初步分析资料.ppt

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
随机数据建模 ——数据初步分析处理 一、数据在模型中的重要性 建模案例 96年B题 :节水洗衣机 该题没有任何数据,需要查找足够多数据才能进行下一步工作,有些甚至需要通过实验获得 2004 年A题:奥运会临时超市网点设计 该题数据量非常大,需在统计分析基础上才可进行下一步工作 思考: 需要哪些以及何种形式的数据? 如何去获得数据? 怎样表达数据? 如何整理、分析数据? 其他案例 统计学中的盐(印度) 数据挖掘:超市商品选择 二、常见收集数据方法 数据的计量与类型 定距数据 定比数据 统计数据的误差 抽样误差 由抽样随机性造成,只存在于概率抽样中。 非抽样误差 覆盖误差——被调查总体范围被人为减小 无反馈误差——调查回收率太低 道德误差——调查人员缺乏业务培训或职业道德 被调查者误差——理解有误,有意欺瞒 测量误差——测量工具不准确 课后小作业 问卷调查如何实施?需注意哪些问题? 尝试选择感兴趣的问题设计并进行问卷调查 可参考的问题: 学生怎样安排周末 学生如何使用奖学金 学生相互间帮助关心状况 学生对未来的规划与实施状况 …… 三、数据的初步分析与整理 得到数据后,可以通过图表和数据特征分析得到初步印象或初步结论 图表分析: 频数直方图、饼图、茎叶图、箱线图、交叉表等 数据特征分析: 集中趋势、离散趋势、分布形状 单变量定量数据的图表描述 单变量定量数据的图表描述 ——数据整理 统计分组 根据统计研究的目的和客观现象的内在特点,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组。 例,收集到某班所有同学的考试成绩,为了研究需要划分优、良、及格、不及格四个成绩段,每个成绩段的范围分别是85-100,70-85,60-70,0-60,将每个成绩归入到相应的组中。 对定量数据进行分组时,需要建立频数分布表,以便更有效地显示数据的特征和分布。 频数分布表示例如下: 累积频数分布表 为了统计分析的需要,有时要观察某一数值以上或某一数值以下频数或频率之和,这就需要在频数分布表基本分组的基础上绘出累积频数或累计频率。 “向下累积” 由表的上方向表的下方的频数或频率相加 “向上累积” 由表的上方向表的下方的频数或频率相加 数据图形描述(分组后数据) 数据分组整理后的图形描述 直方图 用矩形的高度和宽度来表示频数分布 折线图 作用与直方图相似 累积频数分布图 描述累积频数或频率信息 数据图形描述(未分组数据) 数据未分组整理后的图形描述 茎叶图 用于直接描述未分组原始数据的探索性分析 描述数据分布形状,如数据是否集中,是否有极端值等 由茎、叶、每个茎对应叶的个数、茎的宽度这四元素组成 箱线图 用于直接描述未分组原始数据的探索性分析 描述数据的分布形状,如数据是否集中,是否有极端值等 可以比较多组数据分布特征 图中包含五个点组成:样本数据的最小值、下四分位数、中位数、上四分位数、最大值 关于箱线图 中间的黑粗线为中位数 方框为四分位间距的范围 离方框上/下界的距离超过四分位数间距1.5倍的为离群值,以 “O” 表示;超过3倍的则为极值,用“*”表示。 单变量定性数据的图表描述 频数分布表(又叫总结表) 类似于整理定量数据的频数分布表 包含: 分类的频数或频率,即指落在某一特定类中的观察值数 分类的相对频数,指某个特定类的频数除以观察值总数所得的商 累积频数分布表 类似于整理定量数据的累积频数分布表 单变量定性数据的图表描述 条形图 类似直方图,条形图的横轴表示的是各个分类,直方图的横轴表示所分的组 饼图 通常用来描述落在各个分类中的观察值数分别在总数中所占的比率 累积频数分布图 类似于描述定量数据中的累积频率分布图 帕雷托图 变量的分类数目较多时,用帕雷托图要比条形图和饼图更能直观地显示信息。 广泛应用于过程分析和质量分析中 多变量定性数据的图表描述 交叉表 可检测两个定性变量的关系 同样可用来描述两个变量都是数字变量,或者一个变量是定类或定序变量,另一个是数字变量之间的关系 多重条形图 描述两个定类或定序变量间关系 数据的特征和度量 数据分布的集中趋势测度 集中趋势(Central tendency) 是指分布的定位,它是指一组数据向某一中心值靠拢的倾向,或是表明一组统计数据所具有的一般水平。 对集中趋势进行测度也就是寻找数据一般水平的代表值或中心值。 对集中趋势的度量有数值平均数和位置平均数之分。 数值平均数 数值平均数又称均值(Mean) 算术平均数 简单算术平均数 加权算术平均数 调和平均数(Harmonic mean) 简单调和平均数 加权调和平均数 几何平均数 简单几何平均数 加权几何平均数 算术平均数 简单算术平均数 根据原始数据

文档评论(0)

三哥 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档