重构大数据统计试读样章.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1 章 基本概念 本章将简要介绍一些最基本的概念:数据类型、变量、总体、样本、参数和统计量,并通过 具体的例子和说明介绍本书常用的分布式计算思想,为读者深入阅读本书作铺垫。 1.1 数据类型 我们接触到的数据有很多,例如:用户姓名、性别、交易金额、商品单价、用户评分、交易 时间等。按照所采用的计量尺度不同,可以分为三类:名义数据、有序数据和数值型数据。 1.名义数据 名义数据(Nominal Data )是指对事物分类的结果不区分顺序,但有分类尺度计量形成的数 据。 各个名义数据间无大小、高低和等级之分,唯一可行的是对发生的频数进行计算。例如,用 户姓名和性别都为名义数据。名义数据可以用数字表示,例如,1 表示男,0 表示女。显然,这 里的1 并不意味着比0 大。 2 .有序数据 有序数据(Ordinal Data )是指对事物分类的结果有顺序、有分类尺度计量形成的数据。 该类型数据可以进行排序操作,也可以对发生的频数进行计算。例如:用户评分(好、中、 差),受教育水平(小学、初中、高中、大学及以上)。有序数据也可用数值表示,例如:对评分 用3 表示好,2 表示中,1 表示差;对受教育水平用 1 表示小学,2 表示初中,3 表示高中,4 表 示大学及以上,其中的4 意味着比2 受教育水平更高。其数值计算结果也没有意义,例如:1+1+1= 3 不能说明3 个差评等于一个好评;2+2=4 不能说明受了两次初中教育相当于大学毕业。 3 .数量数据 数量数据(Quantitative Data )是按自然单位、度量衡单位、价值单位对事物进行测量的结 果,该结果表现为具体的数值,取值为实数,可以进行所有的计算(求和、平均值等 ),包括 前 两种数据类型的排序和计算发生的频数。例如:购买商品的个数、交易金额等。 上述三种数据类型的关系如图1-1 所示。 名义数据(可求频率分布) 有序数据(可进行排序操作) 数量数据(可进行所有计算) 图1-1 1.2 总体和样本 说明事物某种特征的概念,称为变量(因素或者元)。例如:灯泡的寿命、购物时间、物品 单价、物品个数等。 个体是由一个或多个变量(多元或多个因素)构成的。例如:某个灯泡的寿命是1200 小时; 一条网购记录为“用户名称:张三;购物时间:2013-9-1;物品单价:99.99 ;物品个数:10”。 包含所研究的全部个体的集合,称为总体。 对于所要研究的总体,通过观测或试验而得到的个体集合 , , ⋯, ,称为样本。这里的 1 2 称为第个样本,称为样本大小或样本容量(Sample Size )。 通常,我们用表格来记录个体的集合,表格的行数对应个体的数量,每一列对应一个变量。 1.3 参数和统计量 用来描述总体特征的概括性数字度量,称为参数(Parameter )。 例如:某工厂生产的一批灯泡,把它们看作一个总体,灯泡的平均使用寿命就是一个重要的 参数。但需要测试整批灯泡的寿命,才可以得到这个参数,得到参数的同时,这批灯泡也就都费 掉了。我们能否只拿一小部分的灯泡来测试,从而估计出这个参数呢?这就需要下面的概念:样 本统计量。 用来描述样本特征的概括性数字度量(简单地说,就是由样本计算出来的量),称为统计量 (Statistic )。 例如:在上面的例子中,从这一批灯泡中抽样出20 个,测试并计算其平均使用寿命为1200 小时,则整批灯泡的平均使用寿命应该在1200 小时“附近”。如何精确描述和确定这个“附近” 值?这需要统计推断的一个重要内容是:参数估计。相关内容将在后面详细介绍。 1.4 分布式计算 分布式计算(Distributed Computing )是将大的计算任务(需要巨大的计算能力或需处理巨

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档