- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
统计分析方法与Stata应用(2015年春季学期)
第一讲 Stata的学习背景与学习意义
一、Stata是什么?
“Stata”并非数个单词的缩写(因此其正确拼写为Stata而非STATA),而是由“statistics”和“data”合成的一个新词,Stata公司的员工都将其读做“Stay-ta”。从这
个小小的趣闻中,可以看出Stata在问世之初(1985年)的主要功能在于统计分析和数据处理。经历了十余年的发展,Stata已经升级到第1.1版(表1),在不断强化上述功能的同时,Stata在矩阵运算、绘图、编程等方面的功能也在不断加强。
版本 发布日期 版本 发布日期 13.1 Oct-13 7 Dec-00 13 Jun-13 6 Jan-99 12.1 Jan-12 5 Sep-96 12 Jul-11 4 Jan-95 11.2 Mar-11 3.1 Aug-93 11.1 Jun-10 3 Mar-92 11 Jul-09 2.1 Aug-90 10.1 Aug-08 2.05 Apr-89 10 Jun-07 2 Jun-88 9.2 Apr-06 1.5 Feb-87 9.1 Sep-05 1.4 May-86 9 Apr-05 1.3 Aug-85 8.2 Oct-03 1.2 May-85 8.1 Jul-03 1.1 Feb-85 8 Jan-03 1 Jan-85 资料来源:http://www.S/support/faqs/res/history.html
Stata擅长数据处理、面板数据分析、时间序列分析、生存分析,以及调查数据分析,但其它方面的功能也并不逊色(表2)。
?
表2?Stata的功能一览
数据处理和绘图 ? ? ? Data management Graphics ? ? 统计分析和检验 ? ? ? Basic statistics Nonparametric methods Exact statistics ? ANOVA/MANOVA 其它检验方法和函数 ? ? 回归分析 ? ? ? Linear models GLM MLE GMM Multilevel mixed models Panel data Probit/Logit/Count Time series 多变量模型(多元统计) ? 抽样和模拟分析 ? Multivariate methods Cluster analysis Resampling and simulation ? 调查分析和生存分析 ? ? ? Survey methods Survival analysis Epidemiologists ? 编程 ? ? ? Programming language Mata User-written commands ?
二、为什么要学习Stata
1.时代发展的需要:大数据时代的兴起
(1)什么是大数据?
传统的统计分析常常希望数据多多益善。也就是说,数据越多,分析越深入,所得的结论就越全面。从字面含义上理解似乎指的是数量庞大信息量巨大的数据。大数据常常被描述成已经大到无法用传统的数据处理工具进行管理和分析的极大的数据集。超大的数据量只是大数据概念的一个部分。大数据涉及结构化数据、非结构化数据和半结构化数据这三类数据。
①结构化数据通常指的是传统数据库中的数据,利用结构化查询语言(Structured Query Language简称SQL) 存取数据以及查询、更新和管理数据库系统
②非结构化数据一般无法直接进行商业智能分析,这是由于非结构化数据无法直接存储到数据库表中,也无法被程序直接使用。二进制图片文件就是非结构化数据的一个典型例子。
③半结构化数据介于结构化数据和非结构化数据之间。半结构化数据不具有严格的结构因而不同于结构化数据。半结构化数据也不同于非结构化数据,它使用标签和各种标识区分不同的元素,并利用层级结构来定义数据。
(2)理解大数据的概念需要把握4个维度,统称为4V特征。
①海量性(Volume)。大数据都是数量巨大的数据。很多企业都拥有海量数据,数据量很容易就积累到TB(1012字节)级,甚至跃升至PB(1015字节)级。
②多样性(Variety)。大数据冲破结构化数据的局限,不仅包括结构化数据,还覆盖了如文本、音频、视频、点击流、日志文件等各种类型的非结构化数据。
③精确性(Veracity)。数据量多不见得都是好事,庞杂的数据可能会导致对收集到的信息的误读或统计误差,因此信息的纯度对价值发掘至关重要。
④时效性(Velocity)。大数据对时效性要求很高,企业必须能够在短时间内高速、流畅地处理源源不断产生或流入企业的海量实时数据
您可能关注的文档
最近下载
- WST 554-2017 学生餐营养指南.pdf VIP
- 致用英语(第三版)听力教程1教学课件Unit 7-PPT课件.pptx VIP
- 烽火岁月中的木刻 课件 2025浙美版美术七年级上册.ppt
- 13G311-1混凝土结构加固构造图集.pdf VIP
- 小学数学六年级《找规律》数学活动课PPT课件.ppt VIP
- 【历史】七年级下册必背知识点汇总+2024-2025学年统编版七年级历史下册.docx VIP
- 高标准农田跟踪审计、工程中间计量、变更价格调整及竣工结算审核项目 投标方案(技术方案).doc
- 保安管理与风险控制培训课件.pptx VIP
- (新教材)部编人教版一年级上册小学语文全册教案(教学设计)(新课标核心素养教案).pdf
- FANUC机器人的码垛堆积功能(二)示教编程.docx VIP
文档评论(0)