- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
SAS介紹及几种统计程序的比较
SAS介绍及几种统计程序的比较
2010/04/18 胡江堂
0. SAS是什么?
这是一个问题,SAS已经不是你所想象的那个样子。作为一家年收入超过20亿美元的、全球最大的独立BI/分析厂商,SAS就是那家由Dr. Jim Goodnight领导的私人公司。作为一个庞大的软件系统,以下只是SAS系统的一个不完整、不系统的介绍:
1.传统SAS(编程驱动)
1-1 基础模块(Base SAS):包括类似于PL/L的第四代编程语言data steps、SQL、ODS、XML Engine、Macro以及大量的内置函数(支持Perl 正则表达式)和过程步(procedures)等。对一个SAS程序员来说,这个BASE模块几乎就是全部(说学SAS,就是先学这个,这不需要统计背景或者计算机背景)。又,狭义的SAS Base仅指data steps。
1-2 数据存取模块(SAS/ACCESS):支持大量的PC文件(除文本文件外,还包括Excel、SPSS的.sav、Stata的.dta等等)以及所有主流的关系数据库及ERP系统(Oracle、SAP、SQL Server、DB2、MySQL等等)
1-3 作图模块(SAS/GRAPH):SAS作图功能强大,只是模样够土。新版SAS 9.2在这块有不少让人兴奋的改进,比如支持ODS、TrueColor、ActiveX、SVG(Scalable Vector Graphics)等,另外还加了一个graph editor,新潮不少。
1-4 统计分析模块(SAS/STAT ) :包括回归模型、方差分析模型、混合模型、贝叶斯分析、分类数据分析、多元分析(主成分和因子分析等)、判别分析、聚类分析、生存分析、非参数分析等,多是我不熟悉的领域,只管罗列。有个Stat Studio支持R。
1-5 时间序列与计量经济学模块(SAS/ETS ):同上,X11、X12、ARIMA、PANEL、AUTOREG、……。又,做资产组合等投资分析也是在这个模块。
1-6 矩阵运算模块(SAS/IML) 1-7 运筹学模块(SAS/OR) 1-8 地理信息系统模块(SAS/GIS) …… 以上部分是大部分SAS高校用户能接触到的东西,主要用命令行实现功能。下面则是有GUI的客户端工具,一般都用它们作计算引擎。
2. 客户端工具
2-1 元数据管理(SAS Management Console,SMC):元数据(metadata)就是关于数据的数据。最简单的,一个数据集的变量属性就是metadata。SMC是SAS产品元数据管理的统一中心。
2-2 ETL工具(SAS Data Integration Studio):ETL就是数据抽取(Extract)、转换(Transform)和加载(Load)。完成企业数据处理的工具还有SAS OLAP Cube Studio、SAS Information Map Studio等。
2-3 数据挖掘模块(SAS Enterprise Miner,EM) :SAS的重磅产品之一。5以上是Java客户端版本,用户体验增进不少。
2-4 综合分析工具包(SAS Enterprise Guide,EG): 有完善的GUI界面,完成SAS从数据整合、分析到报表的一系列功能。EG与JMP,是SAS公司的两个明星产品。 ……
3. 其他
3-1 统计探索软件包JMP:这是一个独立于Base SAS的软件,由SAS公司的二把手John Sall主管,界面很炫,功能很强,让业务人员爱不释手那种。JMP9支持R。 ……
以及,由以上SAS产品整合打包、再加上业务规则支持形成的各种SAS行业解决方案,广泛运用于金融、通信、能源、政府、医药、保险、制造、零售等各个行业。 SAS不仅仅是一款统计软件,它的官方定位是“商务分析和商务智能软件”(Business Analytics and Business Intelligence Software, BA BI)。现在我们的重点放回SAS 1.1 即Base SAS上来。
1. SAS是最流行的数据分析类语言
我们看一个编程语言4月份的排名,来自TIOBE。TIOBE编程语言排名是各种程序语言流行程度的指标,每月更新。它参考全球范围内的技术工程师、培训师以及第三方厂商的意见,通过google、MSN、Yahoo!等常用的搜索引擎搜索结果来计算每种编程语言的流行指数。这个排行榜是程序员查看自己掌握的编程技能是否过时的权威参考之一。具体的评分标准,可以参阅其官分评分文档。现在最新的排行榜是(前20名,2010年4月):
这个TIOBE排名,有它自身的局限。比如,Google新推出的Go,一时广受追捧,4月的排名噌就上去了,但这并不能代表它的实际流行程
文档评论(0)