数据分析与挖掘复习资料.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析与挖掘重点整理 名词解释5* 逐步筛选策略:多元线性回归,存在解释变量应以怎样的策略和顺序进入方程及方程中多个解释变量之间是否存在多重共线的问题。该策略在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再判断是否存在可以剔除方程的变量。(该策略在引入变量的每一个阶段都提供了再剔除不显著变量的机会,摒弃了向前筛选策略方法中变量一旦进入回归方程就不会被剔除的弊端。在一定程度上解决了变量之间存在的多重共线问题。) 时间序列的季节变动:指一年或更短的时间之内,由于受某种固定周期性因素(如自然、生产、消费等季节性因素)的影响而呈现出有规律的周期性波动。 时间序列的循环变动:通常是指周期为一年以上,由非季节因素引起的涨落起伏波形相似的波动。 序列相关性(回归分析检验中的DW检验):一元及多元线性回归模型假定随机误差项是不相关的,如果一个回归模型的随机误差项之间相关,即相关系数不为零,则称随机误差项之间存在着序列相关现象。这种相关现象不是指两个和两个以上的变量之间的关系而是指一个变量前后期数值之间存在的相关关系。用因子分析提取因子。借助变量的相关系数矩阵和KMO检验方法进行分析。多重共线性是指解释变量之间存在线性相关关系的现象,解释变量间高度的多重性采用容忍度Tolerance)和方差膨胀因子VIF)两个统计量来检测多重共线性问题。容忍度(Tolerance)和方差膨胀因子(VIF)均为1,说明各解释变量不存在多重共线性问题。容忍度的取值范围在0~1之间,越接近于0表示多重共线性越强,越接近于1,表示多重共线性越弱;方差膨胀因子是容忍度的倒数,其值大于等于1,其值越接近于1,解释变量间的多重共线性越弱,若其值远远大于1,则共线性越强。 通过各解释变量与残差的Spearman 等级相关分析,可以得到表4.27: Spearman相关分析 表中,FAC1_1 与标准化残差(standardized residual) 的相关系数为-0.077sig=0.6820.05;FAC2_1与标准化残差的相关系数为-0.176sig=0.3440.05。可见,检验并不显著,因认为异方差现象并不明显。 作一圆,并把圆周分为p等分。 连接圆心和各分点,把这p条半径依次定义为各变量的坐标轴,并标以适当的刻度。 对给定的一次观测值,把它的p个分量值分别点在相应的坐标轴上,然后连接成一个p边形,这个p边形就是p元观测值的图示,n次观测值可画出n个p边形。 最大的优点是:这种图形既象雷达荧光屏上看到的图象,也象蜘蛛网,因此称为雷达图或蛛网图。利用雷达图有助于观测多元数据的某些特点,便于进行深入比较分析。 在指数平滑法里,一次指数平滑法模型的适用范围及其局限性 ( 一次指数平滑又称单指数平滑(Single Exponential Smoothing),其模型为: 其中,yt是实际值序列,是平滑值序列(Smoothed Series),是上期平滑值,是平滑系数(Smoothing Parameter),也叫衰减因子(Damping Factor),其取值范围为。一次指数平滑的预测值是实际值序列的加权平均,适用于比较平稳的序列,能够追踪数据的变化,预测值总是反映最新的数据结构。但是该预测法有较大的局限性,首先,预测值不能反映趋势变动、季节波动等有规律的变动,适用于平稳序列;其次,短期预测较灵敏但不适合中长期预测;最后由于预测值是历史数据的均值,因此与实际序列的变化相比较有滞后现象。t的严格函数。 每一时刻上的取值或数据点的位置具有一定的随机性,不可能完全准确地用历史值预测。 前后时刻(不一定是相邻时刻)的数值或数据点的位置有一定的相关性,这种相关性就是系统的动态规律性。 从整体上看,时间序列往往呈现某种趋势性或出现周期性变化的现象。 按时间的连续性可将时间序列分为离散时间序列和连续时间序列。 不同点:离散时间序列中的每一个序列值所对应的时间参数为间断点;连续时间序列中的每个序列值所对应的时间参数为连续函数 相同点:我们主要研究离散时间序列,并用Xt表示,对于连续时间序列,可通过等间隔采样使之转化为离散时间序列后加以研究。 回归方程显著性检验是什么?在表的输出结果中,F值是什么意思,Sig的值表示什么。。。(AVOVA表)??理解下吧。。。 回归方程的显著性检验是检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述他每个解释变量能否有效的解释被解释变量的线性变化,们能否保留在线性回归方程中。表,采用了FAC2_1FAC1_1作为解释变量的模型2中,F 统计量的观测值为63.303,对应的概率P值近似为0若显著性水平为0.05时,概率P值小于显著性水平应拒绝回归方程显著性检验的原假设,认为各回归系数不同时为0被解释变量与解释变

文档评论(0)

bhl0572 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档