RSS订阅 | 匿名投稿
您的位置:网站首页 > 相关知识 > 正文

相关分析和回归分析SPSSPPTppt

作者:habao 来源: 日期:2019-10-16 13:21:55 人气: 标签:相关分析

  1.本站不该用户上传的文档完整性,不预览、不比对内容而直接下载产生的问题本站不予受理。

  线性回归分析的其他操作 1、Statistics按钮,出现的窗口可供用户选择更多的输出统计量。 (1)Estimates:SPSS默认输出项,输出与回归系数相关的统计量。包括回归系数(偏回归系数)、回归系数标准误差、标准化回归系数、回归系数显著性检验的t统计量和概率p值,各解释变量的度。 (2)Confidence Intervals:输出每个非标准化回归系数95%的置信区间。 (3)Descriptive:输出各解释变量和被解释变量的均值、标准差、相关系数矩阵及单侧检验概率p值。 (4)Model fit:SPSS默认输出项,输出判定系数、调整的判定系数、回归方程的标准误差、回归方程显著F检验的方程分析表。 (5)R squared change:输出每个解释变量进入方程后引起的判定系数的变化量和F值的变化量。 (6)Part and partial correlation:输出方程中各解释变量与被解释变量之间的简单相关、偏相关系数。 (7)Covariance matrix:输出方程中各解释变量间的相关系数、协方差以及各回归系数的方差。 (8)Collinearity Diagnostics:多重共线性分析,输出各个解释变量的度、方差膨胀因子、特征值、条件指标、方差比例等。 (9)在Residual框中:Durbin-waston表示输出DW检验值;Casewise Diagnostic表示输出标准化残差绝对值大于等于3(SPSS默认值)的样本数据的相关信息,包括预测值、残差、杠杆值等。 2、Options选项,出现的窗口可供用户设置多元线性回归分析中解释变量筛选的标准以及缺失值的处理方式。 3、Plot选项,出现的窗口用于对残差序列的分析。 应用举例 固体垃圾排放量与土地种类的关系 p111 第三节 多元线性回归 多元线性回归模型 多元线性回归的应用及注意事项 回归参数的估计 回归方程的显著性检验 回归系数的显著性检验 多元线性回归的预测 多元线性回归模型(概念要点) 一个因变量与两个及两个以上自变量之间的回归 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项 ? 的方程称为多元线性回归模型。 涉及 p 个自变量的多元线性回归模型可表示为 b0 ,b1,b2 ,?,bp是参数 ? 是被称为误差项的随机变量 y 是x1,,x2 ,? ,xp 的线性函数加上误差项? ? 说明了包含在y里面但不能被p个自变量的线 性关系所解释的变异性 多元线性回归模型(基本假定) 自变量 x1,x2,…,xp是确定性变量,不是随机变量。 随机误差项ε的期望值为0,且方差σ2 都相同。 误差项ε是一个服从正态分布的随机变量,且相互。 多元线性回归方程(概念要点) 描述 y 的平均值或期望值如何依赖于 x, x1 ,…,xp的方程称为多元线性回归方程 多元线性回归方程的形式为 E( y ) = ?0+ ?1 x1 + ?2 x2 +…+ ?p xp b1,b2,?,bp称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均平均变动值 多元线性回归的应用及其注意事项 应用 影响因素分析,控制混杂因素 预测:由自变量值推出应变量Y的值 控制:指定应变量Y的值查看自变量的改变量 应用的注意事项 (1)自变量为连续型变量 :必要时作变换 (2)自变量为有序变量:依次赋值,如疗效好中差,可分别赋值3、2、1 (3)自变量为二分类:如令男=1,女=0 多元线性回归的应用及其注意事项 多元线性回归的应用及其注意事项 注意事项 多重共线性分析 多重共线性是指解释变量之间存在线性相关关系的现象。 度的取值范围在0-1之间,越接近0表示多重共线表示多重共线性越弱。 方程的决定系数很高,且Y与各自变量的相关系数也很高,但自变量的回归系数不显著 两个自变量情形时,自变量之间的相关系数很高 多个自变量时,某一自变量可以被其他自变量线性表出 整个方程决定系数R2高,但每一自变量的偏确定系数很小 多重共线性的识别 多重共线性的解决办法 解决共线性的主要方法: 筛选自变量,去掉与Y相关程度低,而与其他自变量高度相关的变量 去掉可以被其余自变量线性表出的变量 增加样本规模 采用新的样本数据 对于两个人关系,相关关系只能知道他们是恋人关系,至于他们谁是主导者,谁说话算数,谁是跟随者,一个打个喷嚏,另一个会有什么反应,相关就不能胜任,而回归分析则能很好的解决这个问题 无论回归还是相关, 在做关系的时候都应该特别注意, 并不是每一个显著的回归因子或者较高的相关指数都意味着关系, 有可能这些因素都是受第三,第四因素制约, 都是另外因素的因或果。 回归是探索关系的并没错,因为实际上最后我们并不是完全依据统计的结果来判断性,只有在统计结果和理论及现实比较吻合的基础上我们才肯定这种关系。任何统计方法只是一种工具,但是不能完全依赖于这种工具。 回归模型的类型 一个自变量 两个及两个以上自变量 回归模型 多元回归 一元回归 线性回归 非线性回归 线性回归 非线性回归 回归模型与回归方程 一元线性回归模型 回归方程 一元线性回归模型(概念要点) 当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归。 对于具性关系的两个变量,可以用一条线性方程来表示它们之间的关系。 描述因变量 y 如何依赖于自变量 x 和误差项? 的方程称为回归模型。 一元线性回归模型(概念要点) 对于只涉及一个自变量的简单线性回归模型可表示为 y = b0 + b1 x + e 模型中,y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 ? 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 ?0 和 ?1 称为模型的参数 线性关系假设:回归分析必须建立在变量之间具性关系的假设成立上。 正态性假设:回归分析中的y服从正态分布,与x值对应的y值是变量y的一个子总体,所有子总体都服从正态分布。 误差项ε是一个期望值为0的随机变量,即 E(ε)=0。对于一个给定的 x 值,y 的期望值为 E ( y ) =? 0+ ? 1 x。 误差等分散性:对于所有的 x 值, ε 呈随机化的常态分布,ε的方差σ2 都相同。 性假设: ( 0 ,σ2 ) 性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关。 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关。 误差项ε与自变量也相互。 一元线性回归模型(基本假定) 回归方程(概念要点) 描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程 简单线性回归方程的形式如下 E( y ) = ?0+ ?1 x 方程的图示是一条直线,因此也称为直线是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值 ?1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值 估计(经验)的回归方程 简单线性回归中估计的回归方程为 其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程 总体回归参数 和 是未知的,必需利用样本数据去估计 回归模型的建立方法 平均数方法 最小二乘法:误差平方和最小 平均数法案例 最小二乘法(概念要点) 基本思想 使残差平方和最小 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 最小二乘法(图示) x y (xn , yn) (x1 , y1) ? ? ? ? ? ? ? ? ? (x2 , y2) (xi , yi) } ei = yi-yi ^ 用最小二乘法求解方程中的两个参数,得到: 最小二乘法 回归方程的显著性检验 离差平方和的分解 样本决定系数 回归方程的显著性检验 回归系数的显著性检验 回归方法简介 离差平方和的分解(三个平方和的关系) 两端平方后求和有 由于 SST = SSR + SSE 总变差平方和 (SST) { 回归平方和 (SSR) { 残差平方和 (SSE) { 离差平方和的分解(三个平方和的意义) 总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和 决定系数(判定系数 r2 ) 是回归平方和占总离差平方和的比例 反映回归直线的拟合程度,取值范围 [ 0 , 1 ] r2 ?1,说明回归方程拟合的越好;r2?0,说明回归方程拟合的越差 判定系数等于相关系数的平方,周公解梦 死人复活即当相关系数为0.8时,变量y的变异中有64%是由x变量引起的。 回归方程的显著性检验 检验自变量和因变量之间的线性关系是否显著 具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著 如果是显著的,两个变量之间存在线性关系 如果不显著,两个变量之间不存在线性关系 回归方程的显著性检验步骤 提出假设 H0:线性关系不显著 计算检验统计量F 确定显著性水平?,并根据度1和分母度n-2找出临界值F ? 作出决策:若F?F ?,H0;若FF ?,接受H0 回归方程的方差分析表 变异来源 SS 度 MS F 总 SST N-1 MSR/MSE 回归 SSR 1 MSR 残差 SSE N-2 MSE 回归系数的显著性检验 在一元线性回归中对回归系数的显著性检验与对回归方程的方差分析是等效的。 检验 x 与 y 之间是否具性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著 理论基础是回归系数的抽样分布 样本统计量 的分布 是根据最小二乘法求出的样本统计量,它有自己的分布,具有如下性质 分布形式:正态分布 数学期望: 标准差: 由于?未知,需用其估计量Sy来代替得到 的估计的标准差 回归系数的显著性检验(步骤) 提出假设 H0: b1 = 0 (没 (性关系) 计算检验的统计量 确定显著性水平?,并进行决策 ? t?t???,H0 ;? t?t???,接受H0 回归方法简介 进入法 删除法 前进法(step-up, forward-entry procedure) 后退法(step-down, backward-elimination procedure) 逐步回归法(Stepwise) 回归方法 进入法:是SPSS回归的默认状态。这种方法将用户定义的所有自变量一次全部纳入回归 删除法:将全部自变量一次从回归中删除。 向前回归法的基本思想 选定一个标准。 开始方程中没有自变量(项除外) 按自变量对y的贡献大小由大到小依次挑选进入方程。(假设检验的P值越小贡献越大) 每选入一个变量进入方程,则重新计算方程外各自变量对y的贡献。 直到方程外变量均达不到入选标准,没有自变量可被引入方程为止。 向后回归法的基本思想 选定一个标准 开始所有变量均在方程中 按自变量对y的贡献大小由小到大依次剔除变量。 每剔除一个变量,则重新计算方程内各自变量对y的贡献。 直到方程内变量均达到入选标准,没有自变量可被剔除为止。 逐步回归的策略 先选择P值较大(0.9),用逐步向前法剔选变量。看哪个变量先进入方程;每个变量进入方程时的P值;哪个变量先进入方程后又被剔除。 再选择P值较小(0.001),用逐步向后法逐个剔除变量。看哪个变量先被剔除方程;每个变量被剔除时的P值;哪个变量先被剔除后又被选入。 根据上述结果选择几个不同的界值,再用逐步向前法和逐步向后法分别观察变量进出方程的情况。直至所得方程能得到合理的解释为止。 回归系数反常的原因 数据中有离群值或异据; 自变量的观察范围太窄,或方差太小; 样本含量不够,或自变量数太多; 自变量间存在复共线性(multicollinearity)。 线性回归分析的基本操作 (1)选择菜单Analyze-Regression-Linear,出现窗口: (2)选择被解释变量进入Dependent框。 (3)选择一个或多个解释变量进入Independent(s)框。 (4)在Method框中选择回归分析中解释变量的筛选策略。其中Enter表示所选变量进入回归方程,是SPSS默认的策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward表示向后筛选策略;Forward表示向前筛选策略。 本章内容 变量间的相关关系 一元线性回归 多元线性回归 可化为线性回归的曲线回归 掌握相关系数的含义、计算方法和应用 掌握一元线性回归的基本原理和参数的最小二乘估计方法 掌握回归方程的显著性检验 利用回归方程进行预测 掌握多元线性回归分析的基本方法 了解可化为线性回归的曲线回归 学习目标 一. 变量相关的概念 二. 相关系数及其计算 第一节 变量间的相关关系 (一)相关分析和回归分析概述 广义上,相关分析包括回归分析 回归关系:指两事物之间的一种一一对应关系,以数学方式表示变量之间的关系。 相关关系(统计关系):指两事物之间的一种非一一对应的关系,是检验或度量这些关系的密切程度。 相关分析和回归分析都是分析客观事物之间相关关系的数量分析方法。 变量间的关系(函数关系) ? 函数关系的例子 某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价) 圆的面积(S)与半径之间的关系可表示为S = ? R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3 变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围 变量间的关系(相关关系) ? ? ? ? ? ? ? ? ? x y 变量间的关系(相关关系) ? 相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 收入水平(y)与受教育程度(x)之间的关系 父亲身高(y)与子女身高(x)之间的关系 相关关系的类型 相关关系 非线性相关 线性相关 正相关 正相关 负相关 负相关 完全相关 不相关 相关关系的图示 ? ? ? ? ? ? ? ? ? ? ? ? 不相关 ? ? ? ? ? ? ? ? ? 负线性相关 ? ? ? ? ? ? ? ? ? 正线性相关 ? ? ? ? ? ? ? ? ? ? ? ? 非线性相关 ? ? ? ? ? ? ? 完全负线性相关 完全正线性相关 ? ? ? ? ? ? ? ? ? 相关系数示意图 X、Y 变化互不影响----零相关(zero correlation) 关系不可能完全通过统计分析证明 回归模型中表述的关系即使很好的拟和了数 据,也不可能完全肯定它存在 例如:r=0.5,两者存在相关性,但共同变异量仅为25%,稳定性差 统计关系和关系 (二) 相关系数及其计算 相关分析通过图形和数值两种方式,有效地事物之间相关关系的强弱程度和形式。 相关系数 对变量之间关系密切程度的度量 对两个变量之间线性相关程度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为? 若根据样本数据计算称为样本相关系数,记为 r 相关系数的计算 对不同类型的变量应采用不同的相关系数来度量,常用的相关系数主要有Pearson相关系数、Spearman等级相关系数和Kendall相关系数、点二列相关、二列相关等。 Pearson相关系数(适用于两个变量都是线性、成对、正态、连续的数据) 或化简为 相关系数的计算 Spearman等级相关系数是对Pearson相关系数的延伸。用 表示,适用于具性关系的两列等级变量,主要解决称名数据和顺序数据的相关问题,不必考虑是否正态。 数据类型与相关系数类型 利用相关系数进行变量间线性关系的分析通常需要完成以下两个步骤: 第一,计算样本相关系数r; 相关系数r的取值在-1~+1之间 R0表示两变量存在正的线性相关关系;r0表示两变量存在负的线表示两变量存在完全正相关;r=-1表示两变量存在完全负相关;r=0表示两变量不相关 r0.8表示两变量有较强的线表示两变量之间的线性关系较弱 第二,对样本来自的两总体是否存在显著的线性关系进行推断 相关系数取值及其意义 表1 我国人均国民收入与人均消费金额数据 单位:元 年份 人均 国民收入 人均 消费金额 年份 人均 国民收入 人均 消费金额 1981 1982 1983 1984 1985 1986 1987 393.8 419.14 460.86 544.11 668.29 737.73 859.97 249 267 289 329 406 451 513 1988 1989 1990 1991 1992 1993 1068.8 1169.2 1250.7 1429.5 1725.9 2099.5 643 690 713 803 947 1148 相关系数计算例 【例1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi ,yi),i =1,2,…,13,数据见表1,计算相关系数。 计算结果 解:根据样本相关系数的计算公式有 检验两个变量之间是否存在线性相关关系 等价于对回归系数 b1的检验 采用 t 检验 检验的步骤为 提出假设:H0:? ? ? ;H1: ? ? 0 计算检验的统计量: 确定显著性水平?,并作出决策 若?t?t???,H0 若?t?t???,接受H0 相关系数的显著性检验(概念要点) 相关系数的显著性检验(实例) ? 对前例计算的相关系数进行显著性检(??0.05) 提出假设:H0:? ? ? ;H1: ? ? 0 计算检验的统计量 根据显著性水平?=0.05,查t分布表得t???(n-2)=2.201 由于?t?=64.9809t???(13-2)=2.201,H0,人均消费金额与人均国民收入之间的相关关系显著。 相关系数的显著性检验 在小样本下,在零假设成立时, Spearman等级相关系数服从Spearman分布;在大样本下, Spearman等级相关系数的检验统计量为Z统计量,定义为: Z统计量近似服从标准正态分布。 计算相关系数的基本操作 在Analyze下拉菜单Correlate命令中有三个相关分析功能子命令Bivariate过程、Partial过程、Distances过程,分别对应着相关分析、偏相关分析和相似性测度(距离)的三个spss过程。 Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。 Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的偏相关系数。 Distances过程用于对各样本点之间或各个变量之间进行相似性分析,一般不单独使用,而作为聚类分析和因子分析等的预分析。 Bivariate相关分析步骤 (1)选择菜单Analyze-Correlate-Bivariate,出现窗口: (2)把参加计算相关系数的变量选到Variables框。 (3)在Correlation Coefficents框中选择计算哪种相关系数。 (4)在Test of Significance框中选择输出相关系数检验的双边(Two-Tailed)概率p值或单边(One-Tailed)概率p值。 (5)选中Flag significance correlation选项表示分析结果中除显示统计检验的概率p值外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。 (6)在Option按钮中的Statistics选项中,选中Cross-product deviations and covariances表示输出两变量的离差平方和协方差。 一元线性回归模型 参数的最小二乘估计 回归方程的显著性检验 预测及应用 第二节 一元线性回归 回归分析的内容 从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度 回归分析的一般步骤 确定回归方程中的解释变量(自变量)和被解释变量(因变量) 确定回归方程 对回归方程进行各种检验 利用回归方程进行预测 回归分析与相关分析的区别 相关分析中,变量 x 变量 y 处于平等的地位,是对称的双向关系;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化,是一种不对称的单向关系。 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以随机的确定变量。 相关分析主要描述两个变量间线性关系的密切程度;回归分析不仅可以变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制。 This teleology is based on the number of explanatory variables & nature of relationship between X & Y.

  请自觉遵守互联网相关的政策法规,严禁发布、、的言论。用户名:验证码:匿名?发表评论

  

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
本文网址:
下一篇:没有资料