一、回归分析的含义
就一般意义而言,相关分析包括回归和相关两方面内容,因为回归与相关都是研究两个变量相互关系的分析方法。但就具体方法而言,回归分析和相关分析是有明显差别的。相关系数能确定两变量之间相关的方向和密切程度,但不能指出两变量相互关系的具体表现形式,也无法从一个变量的变化来推测另一个变量的变化情况。回归分析就是对具有相关关系的两个或两个以上变量的数量变化规律进行测定,确立一个相应的数学表达式,并进行估算和预测的一种统计方法。
回归分析和相关分析是互相补充、密切联系的。相关分析需要回归分析来表明数量关系的具体表现形式,而回归分析则应该建立在相关分析的基础上。只有依靠相关分析,对现象的数量变化规律判明具有密切相关关系后,再进行回归分析,求其相关的具体表现形式,这样才具有实际意义。
回归分析建立的数学表达式称为回归方程(或回归模型)。回归方程为线性方程的,称为线性回归;回归方程为非线性方程的称为非线性回归。两个变量之间的回归称为一元回归(简单回归);三个或三个以上变量之间的回归称为多元回归。本章只介绍一元线性回归,即简单线性回归分析方法。
二、回归分析的主要内容
(一)建立相关关系的回归方程
利用回归分析方法,配合一个表明变量之间数量上相关的方程式,而且根据自变量x的变动,来预测因变量y的变动。
(二)测定因变量的估计值与实际值的误差程度
通过计算估计标准误差指标,可以反映因变量估计值的准确程度,从而将误差控制在一定范围内。
三、回归分析的特点
回归分析与相关分析比较具有以下特点:
1.在相关分析中,各变量都是随机变量;而回归分析中,因变量是随机变量,自变量不是随机的,而是给定的数值。
2.在相关分析中,各变量之间是对等关系,调换变量的位置,不影响计算的结果;而在回归分析中,自变量与因变量之间不是对等关系,调换其位置,将得到不同的回归方程。因此,在进行回归分析时,必须根据研究目的,先确定哪一个是自变量,哪一个是因变量。
3.相关分析计算的相关系数是一个绝对值在0与1之间的抽象系数,其数值的大小反映变量之间相关关系的程度;而回归分析建立的回归方程反映的是变量之间的具体变动关系,不是抽象的系数。根据回归方程,利用自变量的给定值可以估计或推算出因变量的数值。
四、一元线性回归方程的拟合
式中,a与B为待定参数,也就是需要根据实际资料求解的数值,a为直线的截距,B为直线的斜率,也称回归系数,表示自变量x每变动一个单位时,因变量y的平均变动量。a、B值确定了直线的位置,a、B一旦确定,这条直线就被唯一确定了。但用于描述这n组数据的直线有许多条,究竟用哪条直线来代表两个变量之间的关系,需要一个明确的原则。我们希望选择距离各散布点最近的一条直线来代表x与y之间的关系,以便更好地反映变量之间的关系。根据这一思想确定未知参数a、B的方法,称为最小二乘法,也就是通过使得Q∑(y-)2∑(y-a-Bx)2为最小值来确定a、B的方法。可见,用最小二乘法得到的直线与所有数据(xi,yi)的离差平方和为最小。
五、估计标准误差
(一)估计标准误差的意义
回归方程的一个重要作用在于根据自变量的已知值推算因变量的可能值,这个可能值或称估计值、理论值、平均值,它和真正的实际值y可能一致,也可能不一致,因而就产生了估计值的代表性问题。当值与y值一致时,表明推断准确;当值与y值不一致时,表明推断不够准确。显而易见,将一系列值与y值加以比较,可以发现其中存在着一系列离差,有的是正差,有的是负差,还有的为零。而回归方程的代表性如何,一般是通过计算估计标准误差指标来加以检验的。估计标准误差指标是用来说明回归方程代表性大小的统计分析指标,也简称为估计标准差或估计标准误差,其计算原理与标准差基本相同。估计标准误差说明理论值(回归直线)的代表性。若估计标准误差小,说明回归方程准确性高,代表性大;反之,估计不够准确,代表性小。
从上面的计算公式中可以看出γ和Syx的变化方向是相反的。当γ越大时,Syx越小,这时相关密切程度较高,回归直线的代表性较大;当γ越小时,Syx越大,这时相关密切程度较低,回归直线的代表性较小。
附录 应用Excel进行相关与回归分析
本附录主要介绍如何应用Excel对所要研究的数据先进行相关分析,然后再进行回归分析。
【例8】某大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来很大的压力。为弄清不良贷款形成的原因,希望利用银行业务的有关数据做出定量分析,以便找出控制不良贷款的办法。现根据该银行所属的25家分行2008年的有关业务数据资料,要求应用Excel来绘制相关图和计算相关系数等相关分析方法,测定不良贷款与贷款余额是否存在相关关系及其密切程度。
具体操作步骤如下:
1.应用Excel绘制相关图,测定不良贷款与贷款余额之间的相关关系。
由于相关图也是统计图中的一种,所以应用Excel绘制相关图仍采用“插入”选项中的“图表”功能,所不同的是绘制相关图应选择“图表类型”中的“散点图”。操作结果。
从中可以看出,不良贷款与贷款余额之间明显存在正相关关系。
2.应用Excel计算相关系数,测定不良贷款与贷款余额之间的相关关系。
(1)应用Excel函数工具计算相关系数,并加以分析。具体操作方法是:采用“插入”菜单中“函数”选项里的“CORREL”(相关系数)函数计算功能,对不良贷款和贷款余额两变量计算相关系数。计算结果。
(2)应用Excel中“数据分析”工具计算相关系数,并加以分析。具体操作方法是:采用“工具”菜单中“数据分析”选项里的“相关系数”功能,对不良贷款和贷款余额两变量计算相关系数。计算结果。
从中可以看出,应用Excel中两种计算相关系数方法得到的相关系数都为γ0.843,根据相关系数性质,可说明不良贷款与贷款余额之间存在高度正相关关系。
【例9】沿用【例8】计算结果(即应用相关分析方法确定出不良贷款与贷款余额之间明显存在高度正相关关系)对原始数据进行回归分析,以确立两变量之间的数学表达式。
下面应用Excel的回归分析工具来求出不良贷款与各项贷款余额之间的关系。
具体操作步骤如下:
第1步:选择“工具”下拉菜单中的“数据分析”选项;
第2步:在分析工具中选择“回归”,然后点击“确定”按钮;
第3步:弹出“回归”对话框后,在“Y值输入区域”输入“C3:C27”;在“X值输入区域”输入B3:B27;在“置信度”选项中给出所需的数值“95”;在“输出选项”中选择输出区域(这里我们选新工作表组);其他选项为空;点击“确定”按钮后得到回归分析计算结果。
输出的回归结果包括如下内容(其中部分内容统计学教学未涉及):
第一部分:“回归统计”,该部分给出了回归分析中一些常用统计量,包括相关系数(Multiple R)、判定系数(R Square)、调整后判定系数(Adjusted R Square)、标准误差、观测值个数等。其中我们学过的指标有:相关系数Multiple R0.843,表明两个变量之间高度相关;标准误差1.981,表明根据贷款余额来估计不良贷款,平均估计误差为1.981亿元;观测值的个数n25。
第二部分:“方差分析”,这部分内容我们没有学。
第三部分:参数估计的有关内容。以95%的置信保证程度估计一元线性回归方程的截距和斜率,截距a在-2.325~0.668,斜率 B在0.027~0.048,而其中间值为截距a和斜率B的系数值(coefficients):a-0.829,B0.038。