一、一元线性回归模型
(一)一元线性回归模型的确定
设x为自变量,y为因变量,y与x之间存在某种线性关系,即一元线性回归模型为:y=a bx ui。式中,x代表影响因素,我们往往认为它是可以控制或预先给定的,故称之为自变量;ui表示各种随机因素对y的影响的总和,根据中心极限定理,可以认为它服从正态分布,即ui—N(0,σ2);因变量y,就是我们的预测目标,由于受各种随机因素的影响,它是一个以回归直线上的对应值为中心的正态随机变量,即:y—N(a b,σ2)。
对于x某一确定的值,其对应的y值虽有波动,但随机误差的期望值为零。
我们可通过样本观察值计算a、b,用它对上式中的参数a、b作出估计,即求样本回归方程,用它对总体线性回归方程进行估计。
(二)一元线性回归模型中随机项的基本假定
在给定样本观测值,必须对随机项ui做出某些合理的假定。这些假定通常称为古典假设。
如果这个假设成立,参数的检验和利用模型进行预测将被简化。
各次观测中u具有相同的方差,也就是说各次观测所受的随机影响的程度相同。
对于不同的解释变量xi,如果随机项的方差不同,那么与其相对应的观察值yi的可靠程度(与随机项的方差大小成反比)也不相同。对于不同的随机项ui所对应的不同观测值yi应分别赋予不同的权数,这样做会使参数的估计、检验和利用模型进行预测复杂化。如果满足同方差假设,将会使估计、检验和预测简化。
假设2、3称为高斯—马尔可夫(Gauss-Markov)假设。在此假设条件下,可以得到关于回归系数的最小二乘估计及随机项方差估计的一些重要性质。
假设4Cov(ui, xi)=0即解释变量xi与误差项ui同期独立无关。如果两者相关,就不可能把x对y的影响和u对y的影响区分开来。
在一般情况下,xi为非随机变量(在预测时它是确定性变量),而ui为随机变量,这一假定很显然成立。
假定5ui—N(0,σ2u)即ui为服从正态分布的随机变量。
对于大样本,由中心极限定理中的李雅普诺夫(Liapunov)定理可知,无论ui中包含的每一种影响因素服从什么分布,ui都近似正态分布,即在大样本条件下这个假设成立。但对于小样本,这个假设不一定成立,如果这个假设不成立,就无法进行检验和预测。因为检验和预测,须知道总体y的分布情况。
(三)参数a、b的最小二乘法估计(OLS估计)
估计模型的回归系数有许多方法,其中使用最广泛的是最小平方法,下面我们采用最小平方法来估计模型的回归系数。
最小平方法的中心思想是,通过数学模型,配合一条较为理想的趋势线。
二、估计标准差
在建立了回归方程后,就可以利用回归方程进行预测。要进行预测,就需首先测定回归估计值的可靠性,计算估计标准差(s),即观察值与估计值之间的标准差。根据回归直线方程,当给定某一特定值(x),就可以推算出y的数值yc=a bx,但是yc的数值并不就是特定x值所对应的实际值y,因为x与y并不存在函数关系,估计值yc是实际值y的平均值,实际值y在yc值的上下波动。估计值与对应的观察值y之间的离差称为估计误差,这种误差的大小反映回归估计的准确程度,也就是说明回归直线方程代表性的大小,为了说明估计误差,需要从变差的分析开始。
(一)离差平方和的分解
在直线回归中,观察值y的取值大小是上下波动的,但这种波动总是围绕其均值而在一定范围内,统计上将y取值的这种波动现象称为变差。这种变差的产生是由两方面原因引起的:①受自变量变动的影响。②其他因素(随机因素)的影响。为了分析这两个方面的影响,需要对总的变差进行分解。
剩余平方和又称残差平方和,它反映了自变量x对因变量y的线性影响之外的一切因素(包括x对y的非线性影响和测量误差等)对因变量y的作用。回归平方和表示在总离差平方和中,由于x与y的线性关系而引起因变量y变化的部分。
(二)估计标准差的计算
回归标准差是观察值y对估计值yc的平均离差,就直线回归来说,这个离差值愈小,则所有观察点愈靠近回归直线即关系愈密切;而当离差的值愈大,则所有观察点离回归直线愈远,即愈不密切。可见这个指标是从另一侧面反映关系的密切程度的。
剩余标准差是以回归直线为中心反映各观察值与估计值平均数之间离差程度的大小,从另一方面看,也就是反映着估计值平均数yc的代表性的可靠程度,通常剩余变差也称为估计标准误差。
三、回归方程的检验
回归方程的检验一般包括两个方面的内容:一是线性关系的检验;二是回归系数的检验。
1.线性关系的检验
具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著。
可以证明,在原假设成立的情况下,F统计量服从F分布,第一自由度为1,第二自由度为n-2,即F~Fa(1,n-2)。
第三步,确定显著性水平以及临界值Fa。
确定显著性水平a(通常a=0.05)。依据a和两个自由度f1、f2查F分布表可得相应的临界值Fa。
第四步,做出判断。
如果F>Fa,拒绝原假设H0,表明回归效果显著;反之,则接受原假设,表明线性回归方程的回归效果不显著。
2.回归系数的检验
回归系数的检验就是检验自变量对因变量的影响程度是否显著的问题,即总体回归系数b是否等于零。
(1)取显著性水平a=0.05,并根据自由度f=n-2=6,查t分布表得相应的临界值ta/2=t0.025=2.4469.
(2)由于T=9.72345>ta/2=t0.025=2.4469,拒绝H0,表明样本回归系数是显著的,广告费与月销售额之间确实存在着线性关系,广告费是影响月销售额的显著因素。
四、回归预测
在对一元线性回归模型检验其显著性之后,就可以利用该模型进行预测。所谓预测,就是当自变量x取一个值x0时,估计y的取值。一般有点预测和区间预测两种,而点预测的结果往往与实际结果有偏差,所以,我们通常用区间预测来估计因变量值的可能范围。