一、相关分析和回归分析的概念
在自然界和社会现象中,任何现象都不是孤立的,而是普遍联系和相互制约的。现象间的普遍联系、相互制约往往表现为相互依存的关系,这种依存关系通常有两种类型,即函数关系和相关关系。
1.函数关系
函数关系是指现象之间有一种严格的确定性的依存关系。表现为:某一现象发生变化,另一现象也随之发生变化,而且有确定的值与之相对应。这种关系可通过精确的数学表达式来反映,比如,圆面积同其半径的关系为s=πr2,自由落体落下的距离同时间的关系为h=12gt2,等等。
2.相关关系
相关关系是指客观现象之间确实存在的但数量上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。例如,成本的高低与利润的多少有密切关系,但某一确定的成本与相对应的利润却是不确定的。这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜好等因素以及其他偶然因素的影响。再如,生育率与人均GDP的关系也属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二者没有唯一确定的关系,这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。
函数关系与相关关系既有区别又有联系。由于观察和实验中的误差,函数关系往往通过相关关系表现出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系又可能转化为函数关系。在社会经济领域里,一般说来,函数关系反映了现象间关系的理想化状态,相关关系则反映了现象间关系的现实化状态,只有在大量观察时,在平均的意义上,它才能被描述。
3.回归分析
“回归”一词是由英国生物学家高尔顿在研究人体身高的遗传问题时首先提出的。高尔顿在研究人类身高的遗传时发现,不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。通俗地讲就是,高个子父母,其子女一般不像他们那样高,而矮个子父母,其子女一般也不像他们那样矮,因为子女的身高不仅受到父母的影响(尽管程度最强),还要受其上两代共四个双亲的影响(尽管程度相对弱一些),上三代共八个双亲的影响(尽管程度更加弱一些),如此等等,即子女的身高要受到其2n(n趋近无穷)个祖先的整体(即总体)影响,是遗传和变异的统一结果。不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用于许多领域的广泛的分析方法,在经济理论研究和实证研究中也发挥着重要的作用。
回归分析通过一个变量或一些变量的变化解释另一变量的变化。其主要内容和步骤是:首先根据理论和对问题的分析判断,将变量分为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型)描述变量间的关系;由于涉及的变量具有不确定性,接着还要对回归模型进行统计检验;统计检验通过后,最后是利用回归模型,根据自变量去估计、预测因变量。
回归分析最基本的分类就是一元回归和多元回归。前者是指两个变量之间的回归分析,如收入与意愿支出之间的关系;后者则是指三个或三个以上变量之间的关系,如消费支出与收入及商品价格之间的关系等。
一元回归还可进一步细分为线性回归和非线性回归两种,前者是指两个相关变量之间的关系可以通过数学中的线性组合来描述,后者则没有这种特征,即两个相关变量之间的关系不能通过数学中的线性组合来描述,而表现为某种曲线模型。
二、相关关系的种类
1.按相关的因素多少可分为单相关和复相关
单相关(又称一元相关),是指两个变量之间的相关关系,即一个自变量与一个因变量之间的相关关系。复相关(又称多元相关),是指三个或三个以上变量之间的相关关系。即一个因变量与多个自变量之间的相关关系。例如,只研究消费支出与消费收入的相关关系,就是单相关,而研究亩产量与施肥量、浇水量的相关关系,就是复相关。
2.按相关的表现形式可分为线性相关和非线性相关
如果自变量数值发生变动,因变量数值随之发生大致均等的变动,从平面图上观察其各点的分布近似地表现为一直线,这种相关关系就为直线相关(也叫线性相关)。如果自变量发生变动,因变量数值也随之发生变动,但这种变动不是沿着一个方向发生均等变动,从图形上看,其分布表现为各种不同的曲线形式,这种相关关系称为曲线相关。
3.按相关的方向可把直线相关分为正相关和负相关
正相关是指当自变量x数值增加(或减少)时,因变量y的数值也将随之相应地增加(或减少),即因变量和自变量的变动方向是一致的,这种相关关系称为正相关。例如,商品销售量增加,销售额也增加;单位产品原材料消耗降低,单位成本也随之降低。负相关是指当自变量x的数值增加(或减少),因变量y的数值则随之减少(或增加),即自变量与因变量的变动方向是相反的,这种相关关系称为负相关。例如,劳动生产率提高,产品成本降低;商品价格降低,销售量增加等。
4.按相关的程度可分为完全相关、不完全相关和不相关
完全相关是指两个变量之间,当自变量改变一定量时,因变量的改变量是一个确定的量,则这两个变量间的关系称为完全相关,此种关系实际上就是函数关系。不相关是指当变量之间没有任何关系,而是各自独立,互不影响,则称为不相关(零相关)。不完全相关是指若变量之间的关系介于完全相关与不相关之间,则称为不完全相关。不完全相关是相关分析的主要对象。由于完全相关和不相关的数量关系是确定的或相互独立的,因此统计学中相关分析的主要研究对象是不完全相关。
三、相关关系的测定
(一)相关表
相关表是一种统计表。它是直接根据现象之间的原始资料,将一变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对应排列形成的统计表。
(二)相关图
相关图又称散点图,它是将相关表中的观测值在平面直角坐标系中用坐标点描绘出来,以表明相关点的分布状况。通过相关图,可以大致看出两个变量之间有无相关关系以及相关的形态、方向和密切程度。
(三)相关系数
相关图表只能大体上反映变量间相关关系的方向、形式和密切程度,要确切地反映相关关系的密切程度,还需计算相关系数。
在各种相关中,单相关是基本的相关关系,它是复相关的基础。单相关有线性和非线性相关两种表现形式。测定线性相关系数的方法是最基本的相关分析,是测定其他相关系数方法的基础。我们着重研究线性的单相关系数即直线相关系数,简称相关系数。
四、回归分析与相关分析
回归分析与相关分析均为研究及测度两个或两个以上变量之间关系的方法。相关分析,是研究两个或两个以上随机变量之间相互依存关系的紧密程度。直线相关时用相关系数表示,曲线相关时用相关指数表示,多元相关时用复相关系数表示。回归分析,是研究某一随机变量(因变量)与其他一个或几个普通变量(自变量)之间的数量变动的关系。由回归分析求出的关系式,称为回归模型。
这两种分析的区别是:相关分析研究的都是随机变量,并且不分自变量与因变量;回归分析研究的变量要定出自变量与因变量,并且自变量是确定的普遍变量,因变量是随机变量。这两种分析的联系是:它们是研究现象之间相互依存关系的两个不可分割的方面。在实际工作中,一般先进行相关分析,由相关系数或相关指数的大小决定是否需要进行回归分析。而在相关分析的基础上必须拟合回归模型,以便进行推算和预测。