一、相关分析的主要内容
相关分析是指对客观现象的相互依存关系进行分析和研究。相关分析的目的在于研究现象间的相互关系的密切程度和变化规律,找出相互关系的模式,以便进行统计预测和推算,为制定计划、决策提供统计资料。相关分析的主要内容包括:
(一)确定现象之间有无相关关系
这是相关与回归分析的起点,只有存在相互依存关系,才有必要进行进一步的分析。
(二)确定相关关系的密切程度和方向
相关关系密切程度主要是通过绘制相关图表和计算相关系数来确定。只有对达到一定密切程度的相关关系,才可配合具有一定意义的回归方程。
(三)确定相关关系的数学表达式
为确定现象之间变化上的一般关系,我们必须使用函数关系的数学公式作为相关关系的数学表达式。如果现象之间表现为直线相关,我们可采用配合直线方程的方法;如果现象之间表现为曲线相关,我们可采用配合曲线方程的方法。
(四)确定因变量估计值误差程度
使用配合直线或曲线的方法可以找到现象之间一般的变化关系,也就是自变量变化时,因变量将会发生多大的变化。根据得出的直线方程或曲线方程我们可以给出自变量的若干数值,求得因变量的若干个估计值。估计值与实际值是有出入的,确定因变量估计值误差程度大小的指标是估计标准误差。估计标准误差大,表明估计不太精确;估计标准误差小,表明估计较精确。
二、相关关系的测定
(一)相关表
在统计中,制作相关表或相关图,可以直观地判断现象之间大致存在的相关关系的方向、形式和密切程度。
在对现象总体中两种相关变量作相关分析,以研究其相互依存关系时,如果将实际调查取得的一系列成对变量值的资料顺序地排列在一张表格上,这张表格就是相关表。相关表仍然是统计表的一种。根据资料是否分组,相关表可以分为简单相关表和分组相关表。
1.简单相关表
简单相关表是资料未经分组的相关表,它是把自变量按从小到大的顺序并配合因变量一一对应平行排列起来的统计表。
【例1】为研究分析产量(x)与单位产品成本(y)之间的关系,从30个同类型企业调查得到的原始资料。
根据,将产量按从小到大的顺序排列,可编制简单相关表。
从,随着产量的提高,单位产品成本有相应降低的趋势,尽管在同样产量的情况下,单位产品成本存在差异,但是两者之间仍然存在一定的依存关系。
2.分组相关表
在大量观察的情况下,原始资料很多,运用简单相关表表示就很难表达。这时就要将原始资料进行分组,然后编制相关表,这种相关表称为分组相关表。分组相关表包括单变量分组相关表和双变量分组相关表两种。
(1)单变量分组相关表。在原始资料很多时,对自变量数值进行分组,而对应的因变量不分组,只计算其平均值,根据资料具体情况,自变量可以是单项式,也可以是组距式。
【例2】以【例1】资料为例,将同类型30个企业的产量(x)与单位产品成本(y)原始资料,按产量分组编制单变量分组表。
从。
(2)双变量分组相关表。对两种相关变量都进行分组,交叉排列,并列出两种变量各组间的共同次数,这种统计表称为双变量分组相关表。这种表格形似棋盘,故又称棋盘式相关表。
【例3】仍以【例1】资料为例,将同类型30个企业的产量(x)与单位产品成本(y)原始资料,编制双变量分组相关表。
从,产量集中在左上角到右下角的对角斜线上,表明产量与单位产品成本是负相关关系。
制作双变量分组相关表,需注意自变量为纵栏标题,按变量值从小到大自左向右排列,因变量为横行标题,按变量值从大到小自上而下排列。这样做的目的是将相关表与相关图结合起来,便于判断相关关系的性质。
(二)相关图
相关图又称散点图。它是以直角坐标系的横轴代表自变量x,纵轴代表因变量y,将两个变量间相对应的变量值用坐标点的形式描绘出来,用来反映两变量之间相关关系的图形。
相关图可以按未经分组的原始资料来绘制,也可以按分组的资料,即编制的单变量分组相关表和双变量分组相关表来绘制。通过相关图可以看到,当y对x是函数关系时,所有的相关点都会分布在某一条线上;当y对x是相关关系时,由于其他因素的影响,这些点并非处在一条线上,但所有相关点的分布也会显示出某种趋势。所以相关图会很直观地显示现象之间相关的方向和密切程度。
【例4】以【例2】中编制的产量与单位产品成本单变量分组相关表为例,绘制相关图,结果。
从中可以看出,单位产品成本随着产量增加而降低,并且散布点的分布近似地表现为一条直线。由此可以判断产量与单位产品成本两个变量之间存在着直线负相关关系。
(三)相关系数
相关表和相关图大体说明变量之间有无关系,但它们的相关关系的紧密程度却无法表达,因此,需运用数学解析方法,构建一个恰当的数学模型来显示相关关系及其密切程度。这时就需要计算相关系数。
1.相关系数的计算
相关系数是在直线相关条件下,说明两个现象之间关系密切程度的统计分析指标,记为γ。
相关系数的计算公式为
γ∑(x-x)∑(y-y)
∑(x-x)2∑(y-y)2
式中n――资料项数;
x――x变量的算术平均数;
y――y变量的算术平均数
σx――x变量的标准差;
σy――y变量的标准差;
σxy――x,y变量的协方差。
2.相关系数的分析
明晰相关系数的性质是进行相关系数分析的前提。现将相关系数的性质总结如下:
(1)相关系数的数值范围,是在-1和 1之间,即:-1≤γ≤1。
(2)计算结果,当γ>;0时,表示x与y为正相关;当γ<;0时,x与y为负相关。
(3)相关系数γ的绝对值越接近于1,表示相关关系越强;越接近于0,表示相关关系越弱。如果|γ|1,则表示两个现象完全直线相关。如果|γ|0,则表示两个现象完全不相关(不是直线相关)。
(4)相关系数γ的绝对值在0.3以下是无直线相关,在0.3以上是有直线相关,0.3~0.5是低度直线相关,0.5~0.8是显著相关,0.8以上是高度相关。
【例5】计算的相关系数为0.99,说明消费支出与居民家庭月收入呈高度正相关,也就是家庭收入越高,消费支出越高。