2024年4月11日发(作者:)
对应分析
(Correspondence Analysis)
在进行数据分析时,经常要研究两个定性变量(品质变量)之间的相关关系。我们曾经
介绍过使用列联表和卡方检验来检验两个品质变量之间相关性的方法,但是该方法存在一定
的局限性。卡方检验只能对两个变量之间是否存在相关性进行检验,而无法衡量两个品质型
变量各水平之间的内在联系。例如,汽车按产品类型可以分豪华型、商务型、节能型、耐用
型,按销售区域可分为华北区、华南区、华中区、华东区、西南区、西北区、东北区。利用
卡方检验,只能检验销售地区与对型的偏好之间是否相关,但无法知道不同地区的消费者到
底比较偏好哪种车型。
对应分析方法(Correspondence Analysis)又称相应分析、关联分析,是一种多元相依
变量统计分析技术,是对两个定性变量(因素)的多种水平之间的对应性进行研究,通过分
析由定性变量构成的交互汇总数据来解释变量之间的内在联系。同时,使用这种分析技术还
可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。特别是当
分类变量的层级数比较大时,对应分析可以将列联表中众多的行和列的关系在低维的空间中
表示出来。而且,变量划分的类别越多,这种方法的优势就越明显。
对应分析以两变量的交叉列联表为研究对象,利用“降维”的方法,通过图形的方式,
直观揭示变量不同类别之间的联系,特别适合于多分类定性变量的研究。
对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低
维的空间中表示出来。
它最大特点是能把众多的样品和众多的变量同时作到同一张图上,将样品的大类及其属
性在图上直观而又明了地表示出来,具有直观性。
另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载
荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,
是一种直观、简单、方便的多元统计方法。
该统计研究技术在市场细分、产品定位、品牌形象以及满意度研究等领域得到了广泛的
运用。
对应分析的关键问题是:第一,如何将多个类别点表示在低维空间中,以易于直观观察;
第二,如何确定各类别点的坐标,以易于鉴别类别间联系的强弱。
对应分析的基本步骤
第一步,编制交叉列联表并计算概率矩阵P
编制两定性变量的交叉列联表,得到一个
rc
的矩阵
X
,即:
x
11
x
21
X
x
31
x
r1
x
12
x
22
x
32
x
r2
x
13
x
1c
x
23
x
2c
x
33
x
3c
x
r3
x
rc
其中,
r
为行变量的分类数,
c
为列变量的分类数,且要求
x
ij
0
。将矩阵
X
规格化为
rc
的概率矩阵
P
,即:
p
11
p
21
P
p
31
p
r1
x
ij
rc
p
12
p
22
p
32
p
r2
p
13
p
23
p
33
p
r3
p
1c
p
2c
p
3c
p
rc
其中,
p
ij
,为各单元频数的总百分比。于是,矩阵
P
表示了一组关于比例的相
ij
x
i
1j
1
对数据。
第二步,根据
P
矩阵确定数据点坐标
将P矩阵的
r
行看成
r
个样本,并将这
r
个样本看成
c
维空间中的
r
个数据点,且各数
据点的坐标定义为:
其中,
z
ij
z
i1
,z
i2
,z
i3
,,z
ic
(i1,2,3,,r)
p
ij
p
p
kj
k
1k
1
rc
(i1,2,,r;j1,2,3,,c)
。此时,各个数据点的坐标是一
ik
更多推荐
变量,分析,检验,研究,分类
发布评论