哑变量中文名称哑变量英文名称Dummy Variable定义虚拟变量(Dummy Variable),又称虚设变量、名义变量或哑变量,是量化了的质变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。-----章晓英《虚拟变量在线形回归模型中的应用》在统计分析中的应用李丽霞郜艳晖等摘要:目的: 探讨哑变量在统计分析中的应用。方法: 在协方差分析与方差分析中使用哑变量。结果: 正确使用哑变量,扩大回归模型的应用范围。结论:在协方差分析中使用哑变量使对模型的理解变的简单,在方差分析中使用哑变量使得可以从回归的角度来理解模型。关键词: 哑变量;协方差分析;回归分析在建立模型时,自变量常常是连续型变量,但也经常遇到分类变量,使用哑变量可以处理这类变量。哑变量经常取值为0,1,-1,但这些取值并不代表数量的大小,仅仅表示不同的类别。在回归分析中,定义哑变量时为了避免共线性,当回归模型包含截距时,如变量有k个类别,需定义k-1个哑变量来表示这些类别;当回归模型中不包含截距时,k个类别,需定义k个哑变量来表示这些类别。哑变量有不同的赋值方法。1哑变量在协方差分析中的应用[2,3]协方差分析主要用于控制混杂因素对实验效应的影响,当混杂因素(例如年龄,性别)在要比较的两组(或多组)中分布不同时,需对要比较的均数进行校正。协方差分析要求比较的各处理组来自方差相等的正态总体,且各处理组的总体回归系数相等。用哑变量来区别要比较的不同组,拟合多重回归模型(这里我们假设只有一个协变量,两组比较)。Y=β0+β1X+β2Z+β3XZ+E其中X为要控制的协变量,Z为哑变量,表示要比较的组别。当Z=0: Y0=β0+β1X+E(1)当Z=1: Y1=(β0+β2)+(β1+β3)X+E(2)对两条回归方程是否平行的检验,即检验β3是否等于0,即β3=0,β3=0 也反映了协方差分析要求协变量与所研究的变量没有交互作用。如两条回归线平行,拟合回归模型:Y=β0+β1X+β2Z+E其中X为要控制的协变量,Z为哑变量,表示要比较的组别。检验β2=0是否等于零,可以看出控制协变量X以后修正均数之间有无差别。这样通过设置哑变量Z可以检验回归线是否平行,也容易检验要比较的均数有无统计学意义。尤其是多组(k组)比较,而且存在多个协变量要控制时,拟合多重回归模型:Y=β0+∑p[]i=1βiXi+∑k-1[]j=1βp+jZj+∑p[]i=1∑k-1[]j=1γijXiZj+E(3)其中,此模型中包括p个协变量,k个组别,用k-1个哑变量来表示。首先检验要比较的k条回归线是否平行,即检验H0 :所有的交互项γij=0 。如平行拟合模型:Y=β0+β1X1+β2X2…+βpXp+βp+1Z1+βp+2Z2+…βp+K-1ZK…1+E(4)通过检验H0:βp+1=βp+2=…=βp+k-1=0,可以看出控制p个协变量Xi之后,修正均数之间有无差别。哑变量的使用使得对协方差分析的理解变的简单。实例分析[1]:为了研究不孕症,研究者在甲乙两个地区各收集了10名男子的精子数(106/ml)、收缩压(mmHg)和年龄(岁),资料见表1。在充分利用所给资料的前提下,试分析甲、乙两个地区男子的平均精子数之间的差别有无统计学意义(假设两组资料服从正态分布,方差齐)。表1 甲乙两地区各10名男子的精子数、收缩压和年龄的测定结果编(略)此资料也称为二元协方差分析,有两个要控制的协变量(收缩压、年龄),拟合模型:Y=β0+β1X1+β2X2+β3Z+β4X1Z+β5X2Z+E (Z为哑变量,表示要比较的地区)使用SAS 拟合模型得表2和表3,可见交互作用没有统计学意义,在控制协变量收缩压和年龄后,甲、乙两个地区男子的平均精子数差别无统计学意义。表2 方差分析表(略)2 从回归模型的角度来理解方差分析方差分析与回归分析是统计学中重要的方法,在方差分析中,自变量是分类变量;在回归分析中,自变量可以是连续变量、等级变量、分类变量。事实上,方差分析可以被看成是回归分析的一个特例,这一点可以通过定义合适的哑变量来理解。对于k个总体均数的方差分析H0: μ1=μ2=…μk-1=0,等同于对模型(5)做假设检验 H0: α1=α2=…αk-1=0 ,不同之处在于哑变量的赋值方法不同,回归系数α1,α2,…αk-1的含义不同。同样,随机区组设计的方差分析,两因素的方差分析也可以通过设置哑变量的方式纳入到回归分析的框架中来。通过设置哑变量我们可以从回归的角度来理解方差分析。3 讨论在日常分析处理数据时,经常会遇到象职业、疾病种类等分类数据,建立模型(例如Logistic回归、Cox回归等模型)时要正确、合理的应用哑变量。本研究讨论了哑变量在协方差分析中的应用,通过设置协变量和哑变量的交互作用项可以很方便的对各总体的回归系数是否相同这一协方差分析的前提条件进行检验,进一步检验修正均数是否有意义,尤其是要控制多个协变量或配伍组设计、析因设计的协方差分析时,哑变量的使用使得协方差分析更容易理解。通过定义合适的哑变量,可以从回归的角度来理解方差分析,方差分析可以被看成是回归分析的一个特例,加深对方差分析与回归分析关系的理解。参考文献1 胡良平,编著.实用统计分析教程.北京:军事医学科学出版社,2001, 娄冬华.引入协变量比较药物的效果.数理医药学杂志,2000,13(1):66~673余红梅,王彤,何大卫.协方差分析基本思想教学讨论.中国卫生统计,2001,18(2):116~118