就是模型中的一个或多个解释变量与随机扰动项相关。
导致原因
1:遗漏变量,且遗漏变量与引入模型的其他变量相关。
2:解释变量和被解释变量相互作用,相互影响,互为因果。
3.自我选择偏误。
4.样本选择偏误。
解决方法
工具变量估计
工具变量:假定我们有一个可观测到的变量Z,它满足两个假定
(1):Z与U不相关,即与Cov(Z,U)=0;
(2):Z与X相关,即与Cov(Z,X)不等于0;
我们则称Z是X的工具变量(instrumental variable 简称IV)
举例:以双变量模型为例
Y=Q+WX+U;
其中X与U相关,因而OLS估计有偏,有X的工具变量Z,
于是有Cov(Z,Y)=Cov(Z,Q+WX+U)
=Cov(Z,WX)+Cov(Z,U)(Q为常数)
=WCov(Z,X)
所以有W=Cov(Z,Y)/Cov(Z,X)
工具变量的优劣
(1):Z与U不相关,即与Cov(Z,U)=0;
相关性越低,则越好
(2):Z与X相关,即与Cov(Z,X)不等于0;
相关性越高,则越好
Z与U相关性低,Z与X相关性高,这样的工具变量被称为好工具变量,反之则称为劣工具变量。
好的工具变量的识别
(1):Z与U不相关,即与Cov(Z,U)=0;
由于U无法观察,因而难以用正式的工具进行测量,通常由经济理论来使人们相信。
(2):Z与X相关,即与Cov(Z,X)不等于0;
将X对Z回归即可,看看X的系数是否显著异于零?
IV与OLS估计量的简单比较
IV估计量:C1=Cov(Z,Y)/Cov(Z,X)
而OLS估计量是:C2=Cov(X,Y)/Cov(X,X)
(1)因此,Z=X时,两者将完全一致,换句话说,当X外生时,它可用做自身的IV,IV估计量便等同于OLS估计量。
(2)若Z与X不相关,Cov(Z,X)等于0,则IV法无法给出估计量。
IV与OLS的取舍
(1)尽管当Z与U不相关,而Z与X存在着或正或负的相关时,IV是一致的,但当Z与X只是弱相关时IV估计值的标准误可能很大,Z与X之间的弱相关可能产生更加严重的后果:即使Z与U只是适度相关,IV估计的渐进偏误也可能很大。也即是说,当解释变量外生时,IV与OLS估计都是一致的,但IV估计不如OLS有效。
(2)所以,当内生性程度不严重或者好的工具变量找不到时,还不如用OLS。反之,当内生性程度严重时,就一定要想办法解决,否则,OLS估计就是不可接受的,当然,差的IV同样是不可接受的。