华体汇百度百科-百度百科

首页>中国社会科学报>经济学

准确认识回归分析中的内生性问题

2023年03月29日 09:43 来源：《中国社会科学报》2023年3月29日总第2620期作者：杨继生

　　在回归分析中，解释变量的内生性可能会导致估计量的非一致性。很多文献都把内生性处理作为实证研究的重要内容。本文从来源、影响、处理等方面对内生性问题的基本思想进行梳理，希望能为经济实证分析提供些微的借鉴。

　　有限样本偏误普遍存在

　　回归分析中的内生性，通俗来讲，是指回归方程中解释变量与误差项相关。来自误差项的冲击会导致被解释变量发生变化，但我们无法直接观测误差项的冲击，只能看到解释变量和被解释变量的变化。因此，在估计参数时，估计量就可能把被解释变量的变化归因于与误差项相关的解释变量，尽管这一变化是由误差项而不是解释变量导致的。从而，解释变量的系数会被系统性地高估或低估，产生估计偏误。

　　当解释变量内生，即与当期（或个体自身）的误差项相关时，普通最小二乘估计量（OLS）的概率极限不等于真值，从而导致真实参数不可识别，这就是非一致估计。当解释变量弱外生，即与当期（或个体自身）的误差项不相关，而是与其他时点（或其他个体）的误差项相关，OLS估计量虽然在有限样本下有偏误，但是其概率极限等于真值，这就是一致估计。

　　那么，内生解释变量对模型中外生解释变量的系数估计有什么影响呢？此时，除非外生解释变量与内生解释变量都不相关，否则，其系数的OLS估计量也是非一致的。而且，实证分析中，解释变量严格外生（与任何时点任何个体的误差项都不相关）是很难满足的，所以，有限样本偏误是普遍存在的。

　　内生性来源辨析

　　内生性的来源主要是四种：变量的联立性、模型错误设定、样本截取、测量误差。

　　第一，联立性。变量的联立性是指，多个变量之间是相互依赖、同时决定的。如价格与交易量、工资与就业水平、利率与货币流动性等。在一个回归方程中，如果其中一个变量是被解释变量，其他与之联立的变量就必然是解释变量，这些解释变量就一定是内生的。这里需要说明的是，联立和反馈是两个不同的机制。区别在于，联立变量是同时决定的，而反馈则不一定，其影响的很可能是受反馈变量在下一期而不是当期的取值。变量之间的反馈机制不一定会导致内生性，但联立变量则一定会导致内生性。

　　第二，模型误设。模型误设导致的内生性主要源于遗漏变量，就是必要的解释变量被有意或无意忽略了。此时，遗漏变量对被解释变量的影响就只能由误差项来反映，误差项不再是纯粹的随机误差了。因为社会经济变量之间通常都具有一定的相关性，包含遗漏变量的误差项就可能与模型中的解释变量相关，从而导致其内生性。显然，因为同期变量之间通常会有一定的相关性，遗漏必要的解释变量通常会导致模型中所有的解释变量都是内生的。除了遗漏必要的解释变量，回归方程函数形式设定错误也会导致误差项含有遗漏的系统性信息，从而导致内生性。自回归模型中误差项的自相关，如动态模型的序列相关和空间自回归模型的截面相关，也必然会导致自回归项的内生性。

　　第三，样本截取。样本截取是指被解释变量存在一个观测阈值，只有大于（或小于）该阈值时才能被观测。样本截取分为两种情形：一是被截去的个体或样本点是可知的，尽管该样本点的被解释变量不可观测，但解释变量是可观测的，这样的样本被称为Tobit样本。二是被截去的个体或样本点是未知的，样本中没有被截去的样本点的任何信息，这样的样本被称为Truncated样本。无论是Tobit样本还是Truncated样本，因为误差项的下尾部（或上尾部）被截掉了，如果基于具有完整信息的子样本进行均值回归，那么其误差项的均值就不为0，而会随着解释变量的变化而变化。此时，被解释变量的条件期望是两部分之和：一是解释变量与其系数的乘积，二是误差项的条件均值，该均值是解释变量的函数。显然，截取样本的后果与遗漏变量类似，这里被遗漏的是误差项的条件均值，它与解释变量相关。所以，直接基于具有完整信息的子样本进行均值回归，解释变量就具有内生性，会导致非一致估计。

　　第四，解释变量有测量误差。当解释变量有测量误差时，测量误差就需要由模型的误差项来抵消，所以解释变量和误差项含有符号相反的测量误差，从而导致解释变量与误差项相关，其影响类似于遗漏了必要的解释变量。

　　统筹解决内生性问题

　　解决内生性问题，一个常用的手段就是使用工具变量（IV）。需要满足两个条件：一是外生性，至少是弱外生，也就是与模型当期或个体本身的随机冲击不相关。实际上，我们通常能够找到的工具变量都是弱外生的，严格外生的工具变量是很难找到的。二是与解释变量相关。在满足外生性的前提下，相关性越高越好。

　　如果工具变量是弱外生的，比如，以内生解释变量的滞后项作为工具变量，尽管我们可以得到一致的估计结果，但是，在有限样本下，估计量仍然是有偏误的。而且，IV估计量是以增大方差为代价换取偏误的减小。也就是说，与OLS估计量相比，IV估计量具有更大的方差。工具变量与内生解释变量的相关性越弱，估计方差就越大，这就是所谓的弱工具变量问题。显然，IV估计量是在偏误和方差之间进行权衡。

　　除了方差问题，在使用IV估计量测度处置效应时，还有局部识别的问题。在基于IV估计量测度处置效应时，所选的IV一般都是虚拟变量。在样本中，可能会有一些个体的选择行为不受这一虚拟变量的影响，也就是所谓的“不追随者”。对于这部分“不追随者”，我们无法识别其身份，更无法识别其处置效应。

　　显然，工具变量不是处理内生性的“万能钥匙”。那么，除了工具变量，还能怎么办呢？

　　其一，完备模型。显然，对于遗漏变量所导致的内生性，应该优先通过模型的完备设定来避免。因为遗漏变量通常会导致模型中所有解释变量都是内生的，从而为工具变量集的选择增加了难度。而模型的设定要有经济理论、传导机制或先验信息为基础，不能是单纯的数据实验，否则，模型设定的完备性就无从判定。在处置效应的测度中，如果处置变量是内生的，产出变量的条件期望不等于解释变量与其系数的乘积，二者之差是两个逆米尔斯（mills）比率。那么，基于正态性假定，通过Heckman两步法把两个逆mills比率作为解释变量加入模型中，就可以通过线性回归识别处置效应了。

　　其二，偏误修正。动态面板模型存在固有的内生性，因为个体效应导致误差项存在序列相关，从而导致滞后被解释变量是内生的。不过，动态面板模型的LSDV估计量尽管是非一致的，但与IV估计量相比，却具有最小的方差。现有文献给出了LSDV估计量的极限偏误。那么，可以通过迭代算法，对LSDV估计量进行偏误修正，这样既保留了LSDV的方差优势，又减小了估计偏误。所以，对动态面板模型而言，IV估计量或广义矩方法（GMM）不是必然的选择。

　　其三，ML估计。众所周知，对内生选择模型，除了Heckman两步法，我们还可以进行ML估计。而且，对于很多存在内生性的模型，如空间自回归模型，都可以进行ML估计，包括准极大似然估计（QMLE）、条件极大似然估计（CMLE）等。

　　其四，DID如何避免内生性？在实证分析中，DID方法被广泛应用来测度处置效应。而之所以要选用DID，肯定是条件独立性假设不成立，无法通过处置个体和非处置个体在截面上的比较来识别处置效应。DID基于非处置个体控制不可观测的时间效应，进而通过处置个体在处置前后的对比来识别处置效应。显然，如果处置个体和非处置个体具有不同的时间效应，处置个体的部分时间效应就会被遗漏在误差项中，处置效应的估计就是非一致的，这类似于模型中遗漏了必要的解释变量。那么如何判断处置个体与非处置参照个体之间有相同的时间效应呢？在回归方程中，相同的时间效应意味着，处理组和参照组在处置之前所有时点的级差系数均为0。这是一个多约束的检验，F统计量、似然比（LR）统计量、瓦尔德（Wald）统计量、拉格朗日乘数（LM）统计量都是适用的。需要注意的是：“相同时变性”的检验结论来自“不拒绝原假设”，此时，显著性水平越低（α越大），检验结论越可信。

　　最后要说明一点，即使解释变量内生，协整方程的OLS或FMOLS、DOLS估计量仍是超一致的，一般不需要工具变量。总之，内生性的处理要具体问题具体分析，没有也不会有通用的范式。

　　（作者单位：华中科技大学经济学院）

责任编辑：陈静

重点推荐