其实在统计学习世界里, GMM有高美美和广美美之分,Gaussian mixture model vs Generalized moment method. 当然不是每个美美都是我们谈论的话题。 这里我们讨论的是广美美,是一个诺贝尔经济学将的发明,是如何又广又美了的呢? 在 等价のGLS, 2SLS, IV ? 介绍了一定的等价性时候提到矩估计MME到广义矩估计GMM的泛化。 在 最大似然估计的2种论证 里面讨论了如何用MME来论证MLE。 对于广而言, 讲到三大估计MME,MLE,LSE, 他们的一次大统一就是GMM。凭什么, GMM能够初步建立大一统的呢? 引言 华人的女婿发明了GMM Lars Peter Hansen 汉森, 美国人, 博士毕业于明尼苏达大学University of Minnesota, 凭借发明了GMM获得了2013年诺贝尔经济学大奖。 他的老婆蒋人瑞是华人,岳父蒋硕杰是民国时期最杰出经济学家。GMM发表在1982年,一共27页。 其中部分证明发表在2012年, 有16页的补充证明。 或许知道要获诺贝尔经济学大奖了, 顺势补全下下证明。这篇论文里面,满满的 全是数学证明 , 有兴趣可以去读下下。 所以学好经济学本身, 对数学的掌握也是要认证对待的。 GMM的诞生 从引文窥探 那么, 汉森是如何发明广义矩估计的呢? 但是, 他在他的论文里面没有说起他思想的来源和发展。 因此这里我们按图索骥的推测。 首先, 从他引用论文开始, 我们发现他很认真的强调了2阶段最小二乘法2SLS和3阶段最小二乘法3SLS( 参考 等价のGLS, 2SLS, IV ? )。 譬如在他的论文里面对1, 2, 5 和11 都特别强调了。 前面我们说过,Theil发明的2SLS可以看成是工具变量IV的泛化, 那么为什么这里要不停的强调3SLS?汉森不停的在引用的论里面强调3SLS 那么, 我们大胆却又合理的假设, 3SLS触发了汉森发明GMM的灵感 , 那么如何来证实这个3SLS可以引出GMM呢? 在说明这个之前, 先要说明3SLS存在的意义。 为什么要有2SLS 在前面( 等价のGLS, 2SLS, IV ? 回归分析中的问题和修正的探讨(下篇) )里面说了, 当存在测量误差的时候,E(X, U) = 0 就不满足了, 或者特殊的一阶自相关的时候, 2SLS就可以发挥神奇了, 并且对于E(X, U) ≠ 0 的情况下, 工具变量IV也是极好的处理办法。 我们稍微从另外一个角度回顾一下, 对于线性的估计来说, 最优估计要求E(X, U) = 0 。而经典的最小二乘法OLS就是直接求导这个最优的过程(参考 最小二乘法的由来 一步一步走向锥规划 - 最小二乘法 )。既然2SLS有存在的必要的, 那么为什么要有3SLS呢? 为什么要有3SLS 当除了E(X, U) ≠ 0测量误差时候, 还有似不相关seemingly unrelated regressions (SUR)的情况的时候, 就需要3SLS了。 似不相关SUR也的确如它的名字一样, 有m个参数估计, 表面上看是m个独立的表达式, 完全可以使用m个2SLS去进行参数估计。但是骨子里还是有相关的地方的, 就在于这些误差在同一时刻的时候相关的,而不同时刻的时候不想关。那么, 对于利用矩阵统一后, SUR的m个回归的协方差矩阵就会不太一样了。这里要特别注意的是, 这个矩阵和之前我们看到的一个表达式里面的协方差矩阵很不一样,为什么呢?因为上面这个矩阵的每个元素都是矩阵。 而经典的协方差矩阵每个元素都是标量。但是为了达到同样的表达效果, 我们定义新的运算法则圈乘:另外, 根据SUR特殊的同一时间的相关性, 我们知道只有对角线存在元素。 这种情况,我们可以使用广义最小二乘法GLS进行处理的。但是因为这个圈乘的特殊性, 这里把这种GLS叫做Feasible GLS, FGLS。其实, 某种意义上, 这种只有对角线存在元素的情况, 只要加权最小二乘法WLS进行处理就好了。 这样我们把3SLS的过程总结如下: 1)先用2SLS进行独立的参数估计 2)估算协方差矩阵 3)估计FGLS结果这样, 当不存在SUR的情况的时候, 那么3SLS就是2SLS的独立解。 因为Σ是严格对角阵。 2SLS作为IV -> 3SLS作为广义IV 在 等价のGLS, 2SLS, IV ? 里面我们探讨了在矩阵满秩情况下, 2SLS和IV是严格等价的。现在3SLS情况下, 我们完全可以把2SLS退化成工具变量IV了, 由第三阶段FGLS进行泛化。 这种泛化的工具变量也是汉森当时考虑的热点。 几乎和GMM论文同时发表, 并且进行循环引用的另外一篇论文(Generalized Instrumental Variables Estimation of Nonlinear Rational Expectations Models)说明了汉森当时的这种考虑。这种相互引用的论文发表过程, 说明了这种思考是几乎同时进行的。 因此,某种意义上GMM也是建立在建立一个广义的IV的基础上产生的。 而3SLS提供了这个基础。几乎同时发表的文章, 循环引用 在这个理解的基础上, 那么广义IV距离GMM就一步距离了, 就是如何把IV看成矩估计。 IV作为矩估计MME 矩估计MME非常有用, 如果直接从IV思想出发, 假设工具变量就是自变量本身的话, 那么矩估计MME代入就是最小二乘法OLS。 在 最大似然估计的2种论证 里面我们说明了, 在一定的替换条件下, 最大似然估计可以看成矩估计。 这里我们简单说明了,最小二乘法也可以看成矩估计, 只要在IV思想下把自变量看成工具变量, 这也恰好是最小二乘法要满足的假设之一(参考 最小二乘法的6个假设 (中篇) )。那么IV过程本身是如何看成MME的呢? 其实这个过程十分简单, 和上面非常相似, 也是直接从IV的思想出发。这说明,IV思想和MME结合会发挥巨大的作用, 而这个替代和作用的过程, 用到一个工具: 向量值函数Vector-valued function 。 我们知道,在3SLS里面, 2SLS是一组值, 那么把这种一组值依然表示为向量。同时引入函数思想, 我们就得到了向量值函数。广义IV作为GMM:MME + FGLS -> GMM 通过 3SLS 和 向量值 函数的思想的引入 : 3SLS (2SLS + FGLS) -> (IV + FGLS) -> (MME + FGLS) -> GMM .^. Vector-valued function .. | 我们就得到了形式完美的广义矩估计 GMM:这样, GMM某种意义上含有3SLS同等强大的能力, 甚至更强。 下面举个简单的例子说明求解过程:这样, 我们根据论文思想和合理假设, 推理了一下汉森发现GMM的整个思路。 小结: 这里说明了广美美GMM的诞生, 下期说明一下广美美的 广和美 。 关键词: 2SLS 3SLS IV SUR FGLS Generalized LV GMM Vector-valued function 相关话题: 等价のGLS, 2SLS, IV ? 最小二乘法的6个假设 (上篇) 最小二乘法的6个假设 (中篇) 一步一步走向锥规划 - 最小二乘法 最小二乘法的4种求解 回归分析中的问题和修正的探讨(上篇) 回归分析中的问题和修正的探讨(下篇) 评价参数估算的常用指标 最大似然估计的2种论证 Z-Test vs T-Test vs F-Test vs χ2-Test 特征选择, 经典三刀 数据变换 Lasso简史 信息熵的由来 “66天写的逻辑回归” 引 乔丹上海行 随机眼里的临界 参考: