必也正名乎:对经济学因果识别的一点浅见
休谟的书,我是一直久闻大名,无奈心力不足,拿得起啃不动。现在,感谢 AI 的大能,终于让我能“曲线救国”,不用自己花大把时间,也能囫囵吞枣,大概理解休谟讲了什么。我就挑了一本《人类理解研究》,和 AI 哥俩一问一答,不管问什么,它还真接得住。古人说,开卷有益。我虽未开卷,得益也多。这本书第七章,是一处大关节,讲因果关系。一读(当然是 AI 读的)之下,让我对现在经济学实证研究的困境,有了新的认识。稳健性检验写到几百页,回归方程改一点、换个样本,结果就没了,两篇差不多的文章,凭什么主编要他的不要我的?根子在于,我们的野心和我们的工具,对不上。
最近四十年经济学界最大的一件事,毫无疑问是“可信性革命”。八十年代开始,劳动经济学出了一拨人,Card、Angrist、Imbens 领头。他们雄心勃勃,想干一件事:从真实数据里把因果关系给挑出来。要从数据里挑因果,难处在哪?两件事相关,一个原因可能造成另一个,也可能两件事各有第三个共同原因,还可能反过来。你看见上过大学的人挣得多,不能说大学让他们挣得多,因为能上大学的人本来就家底厚、智商高、自律性强。最干净的办法是做随机实验,把人分两组比一比。但很多事不能做实验,你不能强行让一半的孩子退学。
这一拨人想出了一招:找老天爷做的实验。Angrist 和 Krueger 1991 年那篇经典论文就是这一招:美国各州有入学年龄线,也有最低离校年龄。两条线一夹,年初出生的孩子入学时更大,到了可以合法离校的时候,实际读过的书反而更少。但出生在哪个季度,跟你是不是更聪明、更有钱、更自律,没有系统性的关系。这就是老天爷做的实验。把“出生季度造成的教育差异”分离出来,对应的工资变化就是教育的因果回报。
不用做真的实验,也不需要一整套的结构模型,从老天爷已经做完的“实验”里挖出因果关系。这套方法,就叫 design-based approach,再后来叫可信性革命。精巧却不难用,正赶上微观数据越来越多的年代,所以很快成了经济学方法的顶流。Garg和Fetzer 用 LLM扫了四万多篇 NBER和CEPR工作论文,发现"因果论断"的占比,1990 年还不到10% ,2020 年已经超过30%。几代经济学博士在这套方法里成长,年轻学子的口头禅,从“看不见的手”变成了“相关不是因果”。
2021年,Card、Angrist、Imbens三个人一起获得诺奖。
更要紧的是,这套方法从象牙塔里的小圈子出发,长成了影响大众认知、影响白宫决策、影响工人饭碗的一整套话语体系。Acemoglu、Johnson、Robinson 2001 年那篇"殖民地起源"文章,拿欧洲殖民者的死亡率当工具变量,识别制度对长期经济增长的因果效应,奠定了整个新制度经济学的实证版图。借由《国家为什么失败》等畅销书,普通读者广泛接收了这套认知。Autor、Dorn、Hanson 2013 年那篇"中国冲击"文章,用其他高收入国家从中国进口的增长当工具变量,识别中国进口对美国本地劳动力市场的因果效应。这篇文章后来成了美国贸易政策转向时最常被引用的学术弹药。川普政府未必照着论文开会,但“China shock”这个词,已经从论文跑进了国会听证和舆论场。
但是。这套方法和它的野心之间,隔着几个坑。在应用层面,这套方法给人的印象是科学,硬核,“让数据自己说话”。但如果看不见这些坑,使用者就会过度膨胀,缺少边界感。要看见这些坑,得回到休谟。
罗素讲过一个鸡的故事,后来常被改写成感恩节火鸡。这个改写版,反而更像休谟。一群火鸡,每天早上九点被喂食。它们观察了一年。三百六十多天,每天准时被喂。聪明的火鸡里有几只做了归纳:不同温度、不同湿度、风向变化等等。结论得出来了:每天早上九点会被喂食。第三百六十五天的早上九点,没被喂。它们被宰了,那天是感恩节。
这群火鸡的归纳其实没毛病。但休谟说,事实层面没有因果,只有“恒常会合”,两件事反复一起出现,仅此而已。一万次早上九点接着喂食,逻辑上推不出第一万零一次还有喂食。所谓“因果”,无非是火鸡脑子里编的故事。
休谟把人类知识分成了两块。一块是观念之间的必然关系,数学和逻辑就归这块。三角形内角和一百八十度,你接受公理,结论就锁死跑不掉。这一块,有必然性。另一块是事实判断,比如太阳明天出不出来。这块没有必然性,你只是反复看见过它出来,但证明不了。经济学家说的“因果识别”,刚好落在这第二块上。从有限样本推必然联系,休谟说,这件事行不通。
休谟这一套哲学,我们经济学家作为一个群体不见得接受,可能大部分都不接受。尤其对很多年轻学者来说,把因果说成故事,是一种矮化,会让我们的工作显得“不科学”。每个人接受什么样的哲学观,不一定有客观的评判标准。可我们大部分人在用经济学分析工具的时候,并没有仔细想过这些工具对应的哲学基础。想不清楚这一点,就容易陷入尴尬的境地:你以为自己的方法论是反休谟的,实际操作却一步一步靠近休谟。宣称的东西,和实际做的事情,打起来了。
这套方法的困境是分层的,两层都跟休谟有关。第一层是从局部样本推到全局命题,这一跳能不能跨过去,是休谟讲的归纳问题在小尺度上的具体形式。第二层是识别假设本身是不可验证的归纳判断,整套工作站在哪里、根扎多深,这件事休谟也讲过。先看浅的一层。
那篇出生季度的论文,利用老天爷做的实验,把教育对工资的"效果"挑了出来。但仔细看,挑出来的是什么?是那些原本就想在法定年龄就离校、对读书最不感兴趣的人群,强制多读一年书后的工资变化。这一小部分人,恰好被出生季度卡住了入学和离校。其他人(那些原本就要读到大学的、那些原本就不打算走读书这条路的),出生季度卡不卡都不影响。老天爷的实验只在这一小部分人身上起作用。
这两件事不是同一件事。他们想知道的:教育对工资的整体效应,这是一句普遍命题,也是政策制定者要的东西。他们能识别的:边缘人群强制多读一年的工资变化,这是一小部分人的局部效应。一个原本要当教授的人多读一年,和一个原本要当工人的人强制多读一年,回报并不一样。
这就说到 LATE,Local Average Treatment Effect,局部平均处理效应。"局部"两个字才要命。但打开经济学实证论文,标题往往写的是 the causal effect of education on wages,听上去就是整体的因果效应。读者记住的就是"教育对工资的因果效应是 X%"。严格按 LATE 框架,这个 X%只对一小部分人成立。
Imbens 自己知道这个坑。2022 年诺奖演讲整理成Causality in Econometrics: Choice vs Chance 发在 Econometrica 上,他说了一段话,
传统的识别方法是先说明目标估计量是什么,然后通过假设阐明能识别这个估计量的策略。Angrist 和我把这个策略反过来。
这句话有点绕,意思明白:传统的研究是先想清楚要回答什么问题,再设计方法去回答。他们反过来,先看方法能算出什么,再把那个东西当成研究要回答的问题。翻成大白话:先射箭再画靶子。这不是作弊。靶子确实画出来了,只是比外人以为的小得多。
Imbens这件事是公开承认了的。他老老实实告诉你,射出的箭命中的不是大靶("教育对工资的整体因果效应"),是一个叫 LATE 的小靶(一小部分人强制多读一年的工资变化)。Local 这个词写在标签上,自己标了出来。但应用层面往往不管这些。博士课堂、论文标题、政策建议,小靶被擦掉了,留下的是一个射中大靶的故事。
这件事经济学家自己也清楚。Heckman 那条 MTE(边际处理效应)的路数,Mogstad 和Torgovitsky 的研究,一直想把局部参数变成政策相关参数。做的是真学问,麻烦的是,MTE 这条路要靠外推假设,把 LATE 推到工具变量没覆盖的区域,要假设处理效应函数的形状。这些假设和 LATE的排他性约束一样,不能从数据里直接验证。休谟的洞见挪了个位置,没有消失。另一头,绝大多数应用研究没走 MTE 这条路。打开大多数论文,作者只报告 LATE,但是结论却暗度陈仓,讨论的还是普遍的政策含义。
LATE 的坑至少承认“我识别出了某个真东西,只是没你以为的那么大”。再往里还有一层。这件事,经济学界自己也在做诚实的诊断。Brodeur 牵头的一项可复制性研究,2026 年发在 Nature 上。团队把 110 篇经济学和政治学顶刊论文拉出来,做计算复现和稳健性检验。同一批数据,换一组合理的控制变量组合,换一种函数形式,结果还站得住吗?答案:原本显著的结果里,大约三成保不住。
这件事表面上是模型设定搜索(specification search)的现代版,是个技术问题。但用休谟的眼光看,事情没这么简单。研究者选一种方式整理数据,跑出一组数字。这组数字呈现 X 和 Y 在这种整理下连续出现。我们看到这组数字,心里把它焊成“X 导致 Y”。换一种整理方式,那个连续出现就不见了:原来那次"恒常会合",是研究者的整理动作生产出来的。
再往下挖一层。这一整套工作建立在两个不能只靠数据验证的东西上:被研究的问题有一个稳定的因果参数,而我们手里的设计正好识别到了它。第一个是本体论上的主观判断,第二个是方法论上的赌注。IV 靠排他性约束,DID 靠平行趋势,RD 靠断点附近的连续性。每一个听上去很“科学”的技术,最后都靠一条不能直接验证的识别假设撑着,都要落回研究者对事实世界的判断。
审稿人接不接受,靠的是研究者讲的那个"为什么这个工具变量是干净的"故事讲得好不好。故事讲得好,从来不是均匀分布的本事,名校出身、英语母语、跟对了导师的人,更占优势。
讲故事这件事,到底丢不丢人,要看你站在哪一种哲学立场上。前面引用过休谟的判断:因果不过是脑子里编的故事。如果接受这一点,讲故事就不丢人,是哲学上自洽的。但很多研究者隐含的哲学观不是休谟式的,他们认为可以通过数据和计量工具发现普世真理。在这种立场下,把“识别”说成讲故事,就是对科学的冒犯。
麻烦也正在这里:因果识别这套方法并没有彻底消灭主观信念的位置。读者看到的是“causal Effect”,看不到底下那个假设和故事在起作用。结论传出去的力道,远比方法能担保的大。
假设我们真的不讲故事,把所有依赖叙事的判断都剔除掉。任何不能从数据里直接验证的假设,不接受。任何依赖先验信念的论证,不接受。剩下能做的,只剩下“生日过得多的人更长寿”这种命题,在定义里就锁死了,纯逻辑恒等。后面我们会讲,围绕恒等式做文章,只要做得诚实、诚恳,并没有大家想得那么“没出息”。
其实这个坑,1983 年就有人讲过了。Ed Leamer 在 AER 上写过一篇文章,标题叫Let's Take the Con out of Econometrics。Con这个词有点重,通常指的是诈骗,但这里大概是把计量经济学里的水分挤出去。他说的就是模型设定搜索:同一份数据,换一组控制变量结果就变;换一个函数形式结果又变。研究者反复试到一个能让结果显著的特定组合,然后拿给审稿人看,好像从一开始就定了这个规格。Leamer 说,这是水分。
他给的解法叫 sensitivity analysis。给关键参数算上下限。所有合理规格下能取到的最高值多少,最低值多少。如果差距大,结论就是"我们不知道"。他的 sensitivity,用来度量我们的无知,要研究者承认不确定性。
二十七年后,2010 年。Angrist 和 Pischke 在 JEP 上发了一篇文章,标题直借 Leamer 的口号:The Credibility Revolution in Empirical Economics: How Better Research Design Is Taking the Con out of Econometrics。他们宣称,sensitivity analysis 作用有限,真正解决问题靠IV、RD、DID。识别策略干净了,sensitivity 就不重要了。
Leamer 同意吗?在杂志的同一期,Leamer回敬了一篇,标题叫Tantalus on the Road to Asymptopia。Tantalus 是希腊神话里那个永远够不到水和果子的人。Leamer 的意思是,你们以为到了渐近天堂,其实和 Tantalus 一样,永远够不到。
这里有人会反问:现在文章里动不动几十页的稳健性检验,难道不是对 Leamer 的回答吗?非也非也。
Leamer 要的是给参数算上下限。所有合理规格下能取到的最高值和最低值。差距大,结论就一句“我们不知道”。他的 sensitivity 用来度量我们的无知。今天的稳健性检验不是这个。主回归先选好一个让结果显著的规格,然后跑一串不会推翻主结果的变动。这套 sensitivity 用来加固已选结论。一个测量无知,一个加固结论。形式上都叫 sensitivity,骨子里反着来。Leamer 想让研究者承认“我们可能不知道”。今天的稳健性检验是在帮助研究者宣告“我们已经知道了”。借了形式,反着用。
说回这两层。第一层,是从局部到全局。技术工具能让这一跳更远、更稳,但真要跨过去,还得靠更多假设。MTE 比 LATE 往前走了一步,可它不是把外推问题消灭了,只是把外推的位置标得更清楚。第二层更深,问题根本不在工具。它赌的是被研究的问题有一个稳定的因果参数,而我们手里的设计正好打中了它。这两件事,数据本身都不能替你证明。第一层的根,扎在第二层上。越往里走,工具越帮不上忙。
精巧的技术解决不了哲学层面的问题。方法越精巧,越复杂,越容易让使用者产生“科学”的幻觉,对方法的自信过度膨胀。经济学想模仿的自然科学,倒是早就退过一步了。
二十世纪初,物理学家有过一段非常自信的日子。1900 年,开尔文勋爵在英国皇家研究院讲“两朵乌云”,后来人回头看才知道,一朵通向相对论,一朵通向量子力学。到了海森堡那里:一个电子的位置和动量,不能同时有精确值。不是仪器不够好,是问题本身不许你这样问。物理学家退了一步:能精确说到哪里,就说到哪里;原则上不能问的,就不再硬问。经济学和物理学的差别,不只是能不能做实验。起码在牛顿的经典低速物理里,研究对象是稳定的,苹果落地、卫星上天,同一套规律。经济学研究的是人,而人会学习、会响应、会演化,今天的中国人和八十年代的美国人,对同一项政策的反应可能完全不同。经济学处理的对象比物理学不稳定得多,但野心反而更大,还要“找到真因果”。这不是说,我们不应该继续发展因果推断的工具,而是说,工具能打到哪里,话就只能说到哪里。
说到这里,我想起了经济学里的另一种研究思路。不是用结构模型去"解决"因果问题,那条路争议更多。我这里说的是诺奖得主 Prescott 曾经试过的一条路。
Prescott 在宏观经济学是"五绝"级别的大高手,他的研究几乎把宏观经济学重写了一遍。但读了休谟后,我想到的是2000年后他和 McGrattan 合作的一系列研究。其中一个是著名的美国对外投资回报率之谜:1980年后,美国跨国公司在海外子公司的回报率年均超过9%,外国跨国公司在美国子公司的回报率只有 3%。这件事在国际经济学界吵了很久,有人讲美国资本聪明,有人讲是美元霸权。
Prescott 和 McGrattan 做了一件看着野心很小的事,围绕最朴素的恒等式做文章:回报率 = 回报/ 投资。分子测得对,问题在分母。研发、品牌、组织 know-how,这些"技术资本"在美国积累,也被海外子公司使用,但账本里只记了子公司在厂房、设备上的有形投资,无形资产投资那一项漏了。分母被低估,回报率自然虚高。把漏掉的无形投资加回分母,那 6 个百分点的差距,超过六成就消失了。没有 IV,没有 RD,纯逻辑恒等加老老实实的数据。这条路为什么不在前面那个局里?他不识别因果,他重算账本。会计核算落在另一个层级,在形式逻辑这一侧,不在事实归纳那一侧。形式逻辑里有经济学实证研究梦寐以求、但在事实世界里拿不到的那种必然性。把无形资产投资挪到分母那一项,不是在经验世界里发现了一个新因果,而是在定义世界里改了变量的位置。无形资产一换位置,回报率等变量就得跟着变。这种关系不需要从数据里识别,它在定义里就锁死了。
这就是边界感。不假装解决哲学问题,守在形式逻辑这一侧,做这一侧能做的事。
孔夫子说,必也正名乎。名不正,言不顺。经济学实证研究现在处于挺拧巴的状态,从根子上说,是把“因果识别”这个名挂在了一件它担不起的事上。因果识别,不能承担“穿透事实层面到达世界本身”这个重担。它能做的最好的事,是局部、近似、有边界感的描述。但边界感从哪里来?
调研、访谈、档案、社会调查、制度细节,这些东西不是回归之外的闲活,而是实证研究的prior。没有这些 prior,研究者面对一张数据表,只能在控制变量和样本切分里来回摸。什么规格算合理,哪个工具变量像回事,哪群人站在政策边缘,都不是数据自己告诉你的,是你对事实世界的理解先告诉你的。承认在讲故事,把故事讲诚实。把这个名正回来,承认技术能做什么、不能做什么,这些工作可以变得诚实又有用。
名一旦正了,言就顺了。
文章来源 | 经济学家茶座