奚锡灿：必也正名乎对经济学因果识别的一点浅见

发布时间：2026年05月07日浏览次数：

必也正名乎：对经济学因果识别的一点浅见

休谟的书，我是一直久闻大名，无奈心力不足，拿得起啃不动。现在，感谢 AI 的大能，终于让我能“曲线救国”，不用自己花大把时间，也能囫囵吞枣，大概理解休谟讲了什么。我就挑了一本《人类理解研究》，和 AI 哥俩一问一答，不管问什么，它还真接得住。古人说，开卷有益。我虽未开卷，得益也多。这本书第七章，是一处大关节，讲因果关系。一读（当然是 AI 读的）之下，让我对现在经济学实证研究的困境，有了新的认识。稳健性检验写到几百页，回归方程改一点、换个样本，结果就没了，两篇差不多的文章，凭什么主编要他的不要我的？根子在于，我们的野心和我们的工具，对不上。

最近四十年经济学界最大的一件事，毫无疑问是“可信性革命”。八十年代开始，劳动经济学出了一拨人，Card、Angrist、Imbens 领头。他们雄心勃勃，想干一件事：从真实数据里把因果关系给挑出来。要从数据里挑因果，难处在哪？两件事相关，一个原因可能造成另一个，也可能两件事各有第三个共同原因，还可能反过来。你看见上过大学的人挣得多，不能说大学让他们挣得多，因为能上大学的人本来就家底厚、智商高、自律性强。最干净的办法是做随机实验，把人分两组比一比。但很多事不能做实验，你不能强行让一半的孩子退学。

这一拨人想出了一招：找老天爷做的实验。Angrist 和 Krueger 1991 年那篇经典论文就是这一招：美国各州有入学年龄线，也有最低离校年龄。两条线一夹，年初出生的孩子入学时更大，到了可以合法离校的时候，实际读过的书反而更少。但出生在哪个季度，跟你是不是更聪明、更有钱、更自律，没有系统性的关系。这就是老天爷做的实验。把“出生季度造成的教育差异”分离出来，对应的工资变化就是教育的因果回报。

不用做真的实验，也不需要一整套的结构模型，从老天爷已经做完的“实验”里挖出因果关系。这套方法，就叫 design-based approach，再后来叫可信性革命。精巧却不难用，正赶上微观数据越来越多的年代，所以很快成了经济学方法的顶流。Garg和Fetzer 用 LLM扫了四万多篇 NBER和CEPR工作论文，发现"因果论断"的占比，1990 年还不到10% ，2020 年已经超过30%。几代经济学博士在这套方法里成长，年轻学子的口头禅，从“看不见的手”变成了“相关不是因果”。

2021年，Card、Angrist、Imbens三个人一起获得诺奖。

更要紧的是，这套方法从象牙塔里的小圈子出发，长成了影响大众认知、影响白宫决策、影响工人饭碗的一整套话语体系。Acemoglu、Johnson、Robinson 2001 年那篇"殖民地起源"文章，拿欧洲殖民者的死亡率当工具变量，识别制度对长期经济增长的因果效应，奠定了整个新制度经济学的实证版图。借由《国家为什么失败》等畅销书，普通读者广泛接收了这套认知。Autor、Dorn、Hanson 2013 年那篇"中国冲击"文章，用其他高收入国家从中国进口的增长当工具变量，识别中国进口对美国本地劳动力市场的因果效应。这篇文章后来成了美国贸易政策转向时最常被引用的学术弹药。川普政府未必照着论文开会，但“China shock”这个词，已经从论文跑进了国会听证和舆论场。

但是。这套方法和它的野心之间，隔着几个坑。在应用层面，这套方法给人的印象是科学，硬核，“让数据自己说话”。但如果看不见这些坑，使用者就会过度膨胀，缺少边界感。要看见这些坑，得回到休谟。

罗素讲过一个鸡的故事，后来常被改写成感恩节火鸡。这个改写版，反而更像休谟。一群火鸡，每天早上九点被喂食。它们观察了一年。三百六十多天，每天准时被喂。聪明的火鸡里有几只做了归纳：不同温度、不同湿度、风向变化等等。结论得出来了：每天早上九点会被喂食。第三百六十五天的早上九点，没被喂。它们被宰了，那天是感恩节。

这群火鸡的归纳其实没毛病。但休谟说，事实层面没有因果，只有“恒常会合”，两件事反复一起出现，仅此而已。一万次早上九点接着喂食，逻辑上推不出第一万零一次还有喂食。所谓“因果”，无非是火鸡脑子里编的故事。

休谟把人类知识分成了两块。一块是观念之间的必然关系，数学和逻辑就归这块。三角形内角和一百八十度，你接受公理，结论就锁死跑不掉。这一块，有必然性。另一块是事实判断，比如太阳明天出不出来。这块没有必然性，你只是反复看见过它出来，但证明不了。经济学家说的“因果识别”，刚好落在这第二块上。从有限样本推必然联系，休谟说，这件事行不通。

休谟这一套哲学，我们经济学家作为一个群体不见得接受，可能大部分都不接受。尤其对很多年轻学者来说，把因果说成故事，是一种矮化，会让我们的工作显得“不科学”。每个人接受什么样的哲学观，不一定有客观的评判标准。可我们大部分人在用经济学分析工具的时候，并没有仔细想过这些工具对应的哲学基础。想不清楚这一点，就容易陷入尴尬的境地：你以为自己的方法论是反休谟的，实际操作却一步一步靠近休谟。宣称的东西，和实际做的事情，打起来了。

这套方法的困境是分层的，两层都跟休谟有关。第一层是从局部样本推到全局命题，这一跳能不能跨过去，是休谟讲的归纳问题在小尺度上的具体形式。第二层是识别假设本身是不可验证的归纳判断，整套工作站在哪里、根扎多深，这件事休谟也讲过。先看浅的一层。

那篇出生季度的论文，利用老天爷做的实验，把教育对工资的"效果"挑了出来。但仔细看，挑出来的是什么？是那些原本就想在法定年龄就离校、对读书最不感兴趣的人群，强制多读一年书后的工资变化。这一小部分人，恰好被出生季度卡住了入学和离校。其他人（那些原本就要读到大学的、那些原本就不打算走读书这条路的），出生季度卡不卡都不影响。老天爷的实验只在这一小部分人身上起作用。

这两件事不是同一件事。他们想知道的：教育对工资的整体效应，这是一句普遍命题，也是政策制定者要的东西。他们能识别的：边缘人群强制多读一年的工资变化，这是一小部分人的局部效应。一个原本要当教授的人多读一年，和一个原本要当工人的人强制多读一年，回报并不一样。

这就说到 LATE，Local Average Treatment Effect，局部平均处理效应。"局部"两个字才要命。但打开经济学实证论文，标题往往写的是 the causal effect of education on wages，听上去就是整体的因果效应。读者记住的就是"教育对工资的因果效应是 X%"。严格按 LATE 框架，这个 X%只对一小部分人成立。

Imbens 自己知道这个坑。2022 年诺奖演讲整理成Causality in Econometrics: Choice vs Chance 发在 Econometrica 上，他说了一段话，

传统的识别方法是先说明目标估计量是什么，然后通过假设阐明能识别这个估计量的策略。Angrist 和我把这个策略反过来。

这句话有点绕，意思明白：传统的研究是先想清楚要回答什么问题，再设计方法去回答。他们反过来，先看方法能算出什么，再把那个东西当成研究要回答的问题。翻成大白话：先射箭再画靶子。这不是作弊。靶子确实画出来了，只是比外人以为的小得多。

Imbens这件事是公开承认了的。他老老实实告诉你，射出的箭命中的不是大靶（"教育对工资的整体因果效应"），是一个叫 LATE 的小靶（一小部分人强制多读一年的工资变化）。Local 这个词写在标签上，自己标了出来。但应用层面往往不管这些。博士课堂、论文标题、政策建议，小靶被擦掉了，留下的是一个射中大靶的故事。

这件事经济学家自己也清楚。Heckman 那条 MTE（边际处理效应）的路数，Mogstad 和Torgovitsky 的研究，一直想把局部参数变成政策相关参数。做的是真学问，麻烦的是，MTE 这条路要靠外推假设，把 LATE 推到工具变量没覆盖的区域，要假设处理效应函数的形状。这些假设和 LATE的排他性约束一样，不能从数据里直接验证。休谟的洞见挪了个位置，没有消失。另一头，绝大多数应用研究没走 MTE 这条路。打开大多数论文，作者只报告 LATE，但是结论却暗度陈仓，讨论的还是普遍的政策含义。

LATE 的坑至少承认“我识别出了某个真东西，只是没你以为的那么大”。再往里还有一层。这件事，经济学界自己也在做诚实的诊断。Brodeur 牵头的一项可复制性研究，2026 年发在 Nature 上。团队把 110 篇经济学和政治学顶刊论文拉出来，做计算复现和稳健性检验。同一批数据，换一组合理的控制变量组合，换一种函数形式，结果还站得住吗？答案：原本显著的结果里，大约三成保不住。

这件事表面上是模型设定搜索（specification search）的现代版，是个技术问题。但用休谟的眼光看，事情没这么简单。研究者选一种方式整理数据，跑出一组数字。这组数字呈现 X 和 Y 在这种整理下连续出现。我们看到这组数字，心里把它焊成“X 导致 Y”。换一种整理方式，那个连续出现就不见了：原来那次"恒常会合"，是研究者的整理动作生产出来的。

再往下挖一层。这一整套工作建立在两个不能只靠数据验证的东西上：被研究的问题有一个稳定的因果参数，而我们手里的设计正好识别到了它。第一个是本体论上的主观判断，第二个是方法论上的赌注。IV 靠排他性约束，DID 靠平行趋势，RD 靠断点附近的连续性。每一个听上去很“科学”的技术，最后都靠一条不能直接验证的识别假设撑着，都要落回研究者对事实世界的判断。

审稿人接不接受，靠的是研究者讲的那个"为什么这个工具变量是干净的"故事讲得好不好。故事讲得好，从来不是均匀分布的本事，名校出身、英语母语、跟对了导师的人，更占优势。

讲故事这件事，到底丢不丢人，要看你站在哪一种哲学立场上。前面引用过休谟的判断：因果不过是脑子里编的故事。如果接受这一点，讲故事就不丢人，是哲学上自洽的。但很多研究者隐含的哲学观不是休谟式的，他们认为可以通过数据和计量工具发现普世真理。在这种立场下，把“识别”说成讲故事，就是对科学的冒犯。

麻烦也正在这里：因果识别这套方法并没有彻底消灭主观信念的位置。读者看到的是“causal Effect”，看不到底下那个假设和故事在起作用。结论传出去的力道，远比方法能担保的大。

假设我们真的不讲故事，把所有依赖叙事的判断都剔除掉。任何不能从数据里直接验证的假设，不接受。任何依赖先验信念的论证，不接受。剩下能做的，只剩下“生日过得多的人更长寿”这种命题，在定义里就锁死了，纯逻辑恒等。后面我们会讲，围绕恒等式做文章，只要做得诚实、诚恳，并没有大家想得那么“没出息”。

其实这个坑，1983 年就有人讲过了。Ed Leamer 在 AER 上写过一篇文章，标题叫Let's Take the Con out of Econometrics。Con这个词有点重，通常指的是诈骗，但这里大概是把计量经济学里的水分挤出去。他说的就是模型设定搜索：同一份数据，换一组控制变量结果就变；换一个函数形式结果又变。研究者反复试到一个能让结果显著的特定组合，然后拿给审稿人看，好像从一开始就定了这个规格。Leamer 说，这是水分。

他给的解法叫 sensitivity analysis。给关键参数算上下限。所有合理规格下能取到的最高值多少，最低值多少。如果差距大，结论就是"我们不知道"。他的 sensitivity，用来度量我们的无知，要研究者承认不确定性。

二十七年后，2010 年。Angrist 和 Pischke 在 JEP 上发了一篇文章，标题直借 Leamer 的口号：The Credibility Revolution in Empirical Economics: How Better Research Design Is Taking the Con out of Econometrics。他们宣称，sensitivity analysis 作用有限，真正解决问题靠IV、RD、DID。识别策略干净了，sensitivity 就不重要了。

Leamer 同意吗？在杂志的同一期，Leamer回敬了一篇，标题叫Tantalus on the Road to Asymptopia。Tantalus 是希腊神话里那个永远够不到水和果子的人。Leamer 的意思是，你们以为到了渐近天堂，其实和 Tantalus 一样，永远够不到。

这里有人会反问：现在文章里动不动几十页的稳健性检验，难道不是对 Leamer 的回答吗？非也非也。

Leamer 要的是给参数算上下限。所有合理规格下能取到的最高值和最低值。差距大，结论就一句“我们不知道”。他的 sensitivity 用来度量我们的无知。今天的稳健性检验不是这个。主回归先选好一个让结果显著的规格，然后跑一串不会推翻主结果的变动。这套 sensitivity 用来加固已选结论。一个测量无知，一个加固结论。形式上都叫 sensitivity，骨子里反着来。Leamer 想让研究者承认“我们可能不知道”。今天的稳健性检验是在帮助研究者宣告“我们已经知道了”。借了形式，反着用。

说回这两层。第一层，是从局部到全局。技术工具能让这一跳更远、更稳，但真要跨过去，还得靠更多假设。MTE 比 LATE 往前走了一步，可它不是把外推问题消灭了，只是把外推的位置标得更清楚。第二层更深，问题根本不在工具。它赌的是被研究的问题有一个稳定的因果参数，而我们手里的设计正好打中了它。这两件事，数据本身都不能替你证明。第一层的根，扎在第二层上。越往里走，工具越帮不上忙。

精巧的技术解决不了哲学层面的问题。方法越精巧，越复杂，越容易让使用者产生“科学”的幻觉，对方法的自信过度膨胀。经济学想模仿的自然科学，倒是早就退过一步了。

二十世纪初，物理学家有过一段非常自信的日子。1900 年，开尔文勋爵在英国皇家研究院讲“两朵乌云”，后来人回头看才知道，一朵通向相对论，一朵通向量子力学。到了海森堡那里：一个电子的位置和动量，不能同时有精确值。不是仪器不够好，是问题本身不许你这样问。物理学家退了一步：能精确说到哪里，就说到哪里；原则上不能问的，就不再硬问。经济学和物理学的差别，不只是能不能做实验。起码在牛顿的经典低速物理里，研究对象是稳定的，苹果落地、卫星上天，同一套规律。经济学研究的是人，而人会学习、会响应、会演化，今天的中国人和八十年代的美国人，对同一项政策的反应可能完全不同。经济学处理的对象比物理学不稳定得多，但野心反而更大，还要“找到真因果”。这不是说，我们不应该继续发展因果推断的工具，而是说，工具能打到哪里，话就只能说到哪里。

说到这里，我想起了经济学里的另一种研究思路。不是用结构模型去"解决"因果问题，那条路争议更多。我这里说的是诺奖得主 Prescott 曾经试过的一条路。

Prescott 在宏观经济学是"五绝"级别的大高手，他的研究几乎把宏观经济学重写了一遍。但读了休谟后，我想到的是2000年后他和 McGrattan 合作的一系列研究。其中一个是著名的美国对外投资回报率之谜：1980年后，美国跨国公司在海外子公司的回报率年均超过9%，外国跨国公司在美国子公司的回报率只有 3%。这件事在国际经济学界吵了很久，有人讲美国资本聪明，有人讲是美元霸权。

Prescott 和 McGrattan 做了一件看着野心很小的事，围绕最朴素的恒等式做文章：回报率 = 回报/ 投资。分子测得对，问题在分母。研发、品牌、组织 know-how，这些"技术资本"在美国积累，也被海外子公司使用，但账本里只记了子公司在厂房、设备上的有形投资，无形资产投资那一项漏了。分母被低估，回报率自然虚高。把漏掉的无形投资加回分母，那 6 个百分点的差距，超过六成就消失了。没有 IV，没有 RD，纯逻辑恒等加老老实实的数据。这条路为什么不在前面那个局里？他不识别因果，他重算账本。会计核算落在另一个层级，在形式逻辑这一侧，不在事实归纳那一侧。形式逻辑里有经济学实证研究梦寐以求、但在事实世界里拿不到的那种必然性。把无形资产投资挪到分母那一项，不是在经验世界里发现了一个新因果，而是在定义世界里改了变量的位置。无形资产一换位置，回报率等变量就得跟着变。这种关系不需要从数据里识别，它在定义里就锁死了。

这就是边界感。不假装解决哲学问题，守在形式逻辑这一侧，做这一侧能做的事。

孔夫子说，必也正名乎。名不正，言不顺。经济学实证研究现在处于挺拧巴的状态，从根子上说，是把“因果识别”这个名挂在了一件它担不起的事上。因果识别，不能承担“穿透事实层面到达世界本身”这个重担。它能做的最好的事，是局部、近似、有边界感的描述。但边界感从哪里来？

调研、访谈、档案、社会调查、制度细节，这些东西不是回归之外的闲活，而是实证研究的prior。没有这些 prior，研究者面对一张数据表，只能在控制变量和样本切分里来回摸。什么规格算合理，哪个工具变量像回事，哪群人站在政策边缘，都不是数据自己告诉你的，是你对事实世界的理解先告诉你的。承认在讲故事，把故事讲诚实。把这个名正回来，承认技术能做什么、不能做什么，这些工作可以变得诚实又有用。

名一旦正了，言就顺了。

文章来源 | 经济学家茶座

奚锡灿：必也正名乎 对经济学因果识别的一点浅见

活动公告

奚锡灿：必也正名乎对经济学因果识别的一点浅见