下一章 上一章 目录 设置
90、第十一章 工具变量 ...
-
当直接测量因果关系被内生性污染——当你想知道X是否导致Y,但X与误差项相关——你需要一个工具变量Z。Z必须满足:与X相关,且只通过X影响Y。在师父的案子里,1999年那两根断裂的肋骨,就是他从二十年前扔给沈默的工具变量。
场次九 临界值(五)
时间:2024年12月3日,夜晚23时47分
地点:沈默的出租屋
沈默没有开灯。
他坐在黑暗中,把工具变量的推导过程写在纸上。
第一阶段:X = π? + π?Z + ν
第二阶段:Y = β? + β?X + ε
β? = Cov(Z,Y)/Cov(Z,X)
他写下数字。
Cov(Z,Y) = E(ZY) - E(Z)E(Y)
Z=2, Y=1 → E(ZY)=2
E(Z)=2, E(Y)=1 → Cov=2-2=0?
他停住。
不对。
Z=2是观测值,不是均值。
E(Z)是Z的期望——如果1999年袭击的严重程度是一个随机变量,它的期望是多少?
他不知道。
他没有足够样本。
他只知道师父这一次观测值。
Z=2。
Y=1。
Cov(Z,Y)=2 - E(Z)×1。
E(Z)未知。
他算不出β?。
苏棠用两个样本点强行回归的结果,是8.33%。
那不是真的β?。
那是假设1997年Z=0、Y=0下的β?。
1997年师父真的Z=0吗?
1997年师父没受伤——这是真的。
1997年师父没死——这也是真的。
但1997年师父没追查周明远——这不是因为1997年他没受伤。
是因为1997年他还不知道周明远是谁。
是因为1997年周明远还没开始那每年25万的“还款”。
是因为1997年师父还在科员的位置上,等着那个“不够成熟”的考察结论被推翻。
1997年的Y=0,不是因为Z=0。
是因为X=0。
是因为师父1997年没有去查。
沈默放下笔。
工具变量的核心假设是——Z是外生的。
1999年那场袭击,相对于2004年师父的死亡,是外生的。
但相对于1997年师父的未追查——它不是外生的。
1997年师父没受伤。
1997年师父也没追查。
但这两者之间,没有因果关系。
沈默闭上眼睛。
他想起师父教的第七课:
工具变量只能估计局部平均处理效应。
它不能告诉你,如果所有人都改变处理状态,会发生什么。
它只能告诉你,在那些因为工具变量而改变处理状态的人当中,处理效应是多少。
1999年那场袭击,让师父从“可能不会继续追查”变成了“一定会继续追查”。
师父是“因为Z而改变X”的那群人。
工具变量估计的β?,只适用于这群人。
——如果1999年师父没被打,他会不会在2004年依然追查周明远?
沈默不知道。
师父从来没说过。
师父只在那封信里写过:
你算出那个数的那一秒,我就原谅自己了。
师父没有说——如果1999年没被打,他还会不会去算那个数。
他可能不会。
1999年被打断两根肋骨,是师父第一次亲眼看见——这条链子后面,有人。
马忠林认罪了。
周培德什么都没说。
周明远什么都没发生。
师父躺在医院病床上,看着天花板,想的是什么?
沈默不知道。
他只记得,师父出院那天,他去接。
师父说:小沈,统计员靠数据说话,不靠拳头。
师父没有说:小沈,我会继续查。
但师父继续查了。
1999年,2000年,2001年,2002年,2003年,2004年。
五年。
从石门石英砂厂,到通达运输公司,到周明远。
从82万,到每年25万,到1997年那247万。
从周培德,到周明远,到陈某某。
师父查了五年。
2004年7月11日,他死了。
沈默睁开眼睛。
他看着窗外的夜空。
2024年12月3日23时47分。
师父死后二十年,同一时刻。
他算出了工具变量的估计值——8.33%。
这个数字是错的。
它高估了师父追查的危险性。
因为师父追查周明远,不是因为1999年被打。
是因为他是陈山河。
是因为他是那个1969年冬天跳下河救林国栋的十七岁少年。
是因为他是那个1985年劝林国栋去做心电图、自己却没去的统计科员。
是因为他是那个1999年被打断两根肋骨、还在病床上说“统计员靠数据说话”的执法大队长。
是因为他是那个2004年7月11日晚上、算出贫困县临界值、吃了那顿有毒的红烧肉、趴在办公桌上等学生回电话的师父。
工具变量算不出这些。
它算不出师父是什么样的人。
它只能算出一个有偏的、不精确的、需要无数假设才能成立的β?。
但工具变量证明了一件事:
1999年的袭击和2004年的死亡,来自同一个因果链。
这个因果链的起点,不是1999年。
这个因果链的终点,也不是2004年。
它还在流。
沈默拿起手机。
邮件。
发件人:K。
主题:工具变量
工具变量的两个核心条件:
1. 相关性——Z与X相关
2. 外生性——Z只通过X影响Y
1999年那两根肋骨,同时满足这两个条件。
它和师父2004年的追查深度相关。
它不受2004年师父死亡时任何因素的影响。
但工具变量不能回答的问题是:
如果师父不是师父,他还会不会死?
答案是:不会。
因为那条因果链要清除的,从来不是“查账的人”。
是“陈山河”。
——K
沈默回复:
你是谁?
发送。
等待。
五分钟。
十分钟。
二十分钟。
回复:
我是1999年站在师父病床边、看着X光片的那个人。
我是2004年7月12日早上、第一个走进师父办公室的那个人。
我是2004年7月15日、站在公墓最后一排的那个人。
我是2024年11月15日、把你师父的信从抽屉夹层里取出来的那个人。
我是老沈。
——K
沈默看着那行字。
老沈。
档案馆的老沈。
1998年全省统计系统先进工作者。
1999年师父住院时,他来过三次。
2004年师父下葬时,他站在最后一排。
2024年11月15日,他亲手把师父的信交给他。
2024年11月15日到12月3日,他发了二十几封邮件。
每一封,都在教他怎么算。
每一封,都在推着他往前走。
沈默回复:
为什么是现在?
发送。
很快。
因为1999年师父说,等他学生算出那个数。
2024年11月15日,你算出临界值了。
——K
沈默握着手机。
2024年11月15日。
开棺验尸那天。
他站在殡仪馆法医检验室里,看着师父的遗骸。
他算出的是贫困县的临界值吗?
不是。
他算出的是——师父的死,不是心梗。
他算出的是——师父的死,是谋杀。
他算出的是——1999年那两根肋骨,和2004年那顿饭,是同一个人下的指令。
他算出的是——那条地下长河,流了二十七年,还会继续流。
他算出的是——他是师父唯一的学生,唯一可能替师父算完这笔账的人。
他算出的是——他必须算。
沈默回复:
谢谢你,老沈。
发送。
回复:
不用谢我。
谢师父。
他等你等了二十年。
我也等了二十年。
——K
沈默把手机放下。
窗外的路灯在窗帘上投下一片模糊的光晕。
2024年12月3日23时47分。
师父死后二十年,同一时刻。
他知道了K是谁。
他算出了工具变量的β?——虽然它是错的、弱的、有偏的。
他证明了1999年和2004年是同一条因果链。
他证明了师父不是死于意外,不是死于心梗,不是死于那个算出临界值的夜晚。
师父死于1999年。
死于他决定继续查下去的那一刻。
工具变量算不出那一刻。
但它算出了——从1999年到2004年,从肋骨到毒药,从石门村到英属维尔京群岛。
五年。
一千八百二十六天。
师父一天都没停。
沈默把白板上的公式擦掉。
他写下新的公式。
Y = f(Z) + ε
Z = 陈山河
Y = 临界值
他搁下笔。
师父的工具变量,不是1999年的袭击。
师父的工具变量,是他自己。
他是那个与腐败高度相关、却只通过追查真相影响死亡概率的Z。
他用了二十七年,算完了1167.8万。
他用了二十年,等到了沈默算出那个数。
现在他不用等了。
沈默算完了。