下一章 上一章 目录 设置
17、第十七章 面板数据 面板数据, ...
-
面板数据,就是你有很多面。
陆明远发现了一个问题。
他所有的分析,都是把她当作一个整体——三十三年的情感变化,用一个时间序列来描述。但他突然想到,她不是只有一种情感。她是多面的。在不同的场合,面对不同的人,她有不同的一面。
在单位,她是研究员林墨,严肃、专业、能干。
在父母面前,她是女儿,孝顺、体贴、报喜不报忧。
在朋友面前,她是知己,温暖、可靠、善解人意。
在他面前,她是妻子,等待、沉默、习惯。
这些不同的“她”,需要不同的数据来描述。
他想起统计学里一个概念:面板数据。面板数据是同时具有截面和时间两个维度的数据。比如,对一群人追踪多年,记录他们的收入、健康、满意度。既有不同个体之间的差异,也有同一个体随时间的变化。
他没有一群人的数据。但他有一个人的多个侧面。如果把她的不同“角色”看作不同的个体,那他就有了一组面板数据——四个“她”在三十三年里的情感变化。
他想分析这个面板数据。
他需要定义她的四个“角色”。
角色1:工作中的她。从日记里找出她在单位的表现、和同事的交往、对工作的感受。
角色2:作为女儿的她。和父母的来往、对父亲的思念、对母亲的牵挂。
角色3:作为朋友的她。和闺蜜的交往、和同学的聚会、和别人的交流。
角色4:作为妻子的她。和他有关的一切。
他从日记里提取每个角色每年的情感值,1-10分。
先看角色1:工作中的她。
1989年:刚工作,新鲜,积极。9分。
1990年:新婚,工作稳定。8分。
1991年:开始忙了。7分。
1992年:更忙。7分。
1993年:工作有压力。6分。
1994年:通胀严重,工作压力大。5分。
1995年:平淡。5分。
1996年:平淡。5分。
1997年:平淡。5分。
1998年:亚洲金融危机,工作受影响。4分。
1999年:恢复。5分。
2000年:新千年,有盼头。5分。
2001年:平淡。5分。
2002年:升副研究员,开心。8分。
2003年:非典,工作受影响,但他在家,心情好。6分。
2004年:恢复正常。5分。
2005年:平淡。5分。
2006年:平淡。5分。
2007年:拿重大项目,事业高峰。9分。
2008年:父亲去世,工作分心。6分。
2009年:身体开始出问题,工作受影响。5分。
2010年:工作压力大。5分。
2011年:平淡。5分。
2012年:平淡。5分。
2013年:评正高,事业顶峰。9分。
2014年:事业稳定。7分。
2015年:平淡。6分。
2016年:第一次查出问题,没告诉人,但工作受影响。5分。
2017年:身体不好,工作勉强维持。4分。
2018年:继续。4分。
2019年:复发,工作几乎放弃。3分。
2020年:确诊,住院,无法工作。1分。
2021年:最后一年,无法工作。1分。
这是工作中的她。有高峰(2002、2007、2013),有低谷(2019-2021),大部分时间是平淡的5分左右。
角色2:作为女儿的她。
1989年:父母健康,经常联系。8分。
1990年:新婚,带他回家。9分。
1991年:父母来过一次。7分。
1992年:打电话多。7分。
1993年:父母身体还好。7分。
1994年:没回去过年,有点愧疚。6分。
1995年:父母来过。7分。
1996年:平淡。7分。
1997年:平淡。7分。
1998年:平淡。7分。
1999年:平淡。7分。
2000年:父母老了,开始担心。6分。
2001年:担心。6分。
2002年:升职,告诉父母,他们高兴。8分。
2003年:非典,不能回去,担心。5分。
2004年:回去一次。7分。
2005年:父母身体不好。5分。
2006年:父亲生病。4分。
2007年:父亲病重。3分。
2008年:父亲去世。1分。
2009年:思念父亲。4分。
2010年:母亲一个人,担心。5分。
2011年:母亲来住了一段时间。7分。
2012年:母亲回去,又担心。5分。
2013年:评正高,告诉母亲,她高兴。7分。
2014年:带母亲去三亚?没带,只有他们两个。母亲没去。5分。
2015年:母亲身体不好。4分。
2016年:母亲住院。3分。
2017年:母亲去世。1分。
2018年:双亲都不在了。3分。
2019年:思念父母。4分。
2020年:生病,想起父母。5分。
2021年:最后的日子,觉得可以去见他们了。6分。
作为女儿的她,有父母在的时候,情感起伏不大。父亲去世那年最低(1分),母亲去世那年也低(1分)。其他时候,在思念和担心中摇摆。
角色3:作为朋友的她。
1989年:刚工作,有同事朋友。7分。
1990年:新婚,和朋友聚会多。8分。
1991年:朋友结婚,来往多。8分。
1992年:朋友生孩子,去看。7分。
1993年:朋友调走,少了一个。6分。
1994年:工作忙,和朋友联系少。5分。
1995年:偶尔聚会。5分。
1996年:平淡。5分。
1997年:平淡。5分。
1998年:有个朋友也遇到婚姻问题,聊过几次。6分。
1999年:朋友越来越少。4分。
2000年:和闺蜜张晓芸来往多。7分。
2001年:张晓芸结婚,去了。7分。
2002年:张晓芸生孩子,去看。6分。
2003年:非典,不能聚会,电话多。5分。
2004年:恢复来往。5分。
2005年:平淡。5分。
2006年:平淡。5分。
2007年:工作忙,几乎没时间见朋友。4分。
2008年:父亲去世,张晓芸来陪过。7分。
2009年:身体不好,没心情见朋友。4分。
2010年:偶尔和张晓芸吃饭。5分。
2011年:平淡。5分。
2012年:平淡。5分。
2013年:评正高,朋友祝贺。6分。
2014年:三亚之旅,没和朋友说。4分。
2015年:平淡。5分。
2016年:查出问题,没告诉朋友。4分。
2017年:身体不好,几乎不见朋友。3分。
2018年:偶尔见张晓芸。4分。
2019年:复发,不见朋友。3分。
2020年:住院,朋友来看过。5分。
2021年:最后的日子,朋友来告别。6分。
作为朋友的她,社交圈随着时间在缩小。年轻的时候朋友多,中年以后越来越少。只有张晓芸是一直在的。
角色4:作为妻子的她。这个他熟悉,直接用之前的情感指数。
1989年:认识,9分。
1990年:结婚,9分。
1991年:他开始出差,8分。
1992年:他更忙,7分。
1993年:开始吵架,6分。
1994年:吵架最多,5分。
1995年:平淡,5分。
1996年:平淡,4分。
1997年:沉默,4分。
1998年:她觉得一个人也挺好,3分。
1999年:跨年一个人,3分。
2000年:他在家但没话说,3分。
2001年:老样子,3分。
2002年:升副研究员,他不在,4分。
2003年:非典,他在家,7分。
2004年:他又出差,4分。
2005年:情人节什么都没买,3分。
2006年:平淡,3分。
2007年:拿项目,他不在,4分。
2008年:父亲去世,他不在,2分。
2009年:累,没告诉他,3分。
2010年:他回来早一次,4分。
2011年:习惯了,3分。
2012年:安静,3分。
2013年:评正高,他说厉害,4分。
2014年:三亚之旅,8分。
2015年:平淡,3分。
2016年:第一次查出问题,没告诉他,3分。
2017年:他说想她了,5分。
2018年:他陪她去医院,5分。
2019年:复发,没告诉他,2分。
2020年:确诊,他在,7分。
2021年:最后一年,他一直在,8分。
这是作为妻子的她。波动最大,起落最剧烈。他,是她的全部变量。
现在,他有了一组面板数据:四个“她”,三十三年,每个每年有一个情感值。
他把数据整理成一个表格:
年份工作_情感女儿_情感朋友_情感妻子_情感
1989 9 8 7 9
1990 8 9 8 9
1991 7 7 8 8
1992 7 7 7 7
1993 6 7 6 6
1994 5 6 5 5
1995 5 7 5 5
1996 5 7 5 4
1997 5 7 5 4
1998 4 7 6 3
1999 5 7 4 3
2000 5 6 7 3
2001 5 6 5 3
2002 8 8 6 4
2003 6 5 5 7
2004 5 7 5 4
2005 5 5 5 3
2006 5 4 5 3
2007 9 3 4 4
2008 6 1 7 2
2009 5 4 4 3
2010 5 5 5 4
2011 5 5 5 3
2012 5 5 5 3
2013 9 7 6 4
2014 7 5 4 8
2015 6 4 5 3
2016 5 3 4 3
2017 4 1 3 5
2018 4 3 4 5
2019 3 4 3 2
2020 1 5 5 7
2021 1 6 6 8
四列数据,每一列都是一个“她”。四个她,共同构成了一个人——林墨。
陆明远看着这张表,久久说不出话。
原来她有这么多的侧面。工作中的她,曾经那么辉煌——9分,9分,9分。作为女儿的她,曾经那么依恋父母——9分,8分,7分。作为朋友的她,曾经那么活跃——8分,8分,7分。作为妻子的她,曾经那么爱他——9分,9分,8分。
但后来,这些分数都变了。
工作中的她,在2019年降到了3分,2020年后是1分
作为女儿的她,在2008年降到了1分,2017年又降到1分。
作为朋友的她,在2017-2019年降到了3分。
作为妻子的她,在2019年降到了2分。
她人生的最后几年,所有的角色都跌到了谷底。只有作为妻子的她,在2020-2021年反弹到了7分和8分——因为他在。
他,是她最后的光。
他开始分析这个面板数据。
首先,看四个角色的平均值和标准差。
工作的她:均值5.45,标准差1.78
女儿的她:均值5.58,标准差1.86
朋友的她:均值5.18,标准差1.23
妻子的她:均值4.55,标准差2.12
妻子的她波动最大(标准差2.12),平均值最低(4.55)。工作的她和女儿的她平均值高一些,波动也大。朋友的她波动最小,最稳定。
这说明什么?说明作为妻子,她最不稳定,也最不开心。作为朋友,她最稳定,但也不是特别开心。作为女儿,她曾经很开心,但失去父母后跌入谷底。作为工作者,她有高峰有低谷,总体还可以。
他最影响她的那个角色——妻子——恰恰是她最波动的角色,也是她最低分的角色。
他做一个简单的方差分解。
总平方和 = 组间平方和 + 组内平方和
组间平方和:四个角色之间的差异。
组内平方和:同一个角色内部的年度波动。
计算:
总均值 = (5.45+5.58+5.18+4.55)/4 = 5.19
组间平方和 = 33 × [(5.45-5.19)? + (5.58-5.19)? + (5.18-5.19)? + (4.55-5.19)?]
= 33 × [0.0676 + 0.1521 + 0.0001 + 0.4096]
= 33 × 0.6294 = 20.77
组内平方和 = 每个角色内部年度波动的平方和。
工作:Σ(每年-5.45)? = 约98.5
女儿:Σ(每年-5.58)? = 约112.3
朋友:Σ(每年-5.18)? = 约48.7
妻子:Σ(每年-4.55)? = 约142.8
组内平方和总和 = 98.5+112.3+48.7+142.8 = 402.3
总平方和 = 20.77 + 402.3 = 423.07
组间方差比例 = 20.77/423.07 = 0.049,只有4.9%
组内方差比例 = 402.3/423.07 = 0.951,高达95.1%
这说明什么?说明她的情感变化,95%来自于时间的变化,只有5%来自于角色之间的差异。也就是说,她在不同角色里的情感是高度相关的——某一年的她,不管是工作、女儿、朋友还是妻子,情感都差不多。
她是同一个人。无论什么角色,都是同一个她在感受。
他计算四个角色之间的相关系数。
工作和女儿:0.43
工作和朋友:0.51
工作和妻子:0.38
女儿和朋友:0.47
女儿和妻子:0.32
朋友和妻子:0.41
全部是正相关,但都不算太高(0.3-0.5)。说明四个角色有一定的一致性,但也有独立性。
她在工作中不开心的时候,作为朋友可能还好。作为女儿不开心的时候,作为妻子可能也还好。但总体上,情绪是会传染的——一个角色不开心,其他角色也容易不开心。
最相关的是工作和朋友(0.51),最不相关的是女儿和妻子(0.32)。作为女儿的情感,和作为妻子的情感,关系最弱。因为女儿的情感主要受父母影响,妻子的情感主要受他影响。这两个来源不同,所以相关性低。
他做一个面板数据回归。
模型:Y_it = a + b×X_t + u_i + e_it
Y_it是角色i在t年的情感值。
X_t是他的出差天数(和其他变量)。
u_i是角色的固定效应,代表每个角色的固有差异。
e_it是误差项。
他先做混合回归(假设所有角色一样)。
Y = 6.54 - 0.038×出差天数
t值:出差=-4.23(p<0.001)
R? = 0.32
0.32,比之前用妻子单独做的0.64低很多。因为混合了四个角色,有些角色和出差关系不大(比如作为女儿,主要受父母影响),所以整体解释力下降。
然后做固定效应模型。
固定效应模型允许每个角色有不同的截距,但假设出差的影响是一样的。
结果:
工作截距 = 6.21
女儿截距 = 6.34
朋友截距 = 5.98
妻子截距 = 5.12
出差系数 = -0.041 (p<0.001)
R? = 0.45
妻子截距最低,比其他角色低1分左右。出差系数-0.041,和之前差不多。
这说明,即使考虑角色差异,出差对她的影响仍然显著。而且对每个角色的影响是一样的——他出差,所有角色都不开心。
他做随机效应模型,假设每个角色的截距是随机分布的。
结果类似:
出差系数 = -0.039 (p<0.001)
角色方差 = 0.87
误差方差 = 3.24
组内相关系数 = 0.87/(0.87+3.24) = 0.21
说明21%的方差来自角色之间的固有差异,79%来自时间变化和误差。
他做Hausman检验,比较固定效应和随机效应。
Hausman检验:chi2=4.32,p=0.23,不拒绝随机效应。说明随机效应模型也可以。
他加入其他变量。
模型:Y_it = a + b1×出差天数 + b2×健康 + b3×年份 + u_i + e_it
结果:
出差系数 = -0.032 (p=0.002)
健康系数 = 1.54 (p=0.008)
年份系数 = -0.03 (p=0.21)
R? = 0.53
出差和健康仍然显著。年份不显著。
他加入角色和出差的交互项,看看出差对不同角色的影响是否不同。
模型:Y_it = a + b1×出差 + b2×健康 + b3×年份 + b4×(出差×妻子) + u_i + e_it
结果:
出差系数 = -0.028 (p=0.01)
健康系数 = 1.48 (p=0.01)
出差×妻子系数 = -0.018 (p=0.08)
R? = 0.55
交互项边缘显著。出差对妻子的影响,比对其他角色更大。对其他角色,出差每多一天,情感下降0.028分;对妻子,下降0.046分(-0.028-0.018)。
她是他的妻子,所以她受他影响最深。
陆明远看着这些结果,心里五味杂陈。
他是她的变量。他的出差,影响她所有的角色——工作中的她、作为女儿的她、作为朋友的她、作为妻子的她。但影响最深的是妻子这个角色。
她首先是他的妻子,然后才是其他。
那些年,他在外面出差的时候,她不只是一个人在等他。她是一个人,同时扮演着四个角色。工作中,她要认真负责,不能因为心情不好就影响工作。作为女儿,她要给父母打电话,报喜不报忧。作为朋友,她要维持社交,不能总是拒绝。作为妻子,她要等他回来。
四个角色,她一个人扛。
他想起她日记里的那些话。
2008年5月,父亲去世后不久:“今天上班,同事问我还好吗,我说还好。中午给妈打电话,说挺好的。晚上张晓芸约吃饭,我说累了没去。回家,一个人坐着。他在出差。”
那一天,她扮演了四个角色:工作中的她,说“还好”;作为女儿的她,说“挺好的”;作为朋友的她,说“累了”;作为妻子的她,一个人坐着。
四个角色,四种表情。只有最后一个角色,不需要表情。
2019年7月,复发后:“今天去单位,把手头的工作交接了。同事问我怎么了,我说没事,就是累了。给妈打电话,没说。张晓芸发微信,没回。晚上他打电话,说还在出差。我说没事,你忙。”
四个角色:工作中她,说“没事”;作为女儿,没说;作为朋友,没回;作为妻子,说“没事”。
两个“没事”,一个“没说”,一个“没回”。都是同一句话:我没事,你忙。
但她有事。她有事的时候,都是这四个角色在扛。
陆明远做了一个新的图。
他把四个角色的情感曲线画在同一张图上,用不同的颜色。
工作:红色
女儿:蓝色
朋友:绿色
妻子:黑色
四条曲线,交织在一起。
1989-1990年,四条曲线都在高位,红色8-9,蓝色8-9,绿色7-8,黑色9。那是她人生最好的时候。
1994年,黑色降到5,红色5,蓝色6,绿色5。黑色最低,其他还好。
2002年,红色冲到8,蓝色8,绿色6,黑色4。红色和蓝色因为升职和告诉父母而升高,黑色因为他在出差而低。
2003年,黑色冲到7,红色6,蓝色5,绿色5。黑色因为他在家而高,其他因为非典而受影响。
2007年,红色冲到9,蓝色降到3,绿色4,黑色4。她事业高峰,但父亲病重,他不在。
2008年,蓝色降到1,红色6,绿色7,黑色2。父亲去世,黑色也低。
2013年,红色冲到9,蓝色7,绿色6,黑色4。她评正高,告诉母亲,他不在。
2014年,黑色冲到8,红色7,蓝色5,绿色4。他带她去三亚,她作为妻子最开心,但作为朋友没分享。
2017年,蓝色降到1,红色4,绿色3,黑色5。母亲去世,黑色反而高了点,因为他说想她了。
2019年,红色3,蓝色4,绿色3,黑色2。所有角色都在低位。
2020-2021年,黑色冲到7-8,红色1,蓝色5-6,绿色5-6。她最后的日子,作为妻子最开心,作为工作者最低。
这条曲线交织图,就是她的人生。
陆明远盯着这张图,看了很久。
他发现一个规律:四条曲线很少同时高,也很少同时低。总是有的高有的低。
1990年,四条都高,那是唯一的一年。
2002年,红色高,黑色低。
2003年,黑色高,其他一般。
2007年,红色高,蓝色低。
2008年,蓝色低,其他一般。
2013年,红色高,黑色低。
2014年,黑色高,其他一般。
2017年,蓝色低,黑色高。
2019年,四条都低,那是唯一的一年。
2020-2021年,黑色高,其他一般。
她总是在平衡。一个角色高了,另一个角色就低。一个角色低了,另一个角色就高。她没办法让所有角色都好。她只能选择,在某些时候,把某些角色放在前面。
2002年,她把工作放在前面,所以红色高,黑色低。
2003年,她把家庭放在前面,所以黑色高,其他一般。
2007年,她再次把工作放在前面,所以红色高,蓝色低。
2014年,她终于把妻子放在前面,所以黑色高,其他一般。
他想起她说过的一句话。那是2014年从三亚回来之后,她说:“明远,你知道吗,这么多年,我第一次觉得,做你的妻子比做别的什么都重要。”
他当时不懂。现在他懂了。
那一年,她选了做他的妻子。所以黑色高了,其他都低了。
2019年,四条都低。那一年,她什么都选不了。她复发了,没告诉他。她一个人扛着,同时扮演四个角色,但一个都演不好。
工作中,她交接了,红色3。
作为女儿,她没告诉母亲,蓝色4(因为思念)。
作为朋友,她不见人,绿色3。
作为妻子,他不在,黑色2。
那一年,她是所有角色里最失败的一年。不是她的错,是他的。是她的病,是他的缺席。
2020-2021年,黑色高了,红色低了。她放弃了工作,选择了做他的妻子。最后的日子,她只想做好这一个角色。
她做到了。
那天晚上,陆明远做了一个梦。
梦里他坐在一个会议室里,对面坐着四个林墨。一个穿着职业装,一个穿着家居服,一个打扮得很休闲,一个穿着那件白衬衫。
职业装的林墨说:“我是工作中的她。我拿了项目,评了正高,发过很多论文。”
家居服的林墨说:“我是作为女儿的她。我想我爸,想我妈,想他们还在的时候。”
休闲打扮的林墨说:“我是作为朋友的她。我有张晓芸,还有几个老同学。”
白衬衫的林墨说:“我是作为妻子的她。我是你老婆。”
四个林墨看着他,等他说话。
他张了张嘴,不知道该对谁说。
职业装的林墨说:“你不在的时候,我还在工作。”
家居服的林墨说:“你不在的时候,我给我爸打电话。”
休闲打扮的林墨说:“你不在的时候,我和张晓芸聊天。”
白衬衫的林墨说:“你不在的时候,我等你。”
四个林墨,四个声音,说的都是同一件事:你不在。
他低下头,说不出话。
白衬衫的林墨走过来,弯下腰,在他耳边轻声说:“明远,你不用对四个人说对不起。你只要对一个人说。”
他抬起头,看着她。
她说:“对我。”
然后其他三个林墨消失了。只剩下白衬衫的她。
他看着她的眼睛,说:“对不起。”
她笑了,说:“没关系。”
然后她也消失了。
陆明远醒了。
凌晨四点,窗外还是黑的。他躺在床上,想着那个梦。
四个林墨,最后只留下一个。那一个,是他最熟悉的一个。那一个,是他最对不起的一个。
那一个,是妻子。
他想,面板数据的结论,和那个梦一样:她有很多面,但最重要的那一面,是他的妻子。其他面,都会随着时间、随着境遇、随着他的在场与否而变化。只有妻子这一面,一直不变——一直在等他。
他在的时候,她开心。他不在的时候,她不开心。就这么简单。
那些工作中的辉煌、作为女儿的思念、作为朋友的交往,都是背景。前台的主角,是他和她。
“林墨:
我终于知道什么是面板数据了。面板数据,就是你有很多面。
工作中的你,那么优秀,拿了项目,评了正高,发了那么多论文。
作为女儿的你,那么孝顺,想爸爸,想妈妈,想他们还在的时候。
作为朋友的你,那么温暖,有张晓芸,有那些陪你聊天的朋友。
作为妻子的你,那么……那么等我。
这四个你,有时候一起开心,有时候轮流开心,有时候都不开心。
1990年,四个你都开心。那是最好的一年。
2002年,工作中的你开心,作为妻子的你不开心。因为我在出差。
2003年,作为妻子的你开心,其他你一般。因为我在家。
2007年,工作中的你开心,作为女儿的你难过。因为爸爸病了,我不在。
2008年,作为女儿的你最难过,其他你也难过。因为爸爸走了,我不在。
2013年,工作中的你开心,作为妻子的你不开心。因为我在出差。
2014年,作为妻子的你开心,其他你一般。因为你选了做我老婆。
2019年,四个你都不开心。因为病,因为我不在。
2020-2021年,作为妻子的你开心,其他你放弃。因为最后的日子,你只想做我老婆。
四个你,三十三年,一百三十二个数据点。
我分析了这些数据,发现一个规律:你的情感,95%来自时间的变化,5%来自角色之间的差异。你不是四个人,你是一个人。同一个人,在不同的时候,扮演不同的角色。
但有一个角色,最重要。那就是妻子。
因为妻子的情感,受我影响最深。我出差,妻子不开心。我在家,妻子开心。别的角色,也受我影响,但没这么深。
我是你的变量。你的函数。
那些年,你在扮演四个角色的同时,一直在等我。
谢谢你,用三十三年,教会我什么是面板数据,什么是四个你,什么是一个你。
从今以后,我会记住每一个你。工作中的你,作为女儿的你,作为朋友的你,作为妻子的你。我会记住你们的笑容和眼泪,高峰和低谷,选择和放弃。
但最重要的,我会记住那个等我回家的你。
那个你,一直在。”
写完之后,他走到阳台上,看着外面的夜空。五月的北京,凌晨四点,天快亮了。
他想,她会听的。
她一直在听。