晋江文学城
下一章 上一章  目录  设置

18、第十八章 点估计 真实,是唯 ...


  •   真实,是唯一的点估计。

      陆明远发现自己在做一件以前从未做过的事:预测。
      之前所有的分析,都是回头看——看她已经走过的路,看她已经留下的数据,看她已经发生的情感。那是历史,是过去,是无法改变的。
      但现在,他想做一件不一样的事:向前看。他想知道,如果她没有走,如果她还活着,如果日子继续过下去,她会怎么样?
      他想做点估计。
      点估计是统计学里的一种方法,用样本数据来估计总体的某个参数。比如,用样本均值估计总体均值,用样本比例估计总体比例。点估计给出一个具体的数值,而不是一个范围。
      但他没有未来的数据。他只有过去。他需要用过去的数据,来估计未来的她。
      他需要先选一个模型。
      从之前的分析看,最好的模型是那个包含出差天数和健康的模型:
      Y = 8.54 - 0.047 ×出差天数 + 1.87 ×健康
      R? = 0.71,调整R? = 0.69
      这个模型简单,解释力强,变量少,不容易过拟合。
      他决定用这个模型来做点估计。
      但问题是,未来的出差天数和健康,他不知道。
      他需要先估计这两个变量。
      先估计健康。
      如果她没有走,如果她活到了2022年、2023年、2024年……她的健康状况会怎么样?
      2019年复发,2020年确诊,2021年去世。这是现实。但如果她没有走,她应该是在2020年确诊后,经过治疗,病情稳定下来,然后进入长期的带病生存状态。
      他咨询过医生。和她同一种癌症的患者,如果治疗有效,五年生存率大概在30%左右。也就是说,有30%的人可以活过五年。
      她会是那30%吗?
      他不知道。但他需要一个估计。
      他假设:如果她还活着,2022-2026年,她仍然是不健康的。但“不健康”有不同的程度。2020-2021年是重度不健康,住院、化疗、手术。如果活下来,后面可能是中度不健康,需要定期复查、长期服药,但可以正常生活。
      他的健康虚拟变量是1表示健康,0表示不健康。这个二分法太粗了。他需要更细的分类。
      他定义一个新的健康变量:健康程度,0-3分。
      3分:完全健康,像2015年以前那样。
      2分:轻度不健康,有些小毛病,但不影响生活。
      1分:中度不健康,需要治疗,但可以正常活动。
      0分:重度不健康,住院、卧床、无法自理。
      根据日记,她各年的健康程度:
      1989-2015:3分
      2016:第一次查出问题,但没告诉他,应该是2分(轻度)
      2017:2分
      2018:2分
      2019:复发,应该是1分(中度)
      2020:确诊,住院,0分(重度)
      2021:最后一年,大部分时间住院,0分
      如果她没有走,2022年及以后,会怎么样?
      他咨询医生后,做如下假设:
      2022年:治疗后稳定,出院,但需要定期复查。1分(中度)
      2023年:继续稳定。1分
      2024年:可能复发?假设没有复发,继续稳定。1分
      2025年:1分
      2026年:1分
      2027年:如果五年不复发,算临床治愈,可以恢复到2分(轻度)
      2028-2030年:2分
      这是最乐观的估计。也可能复发,也可能恶化,也可能……
      但他需要一个点估计。他选择这个乐观的路径。
      再估计出差天数。
      如果她没有走,他的出差天数会怎么样?
      他回忆2020-2021年。2020年,疫情,他出差43天。2021年,他请假陪她,出差12天。这两年是非常态。
      如果她没有走,2022年及以后,他还会像以前那样出差吗?
      他不知道。但他知道,经过这件事,他变了。他不会再像以前那样,把出差当成逃避。他会想多陪她。
      但他也需要工作。统计局的工作,出差是不可避免的。
      他需要做一个合理的估计。
      看历史数据:2007-2019年,他的平均出差天数是98天。最低是2009年的85天,最高是2019年的118天。
      2020-2021年是非常态,不考虑。
      如果她没有走,他应该会减少出差。但减少多少?
      他想起2018年,他陪她去医院后说过“明年少出点差”。但2019年,他出了118天,历史最高。
      他说过的话,往往做不到。
      但他这次想做到。
      他假设:如果她还活着,他会把出差天数控制在平均水平以下。比如,每年70天左右。
      70天,比历史最低的85天还低,比2020年的43天高。是一个合理的折中。
      2022年:70天
      2023年:70天
      2024年:70天

      2025年:70天
      2026年:70天
      2027年:如果她恢复得好,他可能会稍微多出一点差?但他不会。他假设保持70天。
      2028-2030年:70天
      这是一个稳定的估计。
      现在,他有了未来9年(2022-2030年)的健康程度和出差天数。
      但模型需要的是健康虚拟变量(1/0)和出差天数(连续)。
      健康虚拟变量:他需要把健康程度(0-3分)转化成1/0。他决定:2-3分为健康(1),0-1分为不健康(0)。
      那么:
      2022年:健康程度1分 →健康虚拟变量0
      2023年:1分 → 0
      2024年:1分 → 0
      2025年:1分 → 0
      2026年:1分 → 0
      2027年:2分 → 1
      2028年:2分 → 1
      2029年:2分 → 1
      2030年:2分 → 1
      出差天数:全部70天。
      代入模型:
      Y = 8.54 - 0.047 ×出差天数 + 1.87 ×健康
      2022年:8.54 - 0.047×70 + 1.87×0 = 8.54 - 3.29 = 5.25分
      2023年:同上,5.25分
      2024年:5.25分
      2025年:5.25分
      2026年:5.25分
      2027年:8.54 - 3.29 + 1.87 = 7.12分
      2028年:7.12分
      2029年:7.12分
      2030年:7.12分
      这就是点估计的结果:如果她还活着,2022-2026年,她的情感指数大约是5.25分;2027年以后,恢复到7.12分。
      5.25分是什么水平?和她1995-1996年差不多,比2003年的7分低,比2014年的8分低,但比2019年的2分高很多。
      7.12分是什么水平?和2003年的7分接近,比2014年的8分略低,但已经是很好的水平了。
      他看着这些数字,心里五味杂陈。
      5.25分。这是她如果活着,2022年的情感指数。
      2022年,她已经走了。他只能算出一个数字,想象她如果还在,会是什么样。
      5.25分,是一个不好不坏的分数。比那些平淡的年份(3-4分)高,但比那些开心的年份(7-9分)低。是“还行”的水平。
      她会“还行”地活着。他出差70天,她身体不好,但他在。5.25分,是“你在,但不够”的分数。
      2027年以后,她身体好了,7.12分。那是“你在,我也好”的分数。
      但这一切,都不会发生了。
      陆明远又做了一个点估计:用状态虚拟变量模型。
      模型:Y = 5.43 - 1.54×D7 - 2.12×D8 - 3.65×D9 + 3.21×D10 + 1.87×D11 + 2.34×D12 + 2.98×D13
      D7是状态2(出差多,健康),D8是状态3(出差少,不健康),D9是状态4(出差多,不健康),D10是结婚,D11是非典,D12是三亚,D13是最后。
      未来9年,没有这些特别事件(D10-D13都是0)。只有状态变量。
      2022-2026年:他出差少(70天<98),她不健康,所以是状态3,D8=1。
      代入:Y = 5.43 - 2.12 = 3.31分
      2027-2030年:他出差少(70天),她健康,所以是状态1,D7=0,D8=0,D9=0,Y = 5.43分
      这个模型给出的估计更低:2022-2026年只有3.31分,2027-2030年5.43分。
      3.31分,是什么水平?和2009-2012年的那些平淡年份差不多,比2019年的2分高,但比她大部分年份都低。
      为什么这个模型估计这么低?因为状态3(他出差少,她不健康)的平均情感本来就低。2020-2021年虽然是状态3,但因为有“最后”这个特别事件,所以加了2.98分。去掉特别事件,状态3就是3.31分。
      这说明,如果她没有走,如果没有“最后”这个特别事件,2020-2021年她的情感也不会那么高。是因为她知道时间不多了,所以才那么珍惜,所以才那么开心。
      如果她活着,日子正常过,2022-2026年,可能就是3.31分。比2019年好一点,但也好不了太多。
      两个模型给出不同的估计:5.25分 vs 3.31分。
      哪个更可信?
      第一个模型是连续变量模型,用出差天数和健康做预测。
      第二个模型是虚拟变量模型,用状态做预测。两个模型的R?差不多(0.71 vs 0.76),但第二个模型用了更多特别事件的虚拟变量,那些特别事件在未来都不存在,所以预测可能偏低。
      他想,也许真实的估计在两者之间。4分左右。
      4分是什么水平?是她大部分平淡年份的水平。是“还行,但也没什么可高兴”的水平。
      她如果活着,可能就是4分。不高不低,不好不坏,平平淡淡地过完余生。
      但4分,比2021年的8分差远了。
      2021年,她最后一年,情感指数8分。那是她三十三年里第二高的年份(最高是1990年的9分)。那一年,他一直在,她一直在等,但等的不是他回来,是离开。
      那一年,她的开心,是因为知道时间不多了,所以每一分钟都珍贵。是因为知道要走了,所以每一次见面都珍惜。是因为没有未来了,所以把所有的爱都集中在当下。
      如果她活着,如果还有未来,她就不会那么开心。因为未来意味着不确定,意味着他可能还会出差,意味着日子还会平淡,意味着一切可能回到从前。
      她最后的高分,是用未来换的。
      陆明远想起她日记里的一句话。
      2021年4月:“今天天气好,他推我出去走走。花开得很好。我知道这是最后一次看这些花了。所以特别好看。”
      最后一次。因为知道是最后一次,所以才特别好看。
      如果还有下一次,如果明年还能看,可能就没那么珍惜了。可能就会想,明年再看吧,今天累了,不去了。
      人的情感,就是这样。不是由客观事物决定的,是由预期决定的。知道要失去了,才懂得珍惜。知道是最后一次,才用力感受。
      他的点估计,估计的是“如果还有未来”的她。但那个她,不是真正的她。真正的她,已经用未来换了最后的高分。
      他又做了一个点估计:估计如果他还像以前一样出差,她会怎么样。
      假设2022-2030年,他继续像2007-2019年那样,平均出差98天。
      健康假设同上。
      用第一个模型:
      2022-2026年:不健康,出差98天,Y = 8.54 - 0.047×98 = 8.54 - 4.61 = 3.93分。
      2027-2030年:健康,出差98天,Y = 8.54 - 4.61 + 1.87 = 5.80分
      3.93分和5.80分。
      比之前估计的低一些。出差多,分数就低。
      用第二个模型:
      2022-2026年:状态4(出差多,不健康),Y = 5.43 - 3.65 = 1.78分。
      2027-2030年:状态2(出差多,健康),Y = 5.43 - 1.54 = 3.89分
      1.78分和3.89分。
      1.78分,和2019年的2分差不多。如果他还像以前那样出差,她即使活着,也会继续不开心,甚至会再次跌到2019年的水平。
      这个估计,让他心惊。
      他想起2019年。那一年,他出差118天,她复发,没告诉他。她的情感指数2分,历史最低。
      如果他继续那样,2022-2026年,她虽然不会复发(假设),但情感也不会好。1.78分,几乎是抑郁的水平。
      她会怎么样?会一个人扛着,会花钱填补空白,会写日记但很少提到他,会在平淡的日子里慢慢消沉。
      也许会再次复发,也许不会。但情感上,她已经死了。
      他差点让她这样。
      他又做了一个点估计:估计最好的情况。
      假设他完全不出差,每年0天。
      2022-2026年:不健康,出差0,Y = 8.54 - 0 + 1.87×0 = 8.54分。
      2027-2030年:健康,出差0,Y = 8.54 + 1.87 = 10.41分(超过10分,说明模型外推失效)。
      8.54分,是她最后两年的水平。10.41分,是根本不存在的完美。
      但8.54分,是他能做到的最好。如果他完全不出差,如果他一直陪着她,如果她把最后两年的日子过成永远——那就是8.54分。
      但他做不到。他需要工作。他不可能完全不出差。
      70天,是他能做的折中。5.25分,是折中的结果。
      陆明远把这些点估计画成一条线,和她的历史曲线连在一起。
      1989-2021年,是她的真实曲线。高高低低,起起伏伏,最后在2021年冲高到8分,然后戛然而止。
      2022-2030年,是他画的虚线。有三条:
      虚线A(最好情况):一直8分以上。
      虚线B(折中情况):5-7分。
      虚线C(最坏情况):2-4分。
      真实的她,停在2021年。虚线的她,活在不同的可能里。
      他想,如果她能选,她会选哪条虚线?
      她会不会选C?因为C最接近真实——2019年就是2分,她习惯了。C虽然低,但熟悉。
      她会不会选B?因为B有希望,有未来,有平淡但还行的日子。
      她会不会选A?因为A有他一直在,有8分以上的每一天。
      他不知道。
      但他知道,她选了真实。她选了2021年的8分,然后离开。她没有选任何虚线。
      那天晚上,陆明远做了一个梦。
      梦里他站在一个岔路口,前面有三条路。每条路上都有一个人,都是林墨。
      第一条路上的林墨,穿着病号服,坐在轮椅上,但他推着她。她的表情平静,带着一点笑。那是虚线A的林墨。
      第二条路上的林墨,穿着家居服,一个人在散步。她的表情平淡,不笑也不哭。那是虚线B的林墨。
      第三条路上的林墨,穿着那件白衬衫,扎着马尾,站在远处看着他。她的表情复杂,有笑,有泪,有不舍,有释然。
      他知道,那是真实的林墨。
      他问:“你选哪条路?”
      她不说话,只是看着他。
      他问:“你为什么不选?”
      她笑了,说:“我已经选了。”
      他问:“你选了哪条?”
      她说:“我选了来找你。”
      他愣住了。
      她说:“所有的虚线,都是没有你的路。只有真实的路,有你。”
      她指了指第一条路:“那条路上有你推着我,但你推着的,是一个病人。你照顾我,你陪我,但你心里,是愧疚,是责任,是补偿。”
      她指了指第二条路:“那条路上没有你。我一个人走,平平淡淡,不高不低。但我不想要。”
      她指了指自己:“这条路上,有你。你在找我,你在读我的数据,你在写那些信。你在。”
      她朝他走来,走到他面前,伸出手,摸了摸他的脸。
      “你选的,就是真实。”
      她消失了。
      陆明远醒了。
      凌晨四点,窗外还是黑的。他躺在床上,想着她的话。
      你选的,就是真实。
      他选了真实。他选了没有她的真实。他选了有数据、有回忆、有那些信的真实。
      他没有选那些虚线。那些她活着的、但可能不开心的、可能平淡的、可能重复的虚线。
      他选了真实。真实里有她的离开,有他的后悔,有他三十一年的分析,有这十九封信。
      真实,是唯一的点估计。
      “林墨:
      我做了点估计。用两个模型,三种假设,画了三条虚线。
      虚线A:我完全不出差,你一直开心,8分以上。
      虚线B:我出差70天,你平平淡淡,5-7分。
      虚线C:我像以前一样出差,你回到从前,2-4分。
      三条虚线,三个可能的你。
      但真实的你,不在任何一条虚线上。真实的你,停在2021年,8分,然后离开。
      我想问你,如果你能选,你会选哪条虚线?
      你托梦告诉我:你不选虚线。你选真实。
      你说,真实里有我。我在找你,我在读你的数据,我在写那些信。我在。
      那些虚线里,也许有我推着你,但那是愧疚的我。也许没有我,那是平淡的你。也许有从前的我,那是重复的日子。
      你不想要愧疚的我,不想要平淡的你,不想要重复的日子。你只想要真实。
      真实里有你的离开,有我的后悔,有我们三十三年的纠缠。真实里有数据,有信,有每一个不眠的夜晚。真实里有爱。
      我懂了。
      点估计,估计的是未来。但未来不存在。存在的只有过去和现在。
      过去,是你留下的数据。现在,是我在读这些数据。
      这就是真实。
      谢谢你,用三十三年教会我什么是点估计,什么是未来,什么是真实。
      从今以后,我不再估计。我只读数据,只写信,只想你。
      这就是我的真实。”
      她在听吗?
      她一直在听……

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>