1971年,在完成博士学位的一年后,鲁宾开始在新泽西州普林斯顿的教育测试服务中心工作。当一个单位机构要求ETS分析一个含有缺失数据的调查时,鲁宾提出了一个非常规但相对简单的解决方案:不要只进行一次插补。多次插补。再次插补
让我们回到那个血压研究中。你正在测试一种新的降压药,一些病人停止来诊所检查。你该怎么办?如果你使用单次插补,你可能会假设离开研究的病人永远保持他们最后一次测量的血压。
或者你可以尝试一些更复杂的方法:寻找另一个进展与缺失案例相似的病人,并使用他们的数据代替。但你可能会有几个类似的案例可以选择——替换不同的值可能会导致非常不同的结果。所有可能做出的不同选择形成了统计学家所称的缺失数据预测的分布。鲁宾的方法称为多次插补,将这种分布考虑在内。要使用它,首先创建数据集的多个副本。对于每个副本中的给定缺失值,从你的分布中随机分配一个猜测。
通过设计,你更有可能选择较好的猜测,但也有小概率选择不太可能的猜测。这个过程反映了每个猜测的不确定性。对数据集的其他副本中的每个缺失值重复这些步骤。一旦你填补了所有缺失的数据,就可以分析每个完成的数据集。你将得到几种不同的药物效果预测。然后你可以使用称为鲁宾规则的公式来汇总你的结果并得到一个平均预测。通过遵循这些步骤,你也可以计算出最终预测不确定性的更好估计。
对于像美国食品药品管理局这样的药物监管机构,准确地了解这种不确定性至关重要:它会影响药物是否能获得批准。多次插补的多种用途
当鲁宾在20世纪70年代初首次介绍他的技术时,许多科学家持怀疑态度。他们质疑,为什么要使用除最佳猜测之外的任何东西?即使是那些想尝试的人有时也发现它难以实施:如果他们的研究涉及例如人口普查数据,那么存储几个副本就意味着管理数亿条数据记录。
在数据必须存储在打孔卡上的时代,这几乎是不可能的。鲁宾在整个70年代和80年代推广了他的方法。他为许多单位机构提供咨询,包括国税局、国家卫生研究院、劳工部和国防部——这些机构有资源制作多个大型数据集副本。他与这些机构的合作展示了多次插补的有效性。这些组织还创建了插补数据,供其他人用于他们自己的分析。到20世纪90年代,计算机存储和处理能力显著提高。
多次插补不仅对单位机构而言变得可用,而且对个人研究人员而言也变得可行。范布伦就是其中之一。1999年,他和卡琳·古罗斯-奥德霍恩发布了一个使科学家更容易使用多次插补的计算机程序。随后出现了更多程序,多次插补变得更加普及。然后在2010年,FDA委托的一份报告强烈建议不要使用单次插补和旧的特设方法。多次插补成为医学中的首选技术。事实证明,多次插补既严格又多才多艺。
虽然还有其他方法可以避免单次插补的缺点,但多次插补是最通用的:它在任何你可能尝试使用单次插补的情况下都有效。多次插补软件仍然难以处理最大和最复杂的数据集。但使用机器学习的新多次插补软件已经能够插补更复杂的数据。反过来,这已经将多次插补引入工程等领域,在这些领域中,特设方法更为常见。话虽如此,一些研究人员仍然担心这些新技术的数学严谨性,更不愿采纳它们。不过,就目前而言,鲁宾的多次插补似乎将继续存在。
无论科学家是在测试新药还是在分析投票模式,随机猜测都在帮助他们诚实面对自己所知道的。