如何使实验可重复？

最后编辑于 2022-10-09 · IP 北京北京

1783 浏览

这个帖子发布于 4 年零 321 天前，其中的信息可能已发生改变或有所发展。

虽然你不能保证你的实验可重复，但可以采取许多步骤来将研究打下坚实的基础。大多数人认为科学有一个简单干脆的答案，但是任何实验结果都会被问到 -- 结果会重现还是只是偶然发生？这种“偶然”包括各种明显的可能性（也许你的样品被污染了，而你却从未知晓），以及基于数学和概率的鲜为人知的可能性。在本文中，我们提供了一些建议，以增加结果可重复的可能性。

什么是可重复性（replicability）？

如果可以重复进行并得到相同的分析结果，则科学实验是可重复的。由于各种因素，像随机变量，可重复性并不像某些人想象的那么普遍。

什么是可重现性（reproducibility）？

通常，其与可重复性可以互换使用，而可重现性需要清晰地规划步骤以重现原始实验。然后，可重现的实验将详细说明采样、数据收集和实验的过程，以使另一位熟练的研究人员能够进行相同的实验。

可重复性危机和p值争议的背景

你可能已经听说过可重复性危机，其中提出了担忧（确实存在）和质疑 -- 对已发表的带有统计学显著性结果的试验，如果重新操作有多少是可以重现的？

科学家试图重新创建发表在顶级《心理学》杂志上的实验，但结果却以惊人的失败告终，这导致人们对科学提出了一些令人震惊的说法。作为回应，一些期刊指责并禁止p值和经典的原假设检验。

这种“危机”是一件好事~

从大多数统计学家和许多科学家的角度来看，这种“危机”引发了关于科学中一些系统性问题的积极而迫切的辩论，这些辩论可能导致误导或无法重复的结果。正如美国统计协会在有关p值的使用和滥用的声明中所写，“ ASA（美国统计协会）声明中没有什么是新的。数十年来，统计学家和其他人士一直在就这些问题发出警报，但收效甚微。”

是统计数据不可信的问题吗？

一点也不是。统计数据非常适合分析精心设计的实验中的数据。但是，可以操纵统计结果（通常是不经意间），导致对显著性的错误的高估。因此，我们提出以下建议。

我该怎么做才能使结果可重复？

统计分析前，

影响定量科学研究的可重复性的主要问题是有关数据收集和分析的完整性。其中大部分发生在统计建模之前。研究的早期步骤以科学方法为指导，包括：

确定适合你的数据和实验设计的统计模型；
深入探讨特定的感兴趣的问题，并提供相应的可测量的数量；
通过适当随机化，收集代表性人群的代表性样本；

我们必须一再强调这些选择对所产生研究质量的涓滴效应（Trickle-down effect）。对于大多数科学学科，在上述每个主题上都有大量的文章、教科书和课程。在本文的其余部分，我们的重点是可以采取哪些步骤来进行统计，以使你的研究基础坚实，其中最有害的方法之一就是p-hacking。

P-hacking

P-hacking（也称为p值黑客，数据疏浚data dredging 或数据窥测data snooping）是指一系列分析错误，源自研究人员在其数据中挖掘以找到一个显著的p值。这会极大地影响你研究的可重复性。

p-hack的动机在很大程度上可归因于对p值的误解，以及科学期刊根据低于0.05的p值发布“显著统计结果”。这激发了科学家寻找其数据中的统计显著性，但是p值对于重复试验并不可靠，因此很容易被滥用。有关p值的更多信息，请参见有关解释小和大p值以及使用双尾检验的建议。

现在，你可能会问自己：p-hacking会是什么样的研究人员在用？首先，这听起来像是一个只是困扰最不道德的研究的问题，因为其整个推理与科学方法直接相反。当然，如果是这样的话，问题将更少并且更容易发现。根本不会有可重复性危机。

事实是，p-hacking最常以几种更微妙的方式发生，其中许多来自好奇而不是恶意。这里个例子说明了在大多数研究中p-hacking可能会成为一种诱惑，并附上一些防范措施。

P-hacking＃1：处理一个近乎显著的结果

假设你的实验产生了“近乎显著”的结果。也许你的目标是p值为.050或更小，而实际p值为.054。从技术上讲，这不是一个显著的结果，但是只要四舍五入就可以达到显著了。你会舍入为.05并把显著性写入报告中吗？

如果你认为这就是p-hacking，那么你是正确的。大多数人都这样认为，有人提出了一个看起来更简单直接的解决想法：只需再添加几个重复检测数值，然后将其添加到数据集中，看看结果是否具有显著性就可以了。在大多数情况下，这似乎是一个不错的妥协。它在许多学科中很常见，而且似乎很明智，能获得比以前更有说服力的数据集，谁又会来争论呢？

答案是？统计学家。我们说，如果你花足够多的时间来寻找，最终就会找到它。即使只是扩展数据集并重新运行结果，p值也旨在一次实验的一次分析。如果你在对实验进行的第一次分析中获得了“近乎”显着的结果，这很诱人，你可能会在不考虑多重检验的情况下（下面详细介绍），添加更多数据点从而违背了统计原理。

如果无法完全获得预期的结果，则对数据集进行一次扩展会带来更多问题：如果结果仍然不在显著性的范围之内，你将怎么办？由于这些原因，尽管从一开始就看似无害，但操作近乎显着的结果会导致可重复性危机。

所以，这意味着你将需要提前计算样本量，并且，除非你清楚地记录下来这些增加操作，并针对连续采样使用调整的分析方法，否则在获得显著性之前，不要试图添加实验重复项。不这样做会导致假阳性结果的可能性更高。

P-hacking＃2：数据疏浚（data dredging）

在另一种情况下，想象一下这种情况，你已经收集了课题的详尽数据，但是当你查看与假设有关的结果时，它们在统计上并不显着。你可能会记得你有一个丰富的数据集，因此，你可以调查其他关系，而不是承认自己的原始假设失败。稍后进行了几次（或很多次）调查，你可能会在数据集中发现一个显著性的关系，但却不是起初你要的那个。好在你没有早早放弃希望，对吧？

实际上，这也导致了可重复问题。仔细观察，很容易发现这与第一种情况有相同的问题：如果你花足够多的时间来寻找，最终就会找到它。尽管只是用几种不同的方式查看数据来寻找令人信服的内容，概率定律也将其视为你在做各种比较直到找到一些小于0.05的p值。

彼得·斯莱特（Peter Sleight）在2000年的一篇论文中分享了一些数据疏浚的好例子。例如，他使用了一项研究数据，该研究评估了阿司匹林与安慰剂相比在预防心肌梗塞中的作用。他发现，通过根据星座将数据分组，其中两个星座（双子座和天秤座）没有表现出显著性。

你不应该在一开始就看到这些额外的问题吗？未必：毕竟，新领域中的许多探索性研究并不能总是以明确的假设开始。不过，你会注意到的一个区别是，它们的结论如何呈现。探索性研究不能提出与随机实验研究相同的要求。探索性研究不能像随机试验研究那样得出相同的结论。

如果你的研究是从主假设（main hypothesis）开始的（大多数情况下应该如此），则即使你的假设不具备显著性，在文章中你也应该以陈述你的假设为主要目标。但是，你总是可以另外包括探索性分析。在这里，你会承认可能会有其他发现，例如你没想到的一些发现。你应该在研究范围内提及这些内容，并建议未来的研究对其进行更深入的研究。

P-hacking＃3：多重检验

一个与之相关的p-hacking错误是，当你在单个实验中检验多个p值（称为多重检验）时，无法正确调整p值。幸运的是，一般来说，通过同行评审过程可以很容易地发现这一点。这个想法是，你想控制整个实验的假阳性率。这意味着，如果你采用漫无目的的方法来找到显著性结果，你得到p值的临界值。我们为多重检验给出以下三种建议：

当针对一些特定比较而设计实验时，不对多重检验进行校正。
控制FWER（Family-wise Error Rate），其中包括Bonferroni校正，Holm-Sidak检验，Tukey方法和Dunnet方法等。控制错误发现率FDR（False Discovery Rate），包括（1）Benjamini and Hochberg（2）Benjamini, Kireger and Yekutieli（3）Benjamini and Yekutieli

Prism中有许多选项可用于控制FWER和FDR。

如果我不能听从你的所有建议怎么办？

至少要在出版的时候解决这些问题。尽管我们尽力使科学纯粹客观化，但这并非总是可能的。我们历史上最伟大的研究人员都犯了错误，而这只是科学过程的一部分。如果你对进行实验或统计分析的方式有疑问，请寻求帮助。除了你所在领域的导师外，大多数大学和许多私人公司都提供统计咨询服务。

在本文中，我们给出了在你的研究中正确使用统计学的建议。然而，更重要的是研究者之间进行坦诚布公的沟通。这样，我们将向科学研究又迈近坚实的一步。

参考

可重复性危机（Replication crisis）

可以百度搜索或参考来自Wikipedia的如下摘录：

The replication crisis (or replicability crisis or reproducibility crisis) is, as of 2020, an ongoing methodological crisis in which it has been found that many scientific studies are difficult or impossible to replicate or reproduce. The replication crisis affects the social sciences and medicine most severely. The crisis has long-standing roots; the phrase was coined in the early 2010s as part of a growing awareness of the problem. The replication crisis represents an important body of research in the field of metascience.

Because the reproducibility of experimental results is an essential part of the scientific method, the inability to replicate the studies of others has potentially grave consequences for many fields of science in which significant theories are grounded on unreproducible experimental work. The replication crisis has been particularly widely discussed in the field of psychology and in medicine, where a number of efforts have been made to re-investigate classic results, to determine both the reliability of the results and, if found to be unreliable, the reasons for the failure of replication.

回复3 1

如何使实验可重复？

全部讨论(0)