toppic
当前位置: 首页> 修真小说> 一个导致众多研究出错的原因

一个导致众多研究出错的原因

2022-04-23 07:38:47



  • 孟杰 编译

 

不确定的假阳性普遍出现,哪怕是在顶级科研杂志中也是——这是一个科学领域中经常出现的危机。

 

假阳性是指现实不存在的效应。没有人知道在目前发表的论文中,这种错误的、夸大的结果占有多少比例,但是种种迹象表明这个比例并不小。

 

2005年,流行病学家约翰.安尼季斯(John Ioannidis)在一篇著名的文章中对这个现象做了最好的解释,并将之高调命题为《为什么大多已发表的研究成果竟是错的》。安尼季斯指出的导致许多错误出现的原因之一现已被称为“p hacking”,即研究者为做到统计显著性而执行不合理的实验步骤,从而发表假阳性的研究成果。


什么是统计显著性?


为了从数据中得出结论,研究人员通常依靠统计学手段来验证。简单说,就是计算“p值”,也就是我们得到无效结果的可能性。如果p值足够小,则可称结果在统计学上是显著的,也就是说研究成果是可信的。

 

一般来说,p值是否小于0.5是判定显著性的标准。如果你报道p值小于0.5,那读者将会相信你发现的是一个正确的效应。当然,也可能不存在这种效应,你只是报道了一个假阳性结果而已。

 

许多学术期刊只会发表统计上显著的研究成果。研究生很快就会明白做到p<0.5才是得到提升、获得学位和实现在著名期刊中发表成果的关键。

 

这种追求p<0.5的压力促使研究人员有意或无意地投机取巧,例如利用p hacking


p hacking的诱惑


我们举一个例子来阐明p hacking给科研人员带来的诱惑。

 

布鲁斯最近完成了博士学位,并有幸加入了本领域中的顶尖研究队伍。他的第一个实验成果并不理想,但他很快改进了实验设计并且进行了第二次研究。尽管这次看起来更有希望成功,但是布鲁斯仍然没有得到一个小于0.5的p值。

 

布鲁斯坚信自己会成功,他收集了更多的数据,并决定抛弃一部分看上去错得离谱的数据。经过不断调整实验,布鲁斯最终得到了一个令人惊喜的实验结果,p值小于0.5。他仔细地记录了他的研究然后投稿给一家优秀的期刊,这家期刊接受并发表了他的文章。

 

布鲁斯知道这个他费尽心思研究的效应存在一定缺陷。然而,只要p<0.5,就可以声称数据统计上是显著的,这驱使布鲁斯发表了他的成果。

 

但是事实只有一个:这种效应是不存在的。不管统计数据显著性有多出色,布鲁斯都是发表了一个假阳性的成果。

 

随着开展研究后多组实验的推进,布鲁斯感觉自己正在通过自己的科学洞察力揭示这个未知的效应。他收集了更多数据,放弃了一些看上去差异巨大的数据,并减少了一部分实验,只着眼于最有希望的部分,同时微调了数据。

 

但问题是所有的这些举措都是在看到数据后才做出的。布鲁斯可能会不知不觉间做了主观选择——筛选并微调数据,直到他得到p<0.5的结果。即使这种效应并不存在,这样的筛选和微调也可能会轻易在p<0.5的数据中发现点什么。

 

统计学家们有一句谚语:如果你拷问数据到一定程度,它自然会坦白的。在看到数据后做出的筛选和微调都是不可信。不管刻意与否,利用这些手段来获得正确的数据统计结果就是“p hacking”,这就是那些已发表的统计学上显著的结果出现假阳性的一个重要原因。


研究成果出错的比率


这是一个一针见血又极其复杂的问题。没有人知道答案,在不同的研究领域会有不同的回答。

 

为了解答这个社会和认知心理学的问题,2015年人们投入了巨大的努力。由开放科学中心的布莱恩·诺赛克(Brian Nosek)和他的同事领导的“项目重现:心理学(RP:P)”在全球拥有100个研究团队,他们每队选取1个已发表的研究结果进行了精密的重复试验。总体来说,大约有40个项目重复结果相当完美,然而另外60个项目的重复研究中取得的效果却微乎其微。

 

结果表明,这100个RP:P重复试验取得的效果平均只有原本文章声称的效果的一半。这些重复试验进行的相当精密,可以对p hacking影响实验结果的可能性给出更加精确的估量,因此我们可以得出结论,那些最初的研究平均对真正的效果高估了两倍。这个结论是令人震惊的!


如何避免p hacking

  

避免p hacking的最好方式就是不要对已知数据进行任何的主观筛选或调整。也就是说,避免有问题的研究实践。对大多数案例来说,最好的办法是用预存审批法。

 

预存审批要求你预先做一个详尽的实验方案,包括提前对数据进行的统计分析,接着在开放科学领域或者其他在线注册网站提前制定方案,标记日期戳。

 

然后再进行你的实验,依照方案分析数据,无论结果如何,如实报道。读者们可以核查你的预存审批计划,这样就会相信分析过程是预先制定的,而不是p hacking。虽然这种预存审批法对于许多研究人员来说是一个具有挑战性的新想法,但这在未来很有可能会变成一种习惯。

适当使用估计值代替

 

依靠p值的一大缺点是p hacking的诱惑。另一缺点是p<0.5的标准推动了非黑即白的思想:一个效应具有或者没有统计显著性,这听起来更像是说这个影响存在或者不存在。

 

但这个世界并不止黑白两种颜色。要承认多种灰色色度,最好的办法是使用估计值而不是p值。评估值的目的是估计效应的大小程度——可能会是小,大,零,甚至是负值。就估计值而言,假阳性结果是一个比效应的真实值要大甚至大得多的估测。

 

我们来看一个关于治疗的影响的假设研究。例如,这项研究估计,治疗平均能够降低7%的焦虑程度。假设我们从数据计算出的置信区间(我们对于不确定结果的两极的最适估计)是[4%,10%]。这告诉我们,我们的估算值7%最可能是在焦虑程度的真实效果的3%误差以内。

 

换句话说,置信区间表明了我们估算的精确度。知道这种估计值和它的置信区间比知道任何的p值要有用的多。

 

估计值被称为“新的统计数据”之一。对于研究者来说,技术本身并不是最新的,但是如何将它们作为分析数据得出结论的主要方式却是极具创新性的,也是具有跨时代意义的。它也将有助于避免p hacking引起的虚假现象。

 

欢迎个人转发,机构如需转载,请联系授权事宜:


科学媒介中心(Science Media Center)秉承着全球视野,时代高度,历史纵深,科技前沿的理念,致力于传播科学共同体权威,理性,及时,准确的声音,并为广大科技工作者搭建科学传播的平台。



友情链接