迄今规模最大的再现性研究引发了对于诸多已发表论文的质疑
来源:齐一生物 点击次数: 发布时间:2015-09-11 09:56:11
迄今规模最大的再现性研究引发了对于诸多已发表论文的质疑。
不要盲目相信你从心理学文献中所读到的所有内容。事实上,可能其中的三分之二都是不可信的。
这个项目是类似研究中规模最大的一个,社会心理学家、弗吉尼亚州夏洛茨维尔开放科学中心的负责人布赖恩•诺塞克(Brian Nosek)与269名合著者对发表在3种心理学期刊里的98篇原创性论文中的研究成果进行了重复,以验证他们是否可以独立地得到相同的研究结果。
他们的研究范围十分广泛,从将局促不安表现出来是否会助长这种情绪,到成人与儿童应对恐惧刺激的差异,再到教授算术的有效方法。
正如之前《自然》(Nature)杂志所报道的,根据重复性验证研究的定性评估,只有39%的重复性尝试是成功的。(有两项再现性研究分别由不同的小组承担,因而对于98篇论文一共完成了100次再现性研究。)但是判断一项重复性验证是否成功并不那么简单。科学家们今天在《科学》(Science)杂志报告了他们用于解答这一问题的多种方法。
39%这个数字来源于研究团队对于重复性验证的成功或者失败的主观评估(见图“可靠性测试”)。另一方法是评估这些测试是否会得到统计学显著的效果,结果更不乐观。虽然97%的原始论文声称发现了显著效果,但只有36%的再现性研究显示出了显著性结果。研究团队还发现,在重复研究中,实验效果的平均水平只是原始论文中所报道的一半。
诺塞克表示,这项研究工作并不能告诉我们任一论文的真假情况,也许是原始论文或者重复的研究其中之一有缺陷,或者说,这两者之间存在着研究人员没有意识到的关键区别。但总体而言,这个项目表明,已出版的科研论文普遍经不起推敲。
虽然诺塞克承认应该将大多数资源投入新的研究,但他同时也建议,只要将所有科研基金的3%拿来投入可重复性验证,就可能会起到重要作用。至于目前的数额,他说,几乎就是零。
无法重复
本研究是于2011年启动的可重复性项目(Reproducibility Project)的一部分,该项目的启动是因为当时有许多引人注目的报道指出,虚假统计导致心理学面临公众的认同危机。
斯坦福大学的流行病学家John Ioannidis表示,真正的重复失败率可能超过80%,甚至比诺塞克的研究里显示的还要高。这是因为可重复性项目所选择的研究成果都发表在备受推崇的刊物上,原论文的作者与进行重复验证的团队都有过紧密合作,而且重复团队一般倾向于选择研究方法更为简便的论文进行验证,这一切应该会让论文重复更容易。
但是,他补充道:“这个项目不只是让我们哀叹现实如此严峻,我们完全可以借此来改善研究可重复性差的情形。如此大范围合作的事实也表明,科学家们愿意朝着改进的方向前进。”
这次发表在《科学》杂志上的研究与之前的再现性研究论文不同,因为研究团队确实重复了相当多的实验,哥伦比亚大学的统计学家安德鲁•格尔曼(AndrewGelman)说。过去,一些研究者拒绝承认心理学研究普遍存在问题,因为过去发现这类问题的一般都是小规模的重复性研究或者是以统计模拟为基础的。
但在这个大型的项目结果发表之后,他们就很难继续无视对可重复性的质疑了,格尔曼说道。“因为这是确凿的实验证据,而不是理论上的质疑。这个项目的价值就在于有了它之后,人们或许能对于自己的研究多一份怀疑。”
出版者的偏好
诺塞克说,关键并不在于批判某一篇论文,而是弄清楚偏好在心理学论文的发表过程中发挥了多大的作用。比如,沉闷但准确的研究可能永远不会被发表;有的研究人员为了得到有趣的结论,寄希望在统计方面撞大运,而不是老老实实记录真实的效果,得到显著的结果要么纯粹靠运气,要么是尝试各种分析方法直到某种方法成功了。
诺塞克认为其他科学领域与心理学也有诸多相似之处。一项分析发现,在53篇备受关注的肿瘤生物学方面的论文中,只有6篇能被重复出来,目前肿瘤生物学方向的可重复性项目也在进行中。在任何学科领域,研究者都渴望发现一个可以发表到知名学术期刊上的研究结果,这可能会让人们失去客观性。“如果大范围地发生这种情况,那么就会导致‘发表的论文很丰满,现实很骨感’。”诺塞克说。
发表于《科学》的研究结果可能激起更广泛的关于理想的科学研究与论文发表的争论,普林斯顿大学的社会心理学家Betsy Levy Paluck说。“这表明我们还无法掌握创新与可重复性之间的平衡。”
这项可重复性研究的结果发表在了《科学》这样的权威期刊上,这应该可以鼓励人们进一步开展该方面的研究,她说,并且表明现在“作为一种有趣而又负责的研究验证方法,再现性研究正流行起来。”