raw data是什么意思啊(心理学的**2数据贮藏Data Hoarding)

欢迎阅读心理学的**系列文章,第二篇。 目前在心理学,其中一个开放科学(open science)倡导的就是数据分享(data sharing)。科学家在递交文章给期刊的时候,或者论文被接受**发表的时候,把...

心理学的**2:数据贮藏(Data Hoarding)欢迎阅读心理学的**系列文章,第二篇。

目前在心理学,其中一个开放科学(open science)倡导的就是数据分享(data sharing)。科学家在递交文章给期刊的时候,或者论文被接受**发表的时候,把收集到的数据整理好,连同解释数据变量的meta-data和用于数据**的data source code,公开分享在Open Science Framework。

虽然OSF的注册用户越来越多(下图),整个心理学社区分享数据的氛围也越来越好,还是有很多心理学家贮藏数据,拒绝分享。

心理学的**2:数据贮藏(Data Hoarding)拒绝数据分享而贮藏数据的理由很多个。

前几个星期我在部门给有关Open Science 的talk,讲到分享数据(Data Sharing)的时候,有一名研究生便提出:

“分享数据会让我很不舒服。万一别人拿到我分享的数据,发现了我没发现的东西,我不是就失去一个大好的发表机会了吗?”

MIT 神经学家Earl Miller说过:

“我支持数据分享,但是我只分享给和我合作的科学家。数据又不是公共喷泉。”( Earl Miller's tweet)

其实很多人都会同意这位研究生和Miller的观点。他们担心分享数据意味着向竞争对手双手送上自己的知识产权,意味着会收到很多不需要不想要的指责和批评。数据贮藏是心理学中一个严重的问题,也是心理学的一宗罪。

这篇文章我将会摘取The 7 deadly sins of psychology (by Chris Chambers) 第四章中有意思的段落,结合自己的体会和**,和你们探讨数据**的好处,以及数据贮藏这种学术氛围如何成为不诚实的科学家的保护伞。

数据分享的好处

1 公开分享数据使得独立第三方的审核和重复

其实这一点不仅适用于数据,也适用于实验代码以及数据**代码(analysis source code)。

当你分享实验代码的时候,第三方(比如对你实验感兴趣的学者,或者review你的文章的reviewer)可以通过看你的代码,run你的代码等来了解清楚,或者重复你的实验。尤其是重复实验这点,对于任何科学领域的进步,都是有重要意义的。

当你分享数据和数据**代码的时候,第三方可以确保你的数据并不是虚拟构造的,而你做的数据**也是准确无误的。

2 公开分享数据限制了不规范,不道德的科学操作

当你需要分享数据的时候,你需要把一个文件公布于众的时候,你会被迫的更加仔细小心的整理数据,做数据**等,从而限制不规范不谨慎的操作。

同时,也给了他人机会来监督你。

比如p-hacking。p-hacking指的是,针对同一份数据,我做100个不同的数据**,然后只汇报一个,因为那一个数据**我**到了p < 0.05,效应显著。那么拿到数据的其他研究人员**数据的时候,用的那99种数据**方法,就会发现不显著。

再比如在2013年Uri Simonsohn发表的一个简洁探测出异常数据(sketchy data)的**方法。接下来将会深入仔细说明,这个**方法用于多份数据中,发现出了两个数据**的例子。

3 公开分享的数据才不会消亡

学术界一直有句话,大家一定都听过,publish or perish,意思是,不能发表论文就跟在学术界死了没什么区别。也有一句话,出自Jelte Wicherts & Marjan Bakker:

publish (your data) or (let the data) perish

只有把数据公开分享,数据才不会因为时间,或者因为你换电脑,而丢失。

对于这点,我有一个非常深刻体验的故事。

我最近一直在写的一篇有关概念信息和感觉信息对记忆的影响的论文,在重新看数据的时候,发现不同感知觉**物有不一样的准确率和反应时间。然后发现原来老板有篇文章也有类似类型的data,重新**一下的话或许可以发现相似的数据规律。当我问老板的时候,老板再找Ken(co-author)的时候,他们突然发现,唉数据在哪里?

原来那批数据是很多年前收集的,其中多年,老板从Indian搬去CMU,再搬来雪城,而Ken也是辗转多个城市,现在在迈阿密。数据藏哪里了根本不知道。不过好险,Ken一台电脑都没丢,终于不知道在地下室的哪里找到了那批数据,然后完整的和我分享了。如果你以为这就是故事的结局,你就太天真了。

我拿到数据之后就傻眼了,居然很多特么是SPSS格式,而且存储raw data的文件有多个,仔细一看和一份aggregated data的实验组数量和被试号很多对不上。我问老板,老板说:

“Oh Sharon. Back in the old days, we couldn't sync data from multiple lab booths and lab computers , so the data text files you're looking at are from different booths.”

到后来我之后一个一个file对比着看,神奇的整理出来其中一个condition的其中46个数据点。

这个故事告诉我们,数据一定要保存在永不过时的格式,比如文本文件,excel等。而且要公开分享数据,这样子数据才不会丢失死亡,而且分享的时候也方便你我他。

4 公开分享数据可以促进学科**

一份数据可以有很多故事诉说。你发现的,或者你文章写得,只是那么多故事中的一个。你有可能错过了这份数据中的亮点,错过了另一个更有趣的故事。但是不要紧,倘若你公开分享数据,别人拿到你的数据,或许他们就会发现。

的确,这也许会让你觉得就这个错过了几个亿。但是作为科学家必须明白一点,我们工作目的并不是名利双收,而是促进学科**。而公开分享数据便可以做到这一点。

数据贮藏隐瞒着心理学家的错误

无可否认的是,数据贮藏这种氛围,保护着那些不诚实做科学的科学家。

在2011到2012年期间,Uri Simonsohn 揭露了两例数据**的例子。

第一例来源于Journal of Experimental Social Psychology的一篇文章。这篇文章指出,处于物理上更高的地方的人,会更有道德,探讨了人的道德观和身高的关系(所谓的moral high ground)。

但是当Simonsohn看数据的时候,发现了异常的数据规律。三组数据中(物理高度:低,高,控制组),对应的被试道德感(给予他人辣酱的多少)的平均值虽然显著不一致(低:85.74,高:39.74,控制组:65.73),但是三组数据的方差近乎一致(25.09,24.58,25.65)。

okay,也许只是巧合。毕竟期刊的确喜欢接受和发表干净数据的文章(心理学**之1:偏见)。于是Simonsohn 去看看这篇文章作者(Lawrence Sanna)的其它文章和数据,发现了一样的数据规律。于是他告诉了文章作者的高校组织,Saana被迫撤回文章,辞职。

用观察方差的这种方法,Simonsohn揭发了另一个心理学家:来自Era**us University 的 Dirk Smeesters。而且,Simonsohn 发现他的数据除了方差太过接近,不可能来自随机样本,还发现了数据中另外一个异样。

有一个现象叫做小数定律:人类在需要随机产生一系列数字的时候,会过高的估计数字的分布覆盖,导致众数出现的**并不高。比如,你需要随机写下1到10之间12个数字,正常来说应该是:1,2,3,4,4,4,4,4,6,7,8,8.而其实作为人类,你会写下来:1,3,4,4,5,6,7,7,7,8,9,10。而当科学家数据**的时候,也会遵循这个规律。因此,观察数据分布的时候,我们可以观察数据的mode(众数)**,比如人类报告的数据中的众数是7 (出现了3次),而随机的是4(5次)。于是Simonsohn用这种方法**Dirk的数据,发现了在100,000的数据量中,众数的**才是21,太低了,因此数据不可能来自随机样本。一样的,Dirk Smeesters后来被迫撤回论文,在调查前辞职了。

怎么办呢?

正如文章开头说的,也许数据贮藏的氛围仍然是主流,但是改变正在发生。

我认为其中有两个因素至关重要

心理学科学社区的普及

近年来,整个心理学科学社区越来越看中开放科学,也越来越鼓励分享数据。

比如 Center for Open Science 推广的TOP guideline

心理学的**2:数据贮藏(Data Hoarding)TOP包**多个维度和多个**的准则,这些准则由期刊来遵守。选择遵守的期刊必须按照准则来要求递交文章的作者根据准则做事。

心理学的**2:数据贮藏(Data Hoarding)

心理学的**2:数据贮藏(Data Hoarding)针对于数据分享,拿第二点(Data Transparency)来说,最低的就是:没有要求---期刊可以鼓励数据分享,也可以什么都不要求。**的就是:数据必须放在**可信的存储,数据**可以被独立的第三方重复。

TOP的其中一个存在价值就在于,通过鼓励期刊接受遵守准则,从而强制科学家用开放的**做科学,进而普遍数据分享的学术**,促进心理学科学进步。

再比如,比较极端的由Richard Morey为主倡导的PRO

心理学的**2:数据贮藏(Data Hoarding)和TOP一样的是,它也有一系列准则,但是是加于reviewers,论文审稿人。参与PRO initiative的审稿人立志,如果一篇文章不遵守这一系列准则(包括分享数据),审稿人有权拒绝审稿。

2. 年轻科学家的成长和推广

俗一点说,开放科学的确是现在的学术潮流。Open Science is rad now. 同时,开放科学这种促进改变的活动,年轻科学家自然比老一代更加容易接受和认同。因此,一批年轻科学家自愿实行**科学(注册研究,数据分享等),也非常热衷于把open science发扬光大。

在此必须为我们Open Science Club和 ambassador of Center for Open Science做个**。希望对推广开放科学感兴趣的同行加入我们。

Sharon

写于2017年10月22日

reference:

1.Miller's tweet: https://twitter.com/MillerLabMIT/status/360368532774592512

2.Uri Simonsohn, "Just post it: The lesson from two cases of fabricated data detected by statistics alone," Psychological Science 24, no.10(2013): 1875-88, http://www.dx.doi.org/10.1177/0956797613480366.

3.Jelte M. Wicherts and Marjan Bakker. "Publish (your data) or (let the data) perish! Why not publish your data too?," Intelligence 40, n0. 2 (2012): 73-76, http://dx.doi.org/10.1016/j.intell.2012.01.004.

  • 发表于 2022-12-03 21:11
  • 阅读 ( 110 )
  • 分类:互联网

0 条评论

请先 登录 后评论
colxnh
colxnh

736 篇文章

你可能感兴趣的文章

相关问题