dxy logo
首页丁香园病例库全部版块
搜索
登录

【原创】这几个非肿瘤临床数据库你不会不知道吧(三)

发布于 2021-05-23 · 浏览 6510 · IP 北京北京
这个帖子发布于 3 年零 343 天前,其中的信息可能已发生改变或有所发展。
icon推荐

【题外话】昨天绝对是个特殊的日子,青海云南两地地震,中国痛失两位院士。长沙市民自发对袁老的送别更是让人潸然泪下,原来真有与我们非亲非故的人,但他们的离开让我们痛心不已。逝者已逝,精神永存,深切缅怀两位前辈!

 

上两篇文章分别给大家介绍了MIMIC和NHANES数据库,有小伙伴就质问我了,说好的写给科研小白呢?可这两数据库分析起来都要有一定的编程基础,要学习R或SAS等软件。……我一时无言以怼,只能尴尬又不失礼貌的围笑,是我疏忽了。但今天分享的这个数据库我确定一定以及肯定适合科研小白,比纯牛奶还白的那种。

 这个数据库就是Dryad,全称是……,没有其他名字,Dryad就是全称。该数据库是2008年9月由美国国家科学基金会资助建立。主要目的是鼓励研究作者上传原始数据,使研究成果可被支持和被证实。该数据库包罗万象,储存了医学、生物学、生态学等数据。作为文章发表者,可以在这里上传数据,作为研究者,则可以在这里免费下载数据。而且,数据下载不需要申请,而且,数据下载后是excel格式。只要你下好了数据,想到好的idea,不用学习R语言,不用学习MySQL,直接导入SPSS,各种花式分析来一套,SCI就指日可待。

 要提醒的是,Dryad数据库里每个数据都有独一无二的DOI号,在使用了数据后记得引用原文和数据DOI。

 接下来,我就带大家逛逛这个宝藏数据库吧。首先,这个是它的主页。

img

右上方是个稍显小气的检索框,输入检索词就可以直接检索了。检索框下方四个导航栏,分别是检索数据,网站介绍,帮助,登录。从注册开始吧,既然想白嫖人家数据,注册个账号总是应该的。点击Login,来到注册ORCID账户。

 

img

小白肯定一脸黑人问号脸,ORCID是个什么鬼?ORCID是一个独特的标识符,记录你所有的学术活动,包括你发表的文章、参与的研究和资金支持等。大白话讲就是你的学术身份证,需要绑定你的邮箱。很多期刊都可以通过ORCID登录和投稿,所以注册一个对你百利无一害。按步骤填写就行,我就不赘述了。

 登录以后就可以在数据库检索,也可以在导航栏检索。有同学可能会问检索框和导航栏检索是不是重复了。大同小异吧,直接检索框检索,以“coronary heart disease”为例,是这个界面,最左边四个栏目是限制条件,分别是研究领域、地理位置、期刊和机构。用过Pubmed的小伙伴是不是有种似曾相识的感觉,先通过检索词检索,然后点左边的限制条件就可以快速筛选出想要的结果了。我就不一一演示了。 

img

而通过Explore data则出现这个界面,中间是检索框,左下还是那四个限制条件,只不过加了个可视化图标,右边则直接挂了幅地图,可以直接选择地点。总之,殊途同归,后一种花里胡哨,然并卵,确实有多此一举之嫌,到最后还是一样的界面。 

img

当检索到结果后,例如目前“coronary heart disease”有21个结果,任意点击一个标题,就可以看到利用该数据已经发表的文章标题、作者和摘要。右边 Data File 就是原始数据了。可以直接点击 Download dataset,一般是压缩文件,也可以点击下方日期,展示数据后下载。还是殊途同归,哈哈哈。下方related works 就是已发表的文章的DOI号,点击可直接跳转至原文。Metric 则是数据访问量和下载量。如果大家觉得文字描述不直观,可以去公众号 大话统计 搜索Dryad,可以找到视频讲解哦。

img

 

怎么样?整个数据库就这么简单明了,没有太过繁杂的信息,可以直奔主题下载数据。不知道你内心有何感想,反正我下载到第一份数据时,而且是excel格式时,好家伙,我直呼好家伙,相见恨晚的赶脚。 

But, this is a big but。天下真的有免费的午餐吗?浏览整个网站,仔细查看每个页面,你会发现,确实是个免费的午餐。只是这份午餐稍显简陋。第一,所有的数据都是别人用过的,所以我们只能看菜下饭,要找一个和原文截然不同的点子去挖掘数据。第二,这些数据的样本量普遍不大,很多只有几十几百个,当然也有少数上万的数据量。第三,当你真正使用数据,就会发现各种Bug。比如有些数据显示 embargo状态,因为人家的文章还没发表,这可以理解。比如有些作者只上传了文章的附件,并没有上传原始数据。最坑的是上传了原始数据,但是缺少一些关键变量。前段时间我自认为下载了一份堪称完美的数据,准备来一场说干就干的临床预测模型,用R语言各种分析,一顿操作猛如虎,分析过半,准备建模,结果发现数据竟然少了LVEF,而在原文的基线资料中却有这个变量。LVEF在心内的研究绝对是黄金地位,缺少这个变量,模型大打折扣。我也尝试给原作者发邮件,结果可想而知,最终只能扼腕惋惜。 

我后来又下载了不少数据,发现这个问题普遍存在,原文基线资料有的变量在原始数据找不到。至于为什么会出现这个情况,大家应该心知肚明吧。我们都乐于白嫖,却不愿于分享。我不是说谁,我是说在座的各位。大部分上传者都想着凭什么我的数据要给别人白嫖吧,但又碍于杂志要求,于是就……当然这也只是我的个人猜测而已,真实性有待考证。 

所以,为了防止空欢喜一场,我的建议是,当确定了方向后,在检索框输入你的检索词,直接点击Data File 下的日期,看看有没有xls格式的文件,没有的话直接看下一篇,有的话仔细阅读原文摘要,觉得有可以挖掘的点子才去下载数据。下载好数据,仔细比对原文的基线资料表,看有没有缺少关键变量。如果缺少的是无关紧要的变量,恭喜你,可以挖矿了,如果确实少了重要变量,那请转身吧。 

好了,个人能力有限,精力有限,接触的数据库就这几个,已经倾囊相授了。至于有小伙伴说的CHNS、GBD、UK Biobank/Chinabank数据库,请大家自行挖掘吧。那这么多数据库选哪个更好啊?小孩子才做选择,成年人都要。哈哈,开个玩笑,Dryad简单易上手,下好就能用,但缺点也很突出。MIMIC和NHANES数据庞大齐全,但对新手不友好,所以大家量力选择吧,切忌不要贪杯。大家有好用的数据库,欢迎留言啊。(转自 公众号 松哥科研笔记)

最后编辑于 2022-10-09 · 浏览 6510

6 478 64

全部讨论0

默认最新
avatar
6
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部