零成本发表JAMA子刊,经验细谈(0305更新)

近日发了一个经验分享,更加类似于写作过程的剖析,园子的小伙伴还挺热情,加上此前我也有其他利用公共数据库发文的经历(JAMA Network Open, Plos One),现下还有文章在写,所有多多少少算是有一些心得,给大家分享一下。
首先,明确利用公共数据库发文的目的是什么。这个目的一定是要来源于临床的,只有这样才能够发表有价值的论文,而不是为了发文而发文。我和我太太是有临床背景的,同时在基础研究方面能力有所欠缺(入门时没打下好底子),所以选择了这样一条路。做类似研究最终,我认为还是要朝着设计并执行好的临床研究方向去的,我本人除了公共数据库发文外,也用科室队列在专业期刊上发表了回顾性研究,但RCT实在太难了,目前还在起步阶段。
有了一个初步的想法,比如是关于心血管的危险因素的(此类文章不少),那么可以在已发表的论文方法部分寻找可能能用到的数据库以及研究策略。这里我要强调提前周密的查找参考文献的必要性,因为如果有疏忽,可能会导致后面的工作白费了。此处我太太有很深刻的教训,前面一段时间她一头是劲的作统计分析一个多月,到我参与的时候一查文献,发现就在半月前有一摸一样的结果发表(Fertility and Sterility,好像也是一区7+),连效应量都一样。所以大家一定要在这一点上避雷。
在明确方向以后,可以找一找数据库的官网进行研究。园子里有类似的课程进行教学,有需要的小伙伴可以参考。我个人是没有上那个课程的,因为我觉得发表类似的研究一个重要的因素是偶然,找到相关的暴露-结局关联且尚未被发表,这本身就是偶然的。小伙伴们可以做的是尽可能多的熟悉数据库里面有哪些变量,然后在平时多阅读文献临床上多思考,发现存在说不清楚的地方可以到这里来寻找答案。
以我熟悉的美国CDC官网给大家举例。NHANES是在园子里大家都知道的公共数据库,我本人第一篇paper也是用这个数据库发表的。这个数据库就是来源于CDC的官网,而在NHANES之上还有个数据集合NCHS,在这里可以搜索到基本是最为全面的健康/疾病相关数据了,比如有关于人群营养与环境因素的NHANES,有死亡相关的,有吸烟相关的,有出生相关的。每一个数据库的基本格局都较为类似,最为重要的是每个受试者所分配的ID,这个ID之所以重要是因为目前复杂一些的研究会结合两个数据库进行分析,尤其是可以获得死亡数据库权限的研究者可以分析慢病的长期生存结果。这个权限要如何取得大家可以参考一下数据库的guidebook。

NCHS下属的几个数据库
以上便是我分享的第一部分,供大家参考。有什么问题可以在评论区留言。
--------------------------------------------------------------------------------------------------------
近期赶毕业论文,小伙伴们在探索中遇到什么问题可以留言。
--------------------------------------------------------------------------------------------------------
2月18日更新
数据库的选择
选择数据库实际意味着选择研究的方向。这一点的确定对于整个研究来说是最为困难的,因为实际操作过程中面对如此多的数据往往是会感觉到无从下手。举例说明,在NHANES这个数据库中,涵盖的变量非常多,包括问卷调查结果、生物学检查几大类,点开右边的加号则可以看到每个大类下面的细分类。

以2017-2018年问卷调查数据的人口学结果来看,其中的变量就包括了入组者的ID、受访时年龄、性别、人种、居住地等基线资料,仔细观察还可以发现包括了受教育程度、婚育情况等等,这些变量十分重要,因为往往在进行暴露与结局关系的研究时需要此类资料作为协变量进行分析,甚至有研究就是研究了受教育程度与健康状况之间的关联。值得一提的是,很多健康相关变量也在这类资料中可以看到,比如用药情况、心血管健康状况、既往手术史等等,都是非常重要的协变量甚至本身就是可以作为暴露的变量进行研究的。各位小伙伴可以在这里找一找,看一看是否可以找到方向。


对于如何寻找自己的研究方向,我还有一个小小的建议,就是全面的查询文献,积极关注自己专业相关的顶刊/专业性期刊上的研究,对其中提到的limitation可重点关注,也许他们的某一句话就可以提醒你。
--------------------------------------------------------------------------------------------------------------
0305更新内容
近期工作较多,更新很慢,还望见谅。
主要也是没想好哪些内容要和大家分享。
之前提到的公共数据库虽然看起来很有诱惑力,但它能够提供的内容还是比较有限的,即Patients,一个高质量的队列数据来源。而一个好的研究,根据临床研究报告的PICOS protocol,还需要有Intervention,comparison, outcome &statistics。这几项都是需要小伙伴自己在实际操作中思考并且应用的。其中intervention部分在此类研究中可以为exposure,真正的干预较少,对照组则可以根据exposure的具体情况进行设置,但设置对照组是一项需要认真思考的工作,并非简单的非此即彼。举例说明,在一项研究fertility treatment与子代不良出生结局之间的关联时,fertility treatment作为exposure是毫无疑问的,但是对照组的设置如果仅仅为natural conceived baby,则在一定程度上忽视了两组之间一个重要的变量的作用,即infertility本身或许与子代不良出生结局之间存在一定关联。所以设置对照组并非简单的互补即可,而是将潜在危险因素都要考虑到,并且尽最大可能确保实验组与对照组之间仅存在exposure的差异。
要做到这一点非常困难,因为很多时候数据不一定都有,或者有了队列的样本量相差巨大,可能导致统计效应变小。
留个问题,在上面的example中,一个比较好的对照组是哪些人群?
最后编辑于 2022-03-05 · 浏览 8700