dxy logo
首页丁香园病例库全部版块
搜索
登录

生信预测模型分析的分析经验分享:基因集整理需全面

发布于 2024-02-15 · 浏览 2701 · IP 浙江浙江
这个帖子发布于 1 年零 78 天前,其中的信息可能已发生改变或有所发展。

笔者于2021年自学R语言、生信。虽然错过了生信投稿的黄金时期、上车较晚,但还是在去年一年当中指导了3篇文章被接收(之前也有指导其他文章,但是内容是临床预测模型,比如SEER数据库挖掘)。

在投稿与审稿人的对线过程中,也总结出了一些经验。

对于生信预测模型的文章,一般都是专注于某某功能基因。比如,免疫基因,铁/铜死亡基因,焦亡基因,NK基因,代谢基因。

在确定好基因集后,我们需要使用多种渠道进行搜集,一般有以下几种渠道:

1 文献梳理汇总(特别适用于新的生物医学热点概念);

2 全基因数据库(如GeneCards);

3 特定功能基因数据库(如免疫数据库ImmPort);

4 富集分析基因集数据库(如GSEA,KEGG的官网,提取相关通路)。

对以上的渠道,需进行综合整理。一旦遗漏关键的信息来源,就有可能被审稿人提出质疑。


例如,笔者去年3月,做好一篇胞葬基因的诊断模型分析。

但去年10月,在Frontiers分子生物学这本期刊审稿时,其中一位审稿人提出KEGG通路中的基因集此研究没有纳入。此外,审稿人还质疑有一个基因的OR置信区间上限达到了10的几次方。

本人查询KEGG数据库官网后发现,此通路为2023年5月底新增。此外,在GSEA数据库看不到此通路。

因此,使用爬虫的方式提取了所有的基因symbol名称。整个论文全部推翻重来。

幸亏由于本人业务比过往更加熟练,只用3天时间确定好了修正的模型。之后再陆续对图片进行细节的修正。

新的模型不仅确定纳入了更全面的基因集,并且逻辑回归的风险比OR及其置信区间也不存在异常值。

队友A在第三天拿到结果后,根据结果和他的同学一起重做和补充了生物学实验。所以,修改的进度也没有耽搁。

队友A的师妹在论文见刊后也很感谢我,重新帮他们弄好,满足了审稿人的意见。


反观我的队友B,简直就是发表论文的绊脚石。

队友B在投Frontiers免疫学这本期刊后,审稿人1和2均提出,我们的论文与之前其他学者发表在Frontiers旗下某期刊的论文,在选题、标志物方面均高度重合,缺乏研究的创新性。

在学习队友B给我发来的一个免疫治疗数据库时,我留意到GO数据库和Reactome数据库有焦亡通路。于是立刻将这两个数据库的基因集也作为筛选的变量,重新建模,修改了模型,降低了与前人研究结果的重复率。

结果他居然要求我把模型改回去,还要打电话跟他说(由于是网上搭的伙,平时我们都是打字交流)。

可是我已经覆盖了原先的代码,而且我也是在按审稿人的意见修改的。

我其他从事医疗行业的朋友也觉得我队友B的性格很奇怪,又要让文章见刊,又不听取审稿人合理的批评意见。

只能说,这种人没法和他沟通。

最后由于生物学实验进展缓慢的原因,队友B才同意将此篇论文从Frontiers投稿系统重撤下,等实验结束、实验部分撰写好,再递交其他出版社投稿。


总而言之,注意好数据分析中的各项细节,既能避免审稿人提出质疑,也能避免作者之间的内部矛盾。

最后编辑于 2024-02-15 · 浏览 2701

4 9 4

全部讨论0

默认最新
avatar
4
分享帖子
share-weibo分享到微博
share-weibo分享到微信
认证
返回顶部