生信预测模型分析的分析经验分享：基因集整理需全面

胃肠病学医学生 · 发布于 2024-02-15 · IP 浙江浙江

3944 浏览

这个帖子发布于 1 年零 280 天前，其中的信息可能已发生改变或有所发展。

笔者于2021年自学R语言、生信。虽然错过了生信投稿的黄金时期、上车较晚，但还是在去年一年当中指导了3篇文章被接收（之前也有指导其他文章，但是内容是临床预测模型，比如SEER数据库挖掘）。

在投稿与审稿人的对线过程中，也总结出了一些经验。

对于生信预测模型的文章，一般都是专注于某某功能基因。比如，免疫基因，铁/铜死亡基因，焦亡基因，NK基因，代谢基因。

在确定好基因集后，我们需要使用多种渠道进行搜集，一般有以下几种渠道：

1 文献梳理汇总（特别适用于新的生物医学热点概念）；

2 全基因数据库（如GeneCards）;

3 特定功能基因数据库（如免疫数据库ImmPort）；

4 富集分析基因集数据库（如GSEA，KEGG的官网，提取相关通路）。

对以上的渠道，需进行综合整理。一旦遗漏关键的信息来源，就有可能被审稿人提出质疑。

例如，笔者去年3月，做好一篇胞葬基因的诊断模型分析。

但去年10月，在Frontiers分子生物学这本期刊审稿时，其中一位审稿人提出KEGG通路中的基因集此研究没有纳入。此外，审稿人还质疑有一个基因的OR置信区间上限达到了10的几次方。

本人查询KEGG数据库官网后发现，此通路为2023年5月底新增。此外，在GSEA数据库看不到此通路。

因此，使用爬虫的方式提取了所有的基因symbol名称。整个论文全部推翻重来。

幸亏由于本人业务比过往更加熟练，只用3天时间确定好了修正的模型。之后再陆续对图片进行细节的修正。

新的模型不仅确定纳入了更全面的基因集，并且逻辑回归的风险比OR及其置信区间也不存在异常值。

队友A在第三天拿到结果后，根据结果和他的同学一起重做和补充了生物学实验。所以，修改的进度也没有耽搁。

队友A的师妹在论文见刊后也很感谢我，重新帮他们弄好，满足了审稿人的意见。

反观我的队友B，简直就是发表论文的绊脚石。

队友B在投Frontiers免疫学这本期刊后，审稿人1和2均提出，我们的论文与之前其他学者发表在Frontiers旗下某期刊的论文，在选题、标志物方面均高度重合，缺乏研究的创新性。

在学习队友B给我发来的一个免疫治疗数据库时，我留意到GO数据库和Reactome数据库有焦亡通路。于是立刻将这两个数据库的基因集也作为筛选的变量，重新建模，修改了模型，降低了与前人研究结果的重复率。

结果他居然要求我把模型改回去，还要打电话跟他说（由于是网上搭的伙，平时我们都是打字交流）。

可是我已经覆盖了原先的代码，而且我也是在按审稿人的意见修改的。

我其他从事医疗行业的朋友也觉得我队友B的性格很奇怪，又要让文章见刊，又不听取审稿人合理的批评意见。

只能说，这种人没法和他沟通。

最后由于生物学实验进展缓慢的原因，队友B才同意将此篇论文从Frontiers投稿系统重撤下，等实验结束、实验部分撰写好，再递交其他出版社投稿。

总而言之，注意好数据分析中的各项细节，既能避免审稿人提出质疑，也能避免作者之间的内部矛盾。

4 10 4

全部讨论(0)