一文搞定生信分析强助攻-药物敏感性分析(oncoPredict包)
药物敏感性分析是生信数据挖掘常用的技能之一,目前做药敏分析最常见的就是两个R包:👉pRRophetic和oncoPredict。pRRophetic只适用于旧版本的R平台,最新版R平台使用这个包时可能会报错。这两个包的作者都是同一个人,oncoPredict可以看做是pRRophetic的升级版。两个R包的使用基本上思路一样,但使用的训练数据集不同。这里介绍oncoPredict包做药物敏感性的方法流程。
一、常用的药物数据库
常用的药物敏感数据库有GDSC、CTRP、CCLE、NCI-60、DepMap、Pharmacodb等等,在此便不做详细介绍了,可自行查询了解。
二、oncoPredict原理
这个R包的思路简单来说就是根据已知的细胞系表达矩阵和药物敏感性信息作为训练集建立模型,然后对新的表达矩阵进行预测,用于根据细胞系筛选数据预测体内或癌症患者药物反应和生物标志物。而这里已知的信息可以直接从上面提到的数据库下载。如果需要详细了解原理,建议阅读原文献。

三、oncoPredict药物敏感性分析
01.R包安装和配套训练数据下载
R包可以直接cran安装:install.packages("oncoPredict")
配套训练数据的下载入口: https://osf.io/c6tfx/ ,下载下来的训练数据就是以下几个,主要是GDSC1和GDSC2,以及CTRP的数据:CTRP提供了未经过log标准化的RPKM和TPM两种格式的表达矩阵,以及芯片格式的GDSC。

02.引用要用的R包,设置随机数种子使结果具有可重复性


03.读入用于处理好的预测的表达矩阵
(这里以TCGA数据库中的肺癌的TPM表达数据为例)、并转换为matrix。

04.读入训练集数据
简单看一下数据是什么样的(图1)。

CTRP2_Expr是TPM的表达矩阵格式,行是基因,列是细胞系,一共51847个基因,829个细胞系;CTRP2_Res是每个细胞系对每个药物的IC50值,行是细胞系,列是药物,一共829种细胞系,545个药物。

图1 训练集数据样式
05.预测药物敏感性
下面函数可以一次计算所有545种药物的敏感性,速度很慢,结果只能保存到当前工作目录下的calcPhenotype_Output文件夹中。也可以挑选感兴趣的药物进行预测分析,这样速度更快。

06.查看结果文件

结果文件为每个样本对每一个药物的IC50值(图2)。

图2 每个样本对每种药物
07.后续分析
如果我们的表达数据经过分析被分为高风险组和低风险组,我们可以从药物敏感性结果文件中取出感兴趣的药物,可视化IC50值在不同组间的差异(图 3)。或者根据药物IC50值将样本划分为耐药组和敏感组进行后续分析。


图3 不同组别对每种药物的敏感性差异
好啦,今天的内容分享到这里咯,有任何疑问欢迎添加我们的科研顾问助手咨询🙆!
最后编辑于 2024-12-12 · 浏览 2221