• 论坛首页
  • 我的丁香客
  • 找人
    查找好友
  • 更多
    丁香园
    丁香通
    丁香人才
    丁香会议
    丁香搜索
    丁香医生
    丁香无线
    丁香导航
    丁当铺
    文献求助
    医药数据库
    丁香诊所
    来问医生
登录 注册

生物信息

关注今日:14 | 主题:139907
论坛首页  >  生物信息学讨论版   >  NGS & Microarray
  • 发帖
    每发1个新帖
    可以获得0.5个丁当奖励
  • 回帖

分享到:

  • 微信

    微信扫一扫

  • 微博
  • 丁香客
  • 复制网址

如何零代码实现芯片探针表达矩阵转化为基因表达矩阵?

  • 只看楼主
  • 页码直达:
  • 直达末页
楼主 本质骑士
本质骑士
常驻站友

  • 4
    积分
  • 24
    得票
  • 286
    丁当
  • 1楼

GEO下载到的标准化后的表达矩阵(Series Matrix File(s)文件)或是下载原始.CEL文件自己归一化后形成的表达矩阵,每行的标注是以探针的形式给出的,例如。


这样在分析差异基因之后,并不知道哪个探针对应哪个基因,希望能否先得到每行以基因形式标注的表达矩阵。

我在尝试了多种方法之后,发现GSEA桌面软件中集成的一个“CollapseDataset Page”小软件可以快速实现这一操作,故分享给大家。

在进行转化之前,需要准备两种文件:

  1. 将常规的表达矩阵转化为.gct形式的表达矩阵文件:只要在EXCEL里对原有表达矩阵进行加工即可,具体的格式要求如http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#GCT:_Gene_Cluster_Text_file_format_.28.2A.gct.29 所示。
  2. 提供.chip格式的探针与基因的对应关系表:这个表可以由GPL平台信息提供,如果嫌信息过时,也可由BLAST、生信人工具包等重新注释的方式得到;具体的格式要求如http://software.broadinstitute.org/cancer/software/gsea/wiki/index.php/Data_formats#CHIP:_Chip_file_format_.28.2A.chip.29 所示。一列是探针,一列是基因,两者的对应关系是:允许多个探针对应一个基因,但不允许一个探针对应多个基因(这种情况应该舍弃探针)。

安装并运行“GSEA v4.0.3 for Windows”(https://www.gsea-msigdb.org/gsea/downloads.jsp),进入界面后点击左侧栏目的“Load data”,会跳出加载标签页,将刚准备好的两个文件拖入加载框,再点“加载这些文件”按钮。

成功加载数据后,点击左侧栏目的Collapse Dataset小工具,会跳出该小工具的标签页。首先,在表达数据集下拉菜单中选取你刚才加载的表达矩阵;接着点击芯片平台右侧的“…”,选取网站上现成的chip文件或刚加载的自制chip文件;再接着选取“多个探针对应一个基因”的转换策略,目前使用较多的策略是:在每个样本中,如果有n个探针对应一个基因,那么就使用n个探针的中位数探针值作为该基因在这个样本中的表达量;因此,这里就选择“Median”;同理也可根据需要选择其他策略;下面可以继续设置分析的命名以及输出结果的文件夹。

最后点击“Run”,一般几秒钟就会运行完毕。

打开输出结果的文件夹,可以找到一个类似“_collapsed_to_symbols.gct”的文件,就是转化成功的基因级的表达矩阵文件。

可以根据需要,用EXCEL加工回常规的表达矩阵,用于下一步分析。

  • 邀请讨论
  • 不知道邀请谁?试试他们

    换一换
2020-02-23 01:46 浏览 : 3954 回复 : 8
  • 投票 3
  • 收藏 17
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 首张“新冠患者分子全景图”
dxy_q60kl362
dxy_q60kl362
内科
铁杆站友

  • 14
    积分
  • 177
    得票
  • 720
    丁当
  • 2楼
最简单的方法其实是用Excel的配对,2分钟搞定
2020-02-23 07:29 来自 Android客户端
  • 投票 1
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 公立医院月底急招:月均 1w 起,五险一金全
楼主 本质骑士
本质骑士
常驻站友

  • 4
    积分
  • 24
    得票
  • 286
    丁当
  • 3楼
NeHora
最简单的方法其实是用Excel的配对,2分钟搞定

但是没法解决“多个探针对应一个基因”的问题啊

2020-02-23 13:42
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 【原创】协和急诊进修故事系列之四:《白日暗火》
dxy_q60kl362
dxy_q60kl362
内科
铁杆站友

  • 14
    积分
  • 177
    得票
  • 720
    丁当
  • 4楼
本质骑士

但是没法解决“多个探针对应一个基因”的问题啊


继续用Excel呀,交集完了处理中位数或者最大值
2020-02-23 13:56 来自 Android客户端
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 误诊病例,等你来参与

关闭提示

需要2个丁当

丁香园旗下网站

  • 丁香园
  • 用药助手
  • 丁香通
  • 文献求助
  • 丁香人才
  • 丁香医生
  • 丁香导航
  • 丁香会议
  • 手机丁香园
  • 医药数据库

关于丁香园

  • 关于我们
  • 丁香园标志
  • 友情链接
  • 联系我们
  • 加盟丁香园
  • 版权声明
  • 资格证书

官方链接

  • 丁香志
  • 丁香园新浪微博
引用回复