• 论坛首页
  • 我的丁香客
  • 找人
    查找好友
  • 更多
    丁香园
    丁香通
    丁香人才
    丁香会议
    丁香搜索
    丁香医生
    丁香无线
    丁香导航
    丁当铺
    文献求助
    医药数据库
    丁香诊所
    来问医生
登录 注册

生物信息

关注今日:6 | 主题:139848
论坛首页  >  生物信息学讨论版   >  FTP & Source
  • 发帖
    每发1个新帖
    可以获得0.5个丁当奖励
  • 回帖

分享到:

  • 微信

    微信扫一扫

  • 微博
  • 丁香客
  • 复制网址

WGCNA分析详解专题(一)-发育调控

  • 只看楼主
  • 页码直达:
  • 直达末页
楼主 ScorpioGirls
ScorpioGirls
丁香园准中级站友

  • 145
    积分
  • 586
    得票
  • 209
    丁当
  • +1 积分
  • 1楼

WGCNA分析详解专题(一)

分析范围实例详解一:发育


此次讲解的文章信息如下:

  • Title:A novel microglial subset plays a key role in myelinogenesis in developing brain

  • Published Date:28 September 2017

  • Published Journal :The EMBO Journal(2017 IF: 10.557)

  • Author:


    • 第一作者:Agnieszka Wlodarczyk,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark(南丹麦大学), Odense, Denmark(丹麦)

    • 通讯作者:Trevor Owens,Department of Neurobiology Research, Institute for Molecular Medicine, University of Southern Denmark, Odense, Denmark


1.背景知识

Microglia:小胶质细胞。中枢神经系统 (central nervous system,CNS) 中的细胞大致分为两类:神经元(neurons)和神经胶质细胞(glial cells)。小胶质细胞是神经胶质细胞的一种,正常情况下,数量不多,主要分布在大脑、小脑的皮质以及脊髓的灰质中。主要功能:作为中枢神经系统固有的免疫效应细胞,针对刺激,形成活化的小神经胶质细胞,可表达各种抗原,行使抗原递呈细胞(APC)的功能。


2.数据使用(WGCNA分析使用数据)

数据情况如下:GSE78809(17个样本)

  • 新生儿Neonates-8N


    • 4个CD11C+

    • 4个CD11C-

  • 实验性自身免疫性脑脊髓炎experimental autoimmune encephalomyelitis ,EAE-6N:


    • 3个CD11C+

    • 3个CD11C-

  • 成年组adult-3N


    • 3个CD11C-

解读:主要有17个样本,每一个类别都有大于三个以上的生物学重复,有与大脑发育相关的新生儿组别和成年组别。


3.结果解读

文章中主要有8个结果,这里我们主要看WGCNA部分的结果,结果三。

结果3:Distinct gene signatures in microglia subsets during development and EAE


使用的数据:作者使用的是二代测序数据中所有基因表达的CPM值,WGCNA was applied to the count per million (CPM) expression data.


图A:样本关系聚类图,这里看到三个组成年组,新生儿组以及EAE组都分开了,并且组内的CD11c+和CD11c-也可以区分开。

疑问点:有意思的是作者用来做样本聚类的数值,我在文章找了老久没有看到图中横纵坐标的值是怎么算的,有知道的可以下方留言讨论哈。一般来说,对样本进行聚类可以做层次聚类和PCA分析,WGCNA常见的是层次聚类树。


图B:模块聚类树,图的上部分是对基因进行的聚类树,下面是根据相似性聚成的模块,文章中总共得到了7个模块,我们可以在图E中看到是那几个模块以及每个模块涉及到的功能。


图E:每个模块的基因数以及各个模块的功能,灰色模块是没有聚类到任何模块的基因集合。



图C:表型和模块相关性图,这里可以看出哪些模块和你关注的表型之间的关系是否显著



这张图需要用到一个很重要的表型数据,这里可以看到作者是如何将分类变量数值化的,文章中是这样描述的:

Six binary variables were generated that were used to calculate the module trait relationships in which all groups were set to zero with the exception of particular groups of interest:

  • control(1’s for microglia obtained from healthy control brain)

  • CD11c (1’s for both EAE CD11c and neonatal CD11c),

  • EAE (1’s for CD11c negative and microglia obtained from EAE brains),

  • neonatal (1’s for CD11c negative and microglia obtained from neonatal brains),

  • CD11c EAE, and CD11c neonatal.

翻译为表格就是:


对这张图的解读很重要,它关系到了你后面挑选的具体重点分析模块,以及你如何看这里面的正相关和负相关,曾经有个小伙伴问我:这里的负相关算相关么?我看到的大多数文章都是对正相关的结果进行的分析。

具体的模块与表型以及联合模块功能的解读这里就不详细说了,文章中描述非常详细,如何将所挖掘到的模块与发育联系起来。


总结

总结:作为技术层面的细节,这篇文章里可以看到用于WGCNA分析目的,WGCNA分析的样本数,组内重复样本数,用来分析的基因,用基因的什么值,表型数据如何数值化


之前,WGCNA针对常见分析结果出过一版图文详解专题,此次我会给出一个分析过程详解专题,大概包括以下这些内容吧:

  • 1.WGCNA适用于什么分析内容?

  • 2.做WGCNA分析我该使用什么数据,是NGS中基因表达的count值还是FPKM,还是都可以?芯片数据的基因水平的表达值?是否需要log转换?是否需要标准化?

  • 3.我该选取哪些基因进入分析?是全部的基因还是只用差异表达的基因还是经过了某种过滤手段后选取的一部分合理(为什么合理)的基因?

  • 4.多少样本量合适呢?怎么检测异常(离群样本),这些样本是删除还是可以进入后续分析?会给分析结果带来怎样的影响?

  • 5.如何选取softpower,在最初构建softpower的时候取值范围如何选择,用1-20还是什么?为什么?

  • 6.如何选取模块以及模块中的Hub基因?

  • 7.表型变量中的分类变量应该如何合理的数值化?

  • 8......................等等更多精彩解说。


我们下期见~

  • 邀请讨论
  • 不知道邀请谁?试试他们

    换一换
2020-02-11 20:22 浏览 : 4914 回复 : 4
  • 投票 2
  • 收藏 15
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
湖心 编辑于 2020-04-17 11:51
  • • 首张“新冠患者分子全景图”
40121167
40121167
麻醉科
铁杆站友

  • 10
    积分
  • 506
    得票
  • 410
    丁当
  • 2楼

楼主,他这个二分类变量是怎么赋值的,也就是行里面为什么有的是一,有的是零,规则是怎么制定的?我在网上找的基因芯片普遍存在没有原始数据的现象(我不是做肿瘤的),那么这些芯片如何进行数据挖掘,除了火山图,热图,go,KEGG,PPI以外,还有什么套路?我想做WGCNA但是没有表型数据,最多就是性别和生死,怎么深入下去?此外,从差异基因的取幂指,聚类树,表型的火山图的代码有没有?特别是针对二分类变量跑表型的火山图有没有特殊代码。我在网上弄的是Rgui,不是Rstudio,能不能发一份Rgui的代码?就是有setwd("XXX")

rt=read.table("XXX",sep="\t",header=T,check.names=F)这种。谢谢

2020-02-28 11:57
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 死亡患者危重讨论怎么写?
九九啪怕小医生
九九啪怕小医生
入门站友

  • 0
    积分
  • 93
    得票
  • 99
    丁当
  • 3楼

姐姐你好, 比如我从GEO中下载了一个 全癌的数据集,在前期准备数据的过程中,标准化过后,探针需要注释后去重,再去做WGCNA么?

2020-05-03 21:15
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 突发!传闻浙一有人投炸弹了,4人受伤
jingttinga
jingttinga
呼吸科
入门站友

  • 0
    积分
  • 10
    得票
  • 602
    丁当
  • 4楼

您好,我看WGCNA写的是样本至少15个,是指每组的样本都要15个以上吗?两组,一组30个,一组6个可以做WGCNA分析吗,谢谢

2020-06-29 14:28
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 广东省人民医院一胸外科80后医生猝死

关闭提示

需要2个丁当

丁香园旗下网站

  • 丁香园
  • 用药助手
  • 丁香通
  • 文献求助
  • 丁香人才
  • 丁香医生
  • 丁香导航
  • 丁香会议
  • 手机丁香园
  • 医药数据库

关于丁香园

  • 关于我们
  • 丁香园标志
  • 友情链接
  • 联系我们
  • 加盟丁香园
  • 版权声明
  • 资格证书

官方链接

  • 丁香志
  • 丁香园新浪微博
引用回复