• 论坛首页
  • 我的丁香客
  • 精品栏目
    微话题
    微访谈
    病例挑战
  • 找人
    查找好友
    认证专家
    专家主页
    机构主页
    可能感兴趣
  • 随便看看
  • 更多
    丁香园
    丁香通
    丁香人才
    丁香会议
    丁香搜索
    丁香医生
    丁香无线
    丁香导航
    丁当铺
    文献求助
    医药数据库
    丁香诊所
    来问医生
登录 注册

生物信息

关注今日:19 | 主题:130524
论坛首页  >  生物信息学讨论版   >  Review on Discussion
  • 发帖
    每发1个新帖
    可以获得0.5个丁当奖励
  • 回帖

分享到:

  • 微信

    微信扫一扫

  • 微博
  • 丁香客
  • 复制网址

GEO数据库处理中的一些问题

  • 只看楼主
  • 页码直达:
  • 直达末页
楼主 duziteng
duziteng
铁杆站友

  • 37
    积分
  • 33
    得票
  • 231
    丁当
  • +1 积分
  • 1楼
这个帖子发布于9年零333天前,其中的信息可能已发生改变或有所发展。
近来用GEO中的数据,发现有些问题是要处理的:

1.首先要把探针强度和GPL 文件中的gene symbol或者mirna name对应起来
2.有些数据是没有做log2的,得自己做log2
3.像mirna array,一般都有不少缺失值NA,如果缺失的样本数超过了总样本数量的一半,就将这个mirna去掉。
4.GEO中数据好像是没有去重复的,所以还要把重复探针取平均值合并起来

请高手看看有什么遗漏的,或者需要补充的。
另外还有两个问题,我怎么判断数据有没有做过normalization 和log2

series_matrix中的数据都做过normalization?
探针强度在15及以下的,都是做过log2的?还是也有可能没做过?
  • 邀请讨论
  • 不知道邀请谁?试试他们

    换一换
2010-01-14 04:56 浏览 : 4095 回复 : 10
  • 投票 2
  • 收藏 18
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
duziteng 编辑于 2010-01-14 06:04
  • • 12 月首批博士招聘计划:20 省市 65 家单位高薪诚聘博士及博士后
meeter
meeter
常驻站友

  • 4
    积分
  • 7
    得票
  • 169
    丁当
  • +5 丁当
  • 2楼
回子疼兄:

你总结的很到位。芯片是否做过normalization可以参考Series_Matrix里的文本信息,没有的话再去找对应的文献。根据我的一些经验,一般Affy的芯片都是做过Normalization的。log2更简单,上千上万的肯定没做,有负数的肯定做过,自己多看几眼就有数了。
2010-01-15 15:44
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 筋膜炎如何彻底治愈
楼主 duziteng
duziteng
铁杆站友

  • 37
    积分
  • 33
    得票
  • 231
    丁当
  • 3楼
meeter
回子疼兄:

你总结的很到位。芯片是否做过normalization可以参考Series_Matrix里的文本信息,没有的话再去找对应的文献。根据我的一些经验,一般Affy的芯片都是做过Normalization的。log2更简单,上千上万的肯定没做,有负数的肯定做过,自己多看几眼就有数了。

Thanks very much
2010-01-16 00:36
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 2020第五届深圳国际电动牙刷产品展览会
hbcobo
hbcobo
入门站友

  • 0
    积分
  • 7
    得票
  • 42
    丁当
  • 4楼
duziteng
近来用GEO中的数据,发现有些问题是要处理的:
1.首先要把探针强度和GPL 文件中的gene symbol或者mirna name对应起来
2.有些数据是没有做log2的,得自己做log2
3.像mirna array,一般都有不少缺失值NA,如果缺失的样本数超过了总样本数量的一半,就将这个mirna去掉。
4.GEO中数据好像是没有去重复的,所以还要把重复探针取平均值合并起来
请高手看看有什么遗漏的,或者需要补充的。
另外还有两个问题,我怎么判断数据有没有做过normalization 和log2
series_matrix中的数据都做过normalization?
探针强度在15及以下的,都是做过log2的?还是也有可能没做过?
Ziteng兄,log2过的数据,如何使用呢?可以直接处理/对照=表达倍数吗?请指教。谢谢!!
2013-12-09 15:58
  • 投票
  • 收藏
  • 打赏
  • 引用
  • 分享
    • 微信扫一扫

    • 新浪微博
    • 丁香客
    • 复制网址
  • 举报
    • 广告宣传推广
    • 政治敏感、违法虚假信息
    • 恶意灌水、重复发帖
    • 违规侵权、站友争执
    • 附件异常、链接失效
    • 其他
  • • 医生眼中最幸福的 5 大科室,有你的吗?

关闭提示

需要2个丁当

丁香园旗下网站

  • 丁香园
  • 用药助手
  • 丁香通
  • 文献求助
  • 丁香人才
  • 丁香医生
  • 丁香导航
  • 丁香会议
  • 手机丁香园
  • 医药数据库

关于丁香园

  • 关于我们
  • 丁香园标志
  • 友情链接
  • 联系我们
  • 加盟丁香园
  • 版权声明
  • 资格证书

官方链接

  • 丁香志
  • 丁香园新浪微博
引用回复