Excel工具箱实现转录/蛋白组学数据的跨表格数据提取

00 背景知识介绍
随着测序技术的发展,目前转录组测序,蛋白组测序,代谢组测序,微生物测序,单细胞测序在我们科研实践中的经常面对的。面对各种组学庞大的数据,如果分析自己的数据或对别人的数据再挖掘,对自身的科研进展十分重要。
今天,GBhouse就来讲一讲怎么挖掘各种组学测序结果感兴趣条目的深度挖掘方式-以蛋白组学为例。在面对蛋白组学结果时候,测序公司会给我们一个通用的注释报告,但是实践中,我们可能只需要对其中的某个通路,功能,疾病,代谢等进行深度分析,那么就涉及到其中条目数据的挖掘。
我们以蛋白组学的功能富集为例,组学结果被富集的功能可能很多,但是我们只关注其中的一个或几个,那么面对关注的通路,测序公司往往会把对应的蛋白进行简单罗列,但是其中的具体信息,例如氨基酸序列,不同组的表达高低等都没有很好的展示,其实也没有必要很详细的展示,因为测序公司已经放在raw data中。那么问题来了,如果想了解注释条目的具体蛋白信息,就需要将注释结果与raw data进行比对了,这就涉及到“跨表格相同数据的提取”。
1 找到感兴趣的条目
在这里演示使用 “term - mitochondria”的“target - 80”个条目进行实践操作。

(图1 找到感兴趣的条目)
2 EXCEL中处理感兴趣条目所有靶点
在这里的靶点是对应的蛋白的编号,当然如果是转录组的话,复制基因即可,代谢组学复制对应的代谢产物即可。
首先,我们将图1 “term - mitochondria”-“target - 80”-Protein的80个蛋白编号进行复制;
其次,在测序结果的原始excel数据中新建一个Sheet,保证sheet1和protein的同一列是对应的蛋白编号,并将80个蛋白粘贴至测序原始数据中的新建sheet1中;

(图2 测序结果的原始excel数据)

(图3 测序结果的原始excel数据新建Sheet1)
接着,sheet 1粘贴数据的分割(因为从图1粘贴来的数据它至在一个表格里边进行了数据填充), “选中A1-数据-分列”(图4),接着执行“分割符号”(图5),然后执行“Tab”和“分号”命令,在这里可在视图库中看到各个蛋白之间使用分号“;”隔开,可见复制的80个蛋白被竖线分割开(图6),再者执行“常规”命令,然后点击完成(图7);最后可见我们复制的80个蛋白在A1-CK1进行了分别填充(图8);

(图4 粘贴数据的分割操作)

(图5 分割数据执行“分割符合”)

(图6 执行Tab和分号分割命令)

(图7 执行常规命令)

(图8 80个粘贴的蛋白被分别填充至每一和表格中A1,B1,C1……)
最后,我们将sheet1中的数据进行“剪切-转置-粘贴”,注意,这里粘贴的过程还应该从A1开始,因为测序数据的第一行是条目名称;

(图9 sheet1数据处理后的展示形式)
3 原始数据打断
一个基因存在多种剪切方式,每一种剪接方式就对应一个蛋白,而我们功能注释到的蛋白是唯一的,在原始数据中可能每个基因的蛋白都被放在在一个表格中,所以需要执行分割命令。从图10可以看出,有的表格中填充的数个蛋白,因此需要分割。

(图10 每个填充表格可能对于的蛋白数量不是唯一)
首先,在这个原始数据表格中新建一个表格,在这里展示为sheet2,如图11所示;

(图11 测序结果的原始excel数据新建Sheet2)
接着,我们将proteins中的A列数据复制粘贴到sheet2的A列;

(图12 proteins A列粘贴至Sheet2的A列展示)
然后,执行2中的“接着”的分割命令操作,其实在同一次操作过重,excel会自动记住这些信息,可以选择默认即可。当然对于初学者可以多看看,还是有好处的。完成操作以后可见A列因分号“;”打断的几蛋白在同行不同列中的表格展示。

(图13 可见A列因分号“;”打断的几蛋白在同行不同列中的表格展示)
最后,我们把sheet2 A列数据粘贴复制到proteins中的A列,也就是新的数据将原来的数据全部覆盖。
4 工具箱实现跨表格数据提取
首先,工具箱实现跨表格同列相同数据的提取,执行“工具箱 – 按同列合并两表格”(图14);

(图14 工具箱提取两表格同列相同数据操作示意图)
接着,跨同列合并表格具体参数设置,首先确定当前的excel文档,接着把不同合并的数据表格选定,在这里选择的是sheet1 和 proteins两个表格;合并后表格内容保留或者删除设置,excel提供了四种模式,一般就是选择 “保留表格一记录”,因为表格一是感兴趣的目的蛋白,当然,也可以选择其它模式,例如都保留,大家都可以尝试一下(如果时间多的话)(图15)

(图15 跨表格提取同列相同数据设置)
最后,检查是否成功提取原始数据中感兴趣的蛋白信息。如果提取成功,可见原始数据中增加了我们感兴趣的目的蛋白,且他们对应的蛋白名称是一样(图16) 。

(图16 成功在原始数据中提出感兴趣的蛋白目录)
5 结束。
爱自己!!!做科研!!! 每文格言“马克 · 吐温说,你在形象上花的钱,会给你的学识、资历和教养点上传神的一笔。”如果有用,关注楼主GBhouse,点赞+讨论,攻击型人格请请请不要关注和阅读!!!