单细胞测序
单细胞测序
一、单细胞测序介绍
传统的测序方法是在多细胞水平上进行的,丢失了细胞异质性的信息。而单细胞测序在单细胞水平上进行,保留了细胞异质性的信息。传统测序方法所展示的信息也是在多细胞水平上的平均信息,而单细胞水平上的测序则完全可以反应同一个细胞群里不同细胞的基因组和转录组状况[1,2]。
目前,测序可以回答以下6类问题[2]:
- 1、DNA的序列:ATCG怎么排列,以及各序列的丰度;
- 2、DNA的表观遗传修饰:比如甲基化、羟甲基化,以及组蛋白的各种修饰;
- 3、RNA的序列:AUCG怎么排列,以及各序列的丰度;
- 4、RNA的表观遗传修饰:比如近年很火的m6A修饰;
- 5、染色质的结构:3C、4C、5C等;
- 6、其他应用:比如DNA损伤位置、蛋白-蛋白相互作用等。
二、信号丢失(droupout)
单细胞测序中的droupout,指的是由于测序技术本身的天然缺陷, 导致本应该表达的基因, 在测序技术中未被测到, 且该比例极高[3]。可分为两部分:
- 一部分是实际的细胞本身就不表达该基因,称之为True;
- 一部分是细胞实际上表达了,但是未被检测到,或者说表达量极少由于测序和比对误差导致的未被测到,这种情况称为False。
二、基于标签(barcode)的单细胞识别
单细胞测序的基本原理为基于标签(barcode)的单细胞识别。其核心思想是:在对每个细胞的mRNA测序前做逆转录时,为其加上独一无二的DNA序列(即标签序列)。当样本的RNA片段混合测序时,携带相同标签序列(barcode)的RNA片段视为来自同一个细胞。通过这种策略,可以通过一次建库,测得上万个单细胞的信息[1]。
给细胞加barcode的方案不同[2]:
- 转录组RNA:由于mRNA测序前需要做逆转录,只需要在poly T引物的5'端加入barcode即可。
- DNA(全基因组):目前主要是通过一种经过改造的高效转座酶(transposase)Tn5来实现。将barcode DNA预先和转座酶Tn5组装为转座复合物,再通过微流体技术将细胞和转座复合物包裹在一个油滴之中。随后,转座酶会把barcode插入到基因组DNA之中。这个过程在文献中也被成为tagmentation。
三、建库原理
目前,至少有20种以上的单细胞测序技术,并且各个技术之间存在极大的异质性[3]。目前具有代表性的两个主流技术为Smart-seq2和10X Genomic。
1、Smart-seq2技术[3]
建库原理:
- 细胞分选;
- 将分选出来的细胞进行裂解;
- 使用 OligoDT 将裂解后带有 polA 尾的 mRNA 进行反转录建库;
- 使用特殊的引物,对这些被捕获的 mRNA反转录出来的 cDNA 进行二链合成
- PCR扩增
- 标记(经过打断标记后的长度大约为 200-600bp,一般RNA-seq取200bp,DNA-seq取500bp)
- 测序:将cDNA打断后形成的转录本片段进行测序。
2、10X Genomic技术[1]
建库原理:
- 10× Genomics仪器将单个细胞与单个 10x 凝胶微珠(图1)通过油相混在一起,形成油包水的小微滴;
- 破掉细胞膜裂解细胞,让细胞中的mRNA游离出来;
- 游离mRNA与小微滴中的水相混合,也就是和逆转录酶、结合在凝胶微珠上的核酸引物、dNTP底物相接触;
- 逆转录反应:mRNA与凝胶微珠上带标签的DNA分子相结合,在逆转录酶的作用下,逆转录出cDNA。
- PCR扩增:把这个乳浊液当中所有的水相抽出来,也就是把所有带了标签的cDNA分子都抽出来,再把这些cDNA分子都加上接头,经过PCR扩增,做成illumina的测序文库;
- 测序:放到Illumina的测序仪上进行测序。10X Genomic技术技术一次可以同时得到大量的细胞数据,但只能得到mRNA信息,LncRNA大部分信息丢失,UMI技术能很好去除人为分析引入duplication及PCR引入SNP位点。同样对RNA质量要求高,降解同样会引起5'端信息丢失。
凝胶微珠(图1[2])上存在特定的DNA片段,DNA片段由三部分组成:Barcode、UMI、PolyT组成[1]。
- Barcode是16个碱基的长度。一共有400万种Barcode,一个微珠对应一种Barcode,通过这400万种Barcode,可以把凝胶微珠给区分开。
- UMI是一段随机序列,也就是说每一个DNA分子,都有自己的UMI序列。10个碱基长的UMI,有100万种序列的变化(4^10 = 1,048,576),UMI的作用是为了区分哪些reads是来自于一个原始cDNA分子,区分基因片段重复还是duplication及区分是真实的SNP位点还是PCR产生的突变。

四、PCR偏差
单个细胞含有约10pg total RNA,而约80%以上信息为rRNA,从单细胞RNA到cDNA文库意味着核酸的扩增量要达到百万倍以上。如果不加区分地进行逆转录,再扩增、建库,很可能测序得到的绝大部分序列都是rRNA的序列。但是一般情况下,我们更关心mRNA等编码基因的序列,rRNA序列不能带来有效的信息[1]。
- 例如:样本A和样本B的基因表达量是相同的,但扩增效率A是99%,B是97%,在扩增30个循环后,两者在扩增后的表达就有了1.84(0.99^30/0.97^30)倍的差异。而当分析差异基因的时候如果选1.5倍作为差异基因的标准,那么本来没有差异的基因也会表现出差异。
=================
参考文献
[1]单细胞测序技术原理——知乎. https://zhuanlan.zhihu.com/p/338965042
[2]单细胞测序扫盲:是什么?为什么?怎么做?——知乎. https://zhuanlan.zhihu.com/p/28844468
[3]单细胞-SingleCell)单细胞测序原理——知乎. https://zhuanlan.zhihu.com/p/340483768
最后编辑于 2022-10-09 · 浏览 2543