武汉博越致和生物科技有限公司
电话:027-87705460
传真:027-87705460
地址:武汉市高新大道666号光谷生物城C6栋3楼
发布时间:2018-10-16 点击数:次
在真核生物中,绝大多数基因在表达过程中被剪接产生多个转录异构体,急剧的增加了基因编码蛋白的能力;或者从同一基因剪接的异构体也可千差万别。在此之前,研究基因的表达主要还是利用二代测序技术,即RNA-Seq进行测序。但是,受限于RNA-Seq的读长短,所测得的序列不能跨越全长转录本,因此很难完整地获得不同剪接的转录本异构体,准确性也大打折扣。
三代全长转录组测序技术是结合PacBio测序仪超长读长与全长mRNA反转录的技术优势,通过平均读长可达10-20K的测序数据,采用单条测序数据完整跨越一个转录本的5'和3'端,因而实现数据无需组装即可进行分析,从而得到高质量的全长转录本信息。
基于三代的长读长优势可以精准的分析转录本异构体,并对可变剪切,基因融合,转录本起始位点,基因的表达进行准确分析。另外,结合三代测序长读长的优势还可以发现新的转录本,提高基因组的注释。
超长读长:平均读长可达10-20kb;
准确性高:测序准确度高达99.999(Qv50);
碱基偏好性低:测序不受GC比例影响。
实验背景:
“华夏一号”(Hx1)是利用PacBio测序平台绘制完成的首例亚洲人“金标准”参考基因组。目前二代测序平台用于个人基因组测序已经非常普遍,但由于读长较短,且人类基因组非常复杂,因此很难基于二代测序数据准确、完整的识别新的转录元件,特别是那些含有多种可变剪切的异构体。借助PacBio超长读长的优势,利用三代测序技术对首例亚洲人进行了全长转录组分析。由于PacBio长读长数据可以轻松跨越从5'端到3'端-polyA尾的完整转录本,因此可以准确鉴定异构体,并对可变剪接、融合基因、等位基因表达等进行精确分析。
实验设计:
该项目提取的RNA样本来自一个具有正常核型的中国健康成年人新鲜的血液,利用PacBio RSII 测序平台完成全长转录组测序,选用最佳的P6-C4试剂组合,研究人员们构建了4个不同的文库(1-2kb、2-3kb、3-5kb、和>5kb)(图1),每个文库测10-16个SMRT cells,共50个。利用CCS(Circular Consensus Sequencing)测序的方法,对这些转录本进行自我校正,较少错误率。
实验结果:
通过对原始的转录组数据进行分析发现,许多在Illumina的RNA-Seq测序数据中没有发现的转录本,且在GENCODE中也未报道过的,通过PacBio的Iso-Seq测序技术都能找到(图2),并通过Sanger测序对这些新发现的转录本进行验证,表明其都是真实存在的(图3)。该项目结果说明三代全长转录组测序不仅能找到更长更准确的基因可变剪切体,即使是已经深入研究的物种也能够发现其具有新功能的基因或新的异构体。该项目研究结果表明三代测序在全长转录本研究上具有非常明显的优势。
图1. 在PacBio RSII 测序的4个不同文库片段分布信息
图2.由Iso-Seq长读长数据检测得到的新基因(a. Iso-Seq数据比对到基因组的可视化,超过100条长读长reads可以比对到GRCh 38上的chr 20q13.12位点;b.预测转录本模型的USCS基因组可视化,这些转录本在Illumina的RNA-Seq测序数据中没有被检测到)
图3.左:PCR验证的转录本TCONS_0035154,可以检测到几个不同大小的PCR产物,表明存在不同的异构体;右:通过Sanger测序验证的由Iso-Seq预测得到的转录本
实验背景:
小麦具有6倍体基因组特征,作为多倍体,不仅基因组非常大(17Gb)而且很复杂(含有80%的重复区域),严重阻碍了其在基因组和转录组学水平上的研究(小麦AABBDD),高度的同源性也极大地限制了小麦在传统的转录组水平上的研究。为了克服二代转录组测序的短读长问题,借助PacBio测序平台的长读长优势利用Iso-Seq全长转录组测序技术直接检测小麦转录本的完整结构,所测数据无需组装。获取了高可信度的剪切位点和转录本模型,并在此基础上进行了基因剪切多态性分析,实现对小麦已有注释结果的进一步完善和提升,为解析小麦籽粒发育过程的重要基因提供了坚实基础。
实验设计:
该项目分别提取了小偃81在培养5,15和25天的总RNA样本,利用PacBio RSII平台的Iso-Seq技术和C3试剂完成全长转录组测序。研究人员们构建了2个不同的文库(<2kb,>2kb),共产生526,915条长读长reads。为进一步研究小麦籽粒发育期间差异调节的基因,研究人员还利用二代测序平台Illumina HiSeq 2000对RNA样本进行了测序,最终得到平均读长为101bp的短读长reads。
实验结果:
基于原始测序数据量,最终识别了3206个新基因,9591个新转录本,其中有180个转录本能够跨越之前已注释好的2-3个相邻的基因位点(图1)。研究人员应用RT-PCR对鉴定得到的新转录组进行了验证并证实这些转录本是真实存在的(图2)。此外,该研究数据还鉴别了6030个参与小麦籽粒发育期间差异调节的基因,以及72个小麦面筋蛋白基因的全长转录本,设计普通小麦最终用途的质量控制。该项目研究结果表明利用三代全长转录组测序数据可以很好地对已注释基因组进行修正和完善,并能促进结构基因组学和转录组学的研究。
图1.能够跨越已注释好的2-3个相邻基因位点的新转录本信息(A:转录本2BS_5155291.1.1覆盖了3个CS位点;PacBio识别的转录本1AL_3888283.1.2覆盖了2个CS位点)
图2. 通过RT-PCR识别验证的两个不同的转录异构体a和b(A:两个转录异构体的外显子和内含子区域分布信息;B:PT-PCR在S1-S4四个阶段验证的异构体a和b)
1.Shi L, Guo Y, Dong C, et al. Long-read sequencing and de novo assembly of a Chinese genome[J]. Nature Communications, 2016, 7:12065.
2.Dong L, Liu H, Zhang J, et al. Single-molecule real-time transcript sequencing facilitates common wheat genome annotation and grain transcriptome research[J]. Bmc Genomics, 2015, 16(1):1-13.