当前位置：文档库 › 二代测序(NGS)实验方案计划和应用

二代测序(NGS)实验方案计划和应用

这里为您介绍二代测序的相关流程和应用。

随着人类基因组工程的完成，对于低花费的测序技术的需求促进了高通量二代测序技术的发展。这些新的测序平台允许进行高通量测序，具有广泛的应用：

?全基因组从头测序或者重测序

?目标序列重测序

?转录组分析

?微生物组研究

?基因调控研究

NGS 序列

二代测序仪器有很多种组合，在通量、片段长度、准确度、每一轮测序成本、每百万碱基对测序成本、初始成本、规格和技术方面存在存在差异。

从规格和初始成本的角度而言，二代测序仪器可轻松地分类为更窄的范围，也就是所谓的“台式测序仪”和高通量仪器。

台式测序仪使得任何实验室都可以像使用real-time PCR一样，自己进行测序。这些仪器可以和一些靶标序列富集技术相结合，用在一些临床的应用中，其中：选定的靶标基因用于深度分析，以检测稀有的突变，或者检测多样样本中（比如癌症样本）中的突变。目前，这些仪器的通量在10 Mb到7.5 Gb之间，但是随着硬件，软件和试剂的持续改善，通量也在稳步增加。

高通量测序仪非常适合于大量的，基因组范围的研究，每次测序能测定600 Gb的序列。一些这样的高通量和高精度的平台，能测定的片段长度相对较短，这对于高重复性的序列和未知基因组的从头测序就可能成为问题。与此相反，也有一些仪器能测序的片段较长（达到2500 bp），但是其精度和测序能力（90 Mb）要低很多。还有一些测序能力位于两者之间的仪器（~800 bp，700 Mb）。

因此，应用决定了哪一种仪器是最合适的。

有一种新的方法被称作“纳米孔测序”。这种技术中，根据一个DNA链通过一个合成的或者蛋白纳米孔道所引起的电流的改变，可以确定通过这个孔道的碱基。这理论上可以仅用一步就测序一个完整的染色体，而不需要生成新的DNA链。

DNA测序

二代DNA测序的工作流程如下：

?DNA样本制备

?文库构建和验证

?文库分子大规模平行克隆扩增

?测序

二代测序DNA样本的质量控制

首先，评价基因组DNA的质量是非常必要的（完整性和纯度）。

凝胶电泳法

基因组DNA的完整性和大小，可以用常规或者脉冲场琼脂糖凝胶电泳(PFGE)来检测。常规的凝胶电泳的精确度不高，这是因为大的DNA 分子在凝胶中移动的时候，本质上是用一种与尺寸无关的方式一起移动的。但是，它仍然能够提供完整性（大小范围）和纯度（RNA污染物在凝胶底部形成脱尾条带）方面的有效信息。因此，它仍然是评价基因组DNA质量的有效方法之一。

注：RNA污染会导致DNA浓度高估，并且抑制一些下游步骤。如果能肯定有RNA污染，则可使用去DNase的RNase I处理样本。

分光光度测定法

分光光度仪在260 nm和280 nm处读数的比例（A260/A280）可以用来估计DNA相对于一些吸收紫外光的杂质（比如蛋白）的纯度。纯净的DNA的A260/A280比例大约为1.7–1.9。

注：想要获得精确的A260/A280值，需要在弱碱性的缓冲溶液中测定吸光度(比如, 10 mM Tris?Cl, pH 7.5)。

第二个步骤是测定基因组DNA的浓度。

分光光度法

DNA的浓度可以通过使用分光光度仪测定其在260 nm波长的吸光度来确定。Nanodrop目前被广泛使用，因为它需要的样本量少(1 μl)，并且使用方便（不需要比色皿）。为了确保结果的可靠性，读数应该在0.1到1.0之间。

注：吸光度测定不能区别DNA和RNA。RNA污染物会导致DNA浓度高估。但是，纯净RNA的A260/A280比值在2.0左右，而纯净的DNA大约为1.8。因此，如果这个值为1.95，那么说明样本里面有RNA杂质。

注：苯酚在270–275 nm的波长范围内有最大的吸光度，非常接近于DNA。因此苯酚能提高样本在260 nm附近的吸光度，从而导致高估DNA的产量和纯度。

荧光法

荧光法使用荧光染料测定DNA的浓度，具有特异性和灵敏性。Hoechst 33258结合到DNA上后，能增大458 nm波长附近的发光强度，除此之外，也可以使用一些更加灵敏的荧光染料，比如PicoGreen染料。基于PicoGreen染料的实验，比紫外吸光光度法灵敏10，000倍，而比使用Hoechst 33258染料的方法至少灵敏400倍。和紫外吸光光度法不同，PicoGreen实验对双链DNA的选择性要远高于RNA 和单链DNA。

DNA标准品和样本与荧光染料混合，并且使用荧光计检测。将样本的测定结果与标准品的测定结果相比较，以确定DNA的浓度。

Real-time PCR

可以使用real-time PCR 技术来测定DNA样本的数量和质量。多重PCR技术使用引物集在多个位点扩增不同大小的片段，是检测DNA 损伤和片段化的有效质控手段。此类技术试验专门测定可经PCR扩增，适于二代测序的DNA分子。上述提到的这些常规方法，通常不能测定的样本中扩增得到的DNA的量，或者会高估了DNA的量。与它们相比，real-time PCR更加适用于预测DNA样本是否适合于二代测序。

文库制备

对于大多数商业化的二代测序平台，使用诸如桥式扩增或者乳液PCR方法，对文库中的DNA片段进行克隆扩增，以产生足够拷贝数量的测序模板非常必要。通过将平台特异性的适配子与感兴趣的DNA源（比如基因组DNA、双链cDNA或者PCR扩增子等所产生的DNA 片段）退火，得到片段文库。适配子序列的存在，使得我们可以对文库分子进行选择性的克隆扩增。因此，这种方法不需要像传统的方法那样，在微生物中间体中，对基因组片段进行微生物克隆。另外，适配子序列中，还含有平台特异性的测序引物的结合位点。

通常情况下，一个常规的DNA文库构建方案包含四步：

?片段化DNA

?对DNA片段进行末端修复

?连接适配子序列（不适用于单分子测序）

?对可选的文库进行扩增

目前有四种方法用于产生基因组DNA碎片：酶消化法、超声波法、喷雾法和水动力剪切法。这四种方法都可以用于文库构建，但是每一种方法都有其优点和局限性。核酸内切酶消化的方法快速并且容易，但是难以精确的控制片段长度的分布。另外这种方法可能会对基因组DNA的呈递引入偏倚。另外三种技术使用物理的方法将DNA的双链打断，这种断裂是随机的，因此能在文库中对DNA进行无偏的呈递。可以使用琼脂糖凝胶电泳或者自动化的DNA分析方法，对DNA片段的尺寸分布进行控制。

片段化DNA之后，需要将DNA修复，产生5’磷酸化的平末端DNA，以便能够和测序平台特异性的适配子相连接。文库构建的效率直接依赖于DNA末端修复的效率和准确性。

末端修复混合溶液将5’或者3’的粘性末端转变成5’磷酸化的平末端DNA。在大多数情况下，末端修复通过T4 DNA聚合酶的5’—3’聚合酶活性和3’—5’的核酸外切酶活性完成。而T4多聚核苷酸激酶确保平末端的DNA片段5’端的磷酸化，以便进行后续的适配子连接。

根据所使用的测序平台，平末端DNA片段可以直接与适配子连接，或者需要在其片段的3’端增加一个单独的突出的腺苷酸A，以便与平台特异性适配子上突出的胸苷酸T相互配对。通常情况下，使用Klenow片段（具有最低的3’到5’端的核酸外切酶活性），或者使用其它具有末端转移酶活性的聚合酶催化这一步骤。

T4 DNA连接酶将双链的适配子与文库片段修复过的末端相连，然后使用回收反应或者根据DNA的尺寸，选择性去除文库中未连接的适配子和适配子二聚体。大小筛选方法包括使用琼脂糖凝胶电泳分离，使用磁珠或者使用高等的基于柱的纯化方法。在连接过程中可能出现适配子的二聚体，它们会和与适配子连接的文库片段共同扩增，从而降低测序平台对真正文库片段测序的能力并且降低测序的质量，因此在测序之前，必须将它们从文库中除去。一些测序平台要求文库片段的长度分布在比较窄的范围内，以得到最佳的结果，很多时候，这只能通过去除凝胶电泳上的相应的片段条带实现。这种方法也可以用来去除适配子二聚体。

完成这一步骤之后，应该对DNA片段文库的质量进行检测，并进行定量检测。根据浓度和测序文库的适配子设计，既可以直接稀释溶液并用于测序，也可以对文库进行选择性扩增。在文库扩增阶段，使用高保真的DNA聚合酶，合成完整的适配子序列，通过与PCR引物的重叠，用于后续的克隆扩增和与测序引物结合，或者提高DNA文库的产量。为了得到最佳的文库扩增结果，要求DNA聚合酶具有高保真性和最小的序列偏倚。

文库质量评估方法，参见NGS文库质控。

为了充分利用测序能力，不同样本得到的测序文库可以放在一起，在同一轮实验中一同测序。通过将DNA片段与具有不同特征的适配子相连接，可以实现这一过程，即对于每一个样本使用不同的短核苷酸序列作为适配子。

有一些其它的方法可以用于简化文库构建。有一种新方法使用转位酶/DNA的复合物进行体外转座，以便在同一个试管中同时将DNA片段化并标记。通过对所标记的DNA片段进行有限次数的PCR扩增，可以构建完整的测序文库，这节省了操作步骤和时间。但是，使用体外转座构建的文库，与传统方法构建的文库相比，具有更高的序列偏倚。

NGS文库质控

高质量的文库是成功进行第二代测序的关键。文库构建包含复杂的步骤，比如片段化样本、修复末端、将末端腺苷酰化、连接适配子和扩增文库。根据使用的平台和文库类型，这些步骤也会发生变化。监控每一个步骤非常必要，包括在片段化样本之后检查片段的尺寸，以及连接适配子之后检查片段的大小和浓度。文库验证过程中，需要分析文库中片段的大小和数量，这是质控的最后步骤。

评估文库中片段的大小

琼脂糖和PAGE凝胶电泳是传统的检测片段大小的方法，它们比较耗时。

最近，基于微流技术的电泳或者毛细管电泳越来越广泛的用于检测片段的大小和浓度。即买即用的芯片和胶盒省去了配置凝胶的步骤，使用方便。它们具有更高的通量，并且省去了很多的手动操作时间。除此之外，它们的灵敏度更高（对于检测的限制更少），并且能完全自动化的获取数据和输出电子化的数据资料。这些仪器能同时检测片段的大小和浓度。

?测定文库中的片段数量

?分光光度法和荧光法

?参见分光光度法和荧光法

电泳设备

如前所述，基于微流技术的电泳和毛细管电泳除了提供片段大小的信息之外，还提供了定量检测数据。但是，电泳、分光光度法和荧光法的一个共同的局限性是，都只检测总的核苷酸的浓度，而非与适配子连接的分子的浓度。

Real-time PCR

将适配子连接到文库分子的两端，使得可以在平行的PCR扩增步骤中扩增上百万个独立的DNA分子（乳液PCR或者桥式PCR）。在有些仪器中，乳液PCR可以将一个DNA分子扩增到数百万个相同序列的拷贝，并全都结合在同一个珠子上。在另一种平台上，桥式PCR 能够将一个DNA分子转变成一个包含相同序列的多个拷贝的DNA簇。因此，两端连接了适配子的扩增之后的分子，决定了乳液PCR 中模板和珠子的比例以及桥式PCR中产生的最佳DNA簇。

对扩增后的文库中的分子进行精确的定量检测，对于确保片段的质量和高效的获得数据是非常重要的。低估扩增文库中的分子数量，会导致混杂的信号以及难以解析的数据；相反地，高估分子的数量会降低结合模板的珠子或者DNA簇的产量，并且没有充分利用测序能力。

Real-time PCR能够特异性的定量检测两端结合有适配子的DNA分子，因此能够对扩增文库中的分子进行高度精确的定量检测。

Real-time PCR的灵敏性非常高，可以对浓度非常低的文库分子进行定量检测，即使其浓度低于传统方法可以检测的阈值。因此，这种方法能尽量减少对文库的扩增，降低可能的偏倚。

用于决对定量检测的数字PCR

数字PCR能够对二代测序的文库进行绝对定量检测，而不需要标准品。这个技术对文库进行有限的稀释，并进行大量独立的PCR反应；

因此，大多数反应没有模板，得到阴性的结果。一个单独的阳性PCR反应统计为一个单独的模板分子。通过统计所有阳性PCR的数量，能够确定文库分子的绝对数目。数字PCR的主要优点在于：

?单分子的敏感性

?与PCR扩增的效率无关，因为成功的扩增被统计为一个分子，而与最终产物的数量无关

但是，这种技术需要特殊的仪器，并且花费较高，因此尚未广泛用于文库定量检测。

宏基因组学Metagenomics

DNA测序的应用领域之一是宏基因组领域，即从环境样本中直接回收的遗传物质的非培养研究。宏基因组学是指一个环境样本中所包含的所有微生物基因组的功能和序列分析。这个词汇起源于“meta”（在这里指对于基因多样性的系统性理解）和“genomics”（对一个物种的遗传物质的综合分析）。

宏基因组不是一个新的学科，但由于二代测序技术所带了的诸多可能性，宏基因组的应用经历了巨大的提升。

据估计，微生物中仅有1%左右是可培养的，因此宏基因组学的研究能极大的拓展我们对于环境的认识。

很多年以来，“宏基因组”这个词汇仅与环境样本的分析有关，比如，分析从极端的生存环境下分离得到的DNA，以便发现能用于工业的新的生物催化剂。但是，通量的极大提高，以及所花费的费用和时间的降低，将这个领域的应用扩展到了很多其他方面。

宏基因组学可分成几个领域，包括：

?病理基因组学/感染基因组学

?微生物组分析

?环境宏基因组学

注：这并不是全面的分类，研究者可以选择其他的分类标准。

病理基因组学/感染基因组学和疾病的诊断相关，用于确定有疾病症状的患者体内未知的病原体。这通常是极具挑战性的过程，因为微生物的数量可能非常少（每毫升血液中大概有1–10个细胞）。

与之相反，微生物组分析则涉及到数量巨大的微生物，比如口腔或者直肠拭子中的微生物。此时，我们的目标是分析这些菌群的组成。

考虑到人体仅包含1%的人类细胞而其它99%都是微生物细胞，微生物组分析在未来的诊断技术中有潜在的巨大应用。更多细节，请见人类微生物组工程(https://www.wendangku.net/doc/439024820.html,)。

环境宏基因组学的目标除了包括传统的寻找新的生物催化剂之外，还包括研究和鉴定栖息环境。

从理论上来讲，环境宏基因组学有两种不同的研究方法：

?全基因组分析：对所有存在的DNA进行测序

?16S分析：仅对16S rRNA DNA进行测序

第一种方法只是简单的对样本中存在的所有DNA进行测序。这可以完整地描绘所有出现过的微生物，并且可能发现新的酶或者酶家族，

以及抗生素的抗性。另一方面，这种方法需要较高的测序能力，因而，相对于第二种方法，其通量较低并且花费较高。与此相关的进一步的方法正在研发。

在宏基因组的应用中，通常需要能提供较高的片段长度的测序仪，这是因为通常没有参考序列可供参照。对于16S rRNA分析而言，测序仪的读长需要覆盖整个区域（另请参照二代测序仪）。

RNA 测序

RNA测序（RNA-seq）是使用深度测序技术来研究生物体转录组的方法。此方法在构建合适的文库之后，对样本中的RNA直接测序，得到丰富的数据集以进行分析。这项技术的高灵敏度和高分辨率使得它成为研究整个转录情形的有价值的工具。数据的定量性以及测序技术的高动态范围使得其对基因表达的分析具有高度的灵敏性。数据的单个碱基的分辨率提供了关于单核苷酸多态性(SNP)、选择性剪接、外显子/内含子边界、非翻译区及其它元件的详细信息。除此之外，RNA-seq不需要预先知道参考序列，这使得从头的转录组分析和新的变异体和突变体的检测成为可能。RNA-seq是研究转录组的强大、革命性方法，但是使用这种技术需要非常仔细以获得最高质量的数据。

RNA-seq中需要考虑的因素

第一个需要考虑的因素是样本富集。总RNA通常只包含比例很少的编码RNA或者功能RNA；样本中大部分RNA是核糖体RNA（rRNA：大约占到了总RNA的80–90%）和较少的转运RNA (tRNA)。为了避免将80–90%的测序资源用在重复的rRNA序列上，通常在测序之前，需要从样本中去除rRNA。这通常可以通过特定的消耗rRNA实现，也可以通过使用寡聚胸腺嘧啶富集技术选择性富集Poly A实现。消耗rRNA的方法可以同时保留编码RNA和非编码RNA（一项非常重要的研究内容）的信息，而Poly A富集则仅保留了编码mRNA。Poly A富集可能会丢掉特定的RNA和具有高转换率的RNA。

有一些其他的方法可以避免rRNA的影响，比如选择性降解大量转录物，或者不扩增rRNA的扩增技术。但是这些方法不像rRNA消耗或者poly A富集那么常见，并且可能扭曲转录物表征的正常水平。

另外一个需要考虑的因素是要研究的RNA的大小。RNA转录物跨越比较大的大小范围；与常规的RNA分析相比，关注小RNA的实验（比如microRNA或者长度范围在15–35bp的RNA），需要特别的纯化和文库构建方案。大多数其他大小的RNA片段可以同时测序（RNA 测序的常用步骤之一是将RNA分割成普通长度，比如200–300 nt长度的片段）。

RNA-seq测序操作步骤

一旦确定了移除核糖体的方法和要研究的片段大小，就可以将RNA构建成一个文库。对于大多数测序仪器而言，这包括首先将RNA打碎成片段，其次通过逆转录方法构建双链cDNA。在后续的文库构建过程中，这些双链的cDNA被当作普通的基因组DNA来对待。如果想要保留RNA的直接信息（链型），必须使用修改过的文库构建方案，比如将mRNA与连接适配子直接相连，或者标记cDNA的一条链以便在测序之前移除。

在进行测序计划过程中，需要考虑三个主要的因：测序深度、读长和是否使用双端测序数据。测序深度可以提供RNA转录物的丰度信息，并且较大的测序深度使得对于稀有转录物的检测更加灵敏。读长也很重要，因为较长的读段对于检测剪接事件更加灵敏（内含子–外显子边界，外显子–外显子边界）。双端测序数据能提供更多关于转录物结构的信息，特别是相互分隔的较远的外显子。一般而言，从头分析以及寻找新的结构变异要求较高的测序深度和读长，并且会得益于双端测序数据。典型的测序应用包含100–200 M片段，长度为2 x

50–100 bp。与之相反，表达分析得益于较高的测序深度，但是读长和双端测序数据则对结果的改善作用较小。这方面应用的一个典型实验包含10–30 M片段，读长为1 x 35–100 bp。

基因调控研究

二代测序技术也是研究基因调控网络的强有力的工具。比如ChIP-seq技术(染色质免疫共沉淀测序)可以用于分析蛋白-DNA的相互作用。二代测序技术也能用于确定基因组的全局甲基化模式。

ChIP-Seq

染色质免疫共沉淀技术(ChIP)是用于研究转录因子和修饰组蛋白基因调控机制的强大、多功能方法。这种技术用于确定活细胞中染色质上那些与转录因子、共调节因子、修饰组氨酸、染色质重塑蛋白或者其它的核因子相互结合的区域。

整个操作过程非常耗时，包含了很多步骤和变量，每一个步骤都需要研究者根据自己的模型体系进行优化。将细胞与甲醛交联之后，将染色质中共价相连的基因组DNA和核因子复合物分离出来，然后经过超声波处理，剪切成可以处理的大小。抗体与目标核蛋白特异性免疫共沉淀时，也将与这些核蛋白特异性结合的基因组DNA也沉淀下来了。去除化学交联并经过核酸纯化处理的这些DNA可用于测序、基于微阵列的基因组杂交或者PCR扩增。ChIP与二代测序技术联用（ChIP-Seq）可研究与感兴趣蛋白相结合的位点在基因组的范围内的分布。与微阵列分析(ChIP-Chip)相比，ChIP-Seq技术提供了较高的空间分辨率，动态范围和基因组覆盖度，因而它对于DNA结合位点的检测具有超级的灵敏度和准确度。另外，ChIP-Seq技术通常只要很少的起始样本输入量，并且不需要杂交探针，具有较高的灵活性，任何测序过基因组的物种都可以使用这种方法进行研究。

高效的ChIP-Seq过程需要优化几个关键的变量。首先，甲醛交联的温度和时间需要优化。如果蛋白和DNA交联的过于紧密，则在测序之前无法将染色质有效地打碎成片段，并且去除交联也会遇到困难。通常情况下，最好以在37°C下与1%的甲醛共培育10分钟起始，然后在此基础上进一步优化。

有几种不同的方法可以将染色质打成碎片，比如超声波和酶消化（比如使用微球菌核酸酶）。如果使用二代测序技术来分析免疫共沉淀的DNA，染色质碎片的大小应在大约100–300核苷酸长度范围内，并且每一个测试系统中（细胞的类型、组织的类型），将染色质打碎成片段的参数也需要严格优化。

ChIP实验的成功与否取决于所使用的抗体的量和特异性。最好选用能从多家抗体厂商处获得的，经过ChIP实验验证的抗体。为了确定抗体能特异性地沉淀目标蛋白，可以使用蛋白印迹技术检测核提取物。如果在结果中，仅能观察到一条特定大小的条带，则可认为该抗体是特异性的。使用选定的抗体进行免疫共沉淀，然后通过蛋白印迹分析技术确定抗体是否能特异性的沉淀目标蛋白。如果这样的实验失败了，那么还可以将选定的抗体与培养的细胞进行免疫荧光试验。如果仅有细胞核显色，则说明抗体至少能特异性的识别一种位于细胞核内并可结合到DNA上面的蛋白。

根据目标蛋白的丰度，经过验证的抗体的量以及用于免疫共沉淀的染色质的量必须经过优化，以便获得足够的DNA进行测序。对于识别组蛋白和组蛋白修饰的抗体而言，每一次免疫共沉淀反应大概需要100，000到1百万个细胞中的染色质。如果转录因子与DNA结合的动态性较高或者与组蛋白相比，仅在有限的基因组位点上结合，那么实验就需要更多的染色质。为避免多余的抗体与非目标蛋白和染色质的非特异性结合，同时保证能沉淀足够多的目标蛋白，每一次免疫共沉淀反应使用的抗体的数量也非常重要。通常而言，1–10 μg的抗体即可得到合理的结果。

可以用对照反应来比对ChIP反应的特异性。在平行的ChIP反应中，使用同样数量的染色质，可以使用同型的对照抗体或者没有抗体的珠子用来比照抗体和珠子与蛋白和染色质的非特异性的结合。通过比较阴性对照样本和ChIP样本中在特定位点沉淀的DNA的量，能计算这个位点的富集因子。但是，在这种免疫共沉淀对照实验中得到的沉淀物的量通常很少，不足以提供足够的片段进行二代测序。因此，ChIP-Seq实验通常使用输入对照样本作比对。在这种情况下，每个ChIP反应中通常有1%交联并且打碎的染色质被用来去除交联并且与沉淀的样本一同纯化并进行后续的深度测序。这使得我们可以比对由于打碎染色质所引起的偏移，这些偏移表现在染色质的局部结构，DNA扩增，测序，拷贝数量的变化，以及测定基因组区域的能力。

在沉淀的DNA碎片去除交联和纯化之后，建议使用real-time PCR技术确认与目标蛋白结合的基因组位点的回收和富集效果。通过比较

输入对照组与ChIP样本的qPCR结果，可以计算出输入物质的回收比例（ΔC T方法）。如果使用了同型对照抗体样本（或者空白珠子的对照样本），则可以与ChIP样本相互比对，以进一步对qPCR技术检测到的位点的富集进行定量分析(ΔΔC T方法)。

为了能稳定地构建二代测序文库，至少需要10 ng的ChIP DNA。因此，必须仔细的定量免疫共沉淀得到的DNA。但由于每一次ChIP 反应得到的总的DNA量通常很低，因此需要比吸光光度定量法更加灵敏的方法。荧光测定方法（比如使用PicoGreen）在定量ChIP DNA 时具有较高的灵敏度和动态范围。如果仍然没有得到足够的DNA，可将从几次ChIP反应所得到的所有物质可以放到一起，用来构建一个测序文库。

由于用于构建文库的起始材料的数量非常低，因此在片段与测序适配子连接之后对其进行扩增很有必要。这通常需要16–18轮PCR。太多轮的扩增会降低文库的复杂性，因此需要确定得到足够材料所需的最少PCR轮数。

在确定文库的品质（使用一些商业化的仪器，比如QIAxcel或者Bioanalyzer）和浓度（比如使用qPCR技术）之后，需要使用乳液PCR （emulsion PCR, Ion Torrent）或者桥式PCR技术（bridge PCR, illumina）对文库进行进一步的扩增，然后才能用于最后的深度测序。通常而言，较短的25–36核苷酸长度的单个读段对于定位目标蛋白在基因组上的结合位点就已经足够了。但是，为了能够定位更困难的区域（比如重复区域），也可以使用双末端测序方法（2 x 25的核苷酸长度或者2 x 36的核苷酸长度）。所需要的总的测序读段取决于与因子结合的基因组位点的数目。对于转录因子而言，它们仅仅和基因组上有限的几个位点相结合，5百万–1千2百万读段可能足够了。而如果要分析修饰后的组蛋白，由于它们结合在基因组更广泛的区域上，因此需要更多的测序读段。通过增加测序读段的数量，能够改进分析的灵敏性，从而确定亲和力更弱的位点。一些免费的软件（比如MACS）能用来确定比统计水平具有更多读段的基因组区域（与局部本底相比或者与单独测序的输入对照样本相比）。对于这样的数据，上述的软件能够产生一个列表，显示那些显著增加的目标蛋白的结合位点。

细胞收集，超声波参数和ChIP富集得到的基因组DNA的real-time PCR分析的优化都需要通过实验来确定。

基于序列的甲基化分析请参考关于表观遗传学的试验方案和应用指南部分。

DNA测序结果分析

学习通常一份测序结果图由红、黑、绿和蓝色测序峰组成，代表不同的碱基序列。测序图的两端（本图原图的后半段被剪切掉了）大约50个碱基的测序图部分通常杂质的干扰较大，无法判读，这是正常现象。这也提醒我们在做引物设计时，要避免将所研究的位点离PCR序列的两端太近（通常要大于50个碱基距离），以免测序后难以分析比对。我的课题是研究基因多态性的，因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。实际上，要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。由于临床专业的研究生，这些东西是没人带的，只好自己研究。开始时大概的知道等位基因位点在假如在测序图上出现像套叠的两个峰，就是杂合子位点。实际比对了数千份序列后才知道，情况并非那么简单，下面测序图中标出的两

个套峰均不是杂合子位点，如图并说明如下：说明：第一组套峰，两峰的轴线并不在同一位置，左侧的T峰是干扰峰；第二组套峰，虽两峰轴线位置相同，但两峰的位置太靠近了，不是杂合子峰，蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成，此处的序列被机器误判为“C”，实际的序列应为“A”，通常一个高大碱基峰的前面1～2个位点很容易产生一个相同碱基的干扰峰，峰的高度大约是高大碱基峰的1/2，离得越近受干扰越大。一个摸索出来的规律是：主峰通常在干扰峰的右侧，干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较；一个位点的多个样本相比较；你得出的该位点的突变率与权威文献或数据库中的突变率相比较。通常，对于一个疑似突变位点来说，即使是国际上权威组织大样本的测序结果中都没有报道的话，那么单纯通过测序结果就判定它是突变点，是并不严谨的，因一份PCR产物中各个碱基的实际含量并不相同，很难避免不产生误差的。对于一个未知

一代、二代、三代测序技术

一代、二代、三代测序技术 (2014-01-22 10:42:13) 转载第一代测序技术-Sanger链终止法一代测序技术是20世纪70年代中期由Fred Sanger及其同事首先发明。其基本原理是，聚丙烯酰胺凝胶电泳能够把长度只差一个核苷酸的单链DNA分子区分开来。一代测序实验的起始材料是均一的单链DNA分子。第一步是短寡聚核苷酸在每个分子的相同位置上退火，然后该寡聚核苷酸就充当引物来合成与模板互补的新的DNA链。用双脱氧核苷酸作为链终止试剂（双脱氧核苷酸在脱氧核糖上没有聚合酶延伸链所需要的3－OH基团，所以可被用作链终止试剂）通过聚合酶的引物延伸产生一系列大小不同的分子后再进行分离的方法。测序引物与单链DNA模板分子结合后，DNA聚合酶用dNTP延伸引物。延伸反应分四组进行，每一组分别用四种ddNTP（双脱氧核苷酸）中的一种来进行终止，再用PAGE分析四组样品。从得到的PAGE胶上可以读出我们需要的序列。第二代测序技术-大规模平行测序大规模平行测序平台（massively parallel DNA sequencing platform）的出现不仅令DNA测序费用降到了以前的百分之一，还让基因组测序这项以前专属于大型测序中心的“特权”能够被众多研究人员分享。新一代DNA测序技术有助于人们以更低廉的价格，更全面、更深入地分析基因组、转录组及蛋白质之间交互作用组的各项数据。市面上出现了很多新一代测序仪产品，例如美国Roche Applied Science公司的454基因组测序仪、美国Illumina公司和英国Solexa technology公司合作开发的Illumina测序仪、美国Applied Biosystems公司的SOLiD测序仪。Illumina/Solexa Genome Analyzer测序的基本原理是边合成边测序。在Sanger等测序方法的基础上，通过技术创新，用不同颜色的荧光标记四种不同的dNTP，当DNA聚合酶合成互补链时，每添加一种dNTP就会释放出不同的荧光，根据捕捉的荧光信号并经过特定的计算机软件处理，从而获得待测DNA的序列信息。以Illumina测序仪说明二代测序的一般流程，（1）文库制备，将DNA用雾化或超声波随机片段化成几百碱基或更短的小片段。用聚合酶和外切核酸酶把DNA片段切成平末端，紧接着磷酸化并增加一个核苷酸黏性末端。然后将Illumina测序接头与片段连接。（2）簇的创建，将模板分子加入芯片用于产生克隆簇和测序循环。芯片有8个纵向泳道的硅基片。每个泳道内芯片表面有无数的被固定的单链接头。上述步骤得到的带接头的DNA 片段变性成单链后与测序通道上的接头引物结合形成桥状结构，以供后续的预扩增使用。通过不断循环获得上百万条成簇分布的双链待测片段。（3）测序，分三步：DNA聚合酶结合荧光可逆终止子，荧光标记簇成像，在下一个循环开

全基因组重测序数据分析

全基因组重测序数据分析 1. 简介(Introduction) 通过高通量测序识别发现de novo的somatic和germ line 突变，结构变异-SNV，包括重排突变（deletioin, duplication 以及copy number variation）以及SNP的座位；针对重排突变和SNP的功能性进行综合分析；我们将分析基因功能（包括miRNA），重组率（Recombination）情况，杂合性缺失（LOH）以及进化选择与mutation之间的关系；以及这些关系将怎样使得在disease（cancer）genome中的mutation产生对应的易感机制和功能。我们将在基因组学以及比较基因组学，群体遗传学综合层面上深入探索疾病基因组和癌症基因组。实验设计与样本（1）Case-Control 对照组设计；（2）家庭成员组设计：父母-子女组（4人、3人组或多人）；初级数据分析 1．数据量产出：总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计，测序深度分析。 2．一致性序列组装：与参考基因组序列（Reference genome sequence）的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。3．SNP检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4．InDel检测及在基因组的分布: 在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。 5．Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。

高通量测序生物信息学分析(内部极品资料,初学者必看)

基因组测序基础知识㈠De Novo测序也叫从头测序，是首次对一个物种的基因组进行测序，用生物信息学的分析方法对测序所得序列进行组装，从而获得该物种的基因组序列图谱。目前国际上通用的基因组De Novo测序方法有三种： 1. 用Illumina Solexa GA IIx 测序仪直接测序； 2. 用Roche GS FLX Titanium直接完成全基因组测序； 3. 用ABI 3730 或Roche GS FLX Titanium测序，搭建骨架，再用Illumina Solexa GA IIx 进行深度测序，完成基因组拼接。采用De Novo测序有助于研究者了解未知物种的个体全基因组序列、鉴定新基因组中全部的结构和功能元件，并且将这些信息在基因组水平上进行集成和展示、可以预测新的功能基因及进行比较基因组学研究，为后续的相关研究奠定基础。实验流程：公司服务内容 1.基本服务：DNA样品检测；测序文库构建；高通量测序；数据基本分析（Base calling，去接头，去污染）；序列组装达到精细图标准 2.定制服务：基因组注释及功能注释；比较基因组及分子进化分析，数据库搭建；基因组信息展示平台搭建 1.基因组De Novo测序对DNA样品有什么要求？

(1) 对于细菌真菌，样品来源一定要单一菌落无污染，否则会严重影响测序结果的质量。基因组完整无降解(23 kb以上)， OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；每次样品制备需要10 μg样品，如果需要多次制备样品，则需要样品总量=制备样品次数*10 μg。 (2) 对于植物，样品来源要求是黑暗无菌条件下培养的黄化苗或组培样品，最好为纯合或单倍体。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (3) 对于动物，样品来源应选用肌肉，血等脂肪含量少的部位，同一个体取样，最好为纯合。基因组完整无降解(23 kb以上)，OD值在1.8～2.0 之间；样品浓度大于30 ng/μl；样品总量不小于500 μg，详细要求参见项目合同附件。 (4) 基因组De Novo组装完毕后需要构建BAC或Fosmid文库进行测序验证，用于BAC 或Fosmid文库构建的样品需要保证跟De Novo测序样本同一来源。 2. De Novo有几种测序方式目前3种测序技术 Roche 454，Solexa和ABI SOLID均有单端测序和双端测序两种方式。在基因组De Novo测序过程中，Roche 454的单端测序读长可以达到400 bp，经常用于基因组骨架的组装，而Solexa和ABI SOLID双端测序可以用于组装scaffolds和填补gap。下面以solexa 为例，对单端测序(Single-read)和双端测序(Paired-end和Mate-pair)进行介绍。Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，引物序列连接到DNA片段的一端，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列(图1)。 Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序(图2)。图1 Single-read文库构建方法图2 Paired-end文库构建方法

2017年二代基因测序市场分析报告

二代基因测序市场分析目录一、二代测序资本市场融资火爆二、二代测序为何如此受市场追捧？三、测序市场当前现状及存在的问题四、未来趋势判断及启示一、二代测序资本市场融资火爆在整个体外诊断市场，生化和免疫经过多年的发展，市场格局已基本形成；分子诊断目前市场规模还不大，但增速较快，潜力被广泛看好。在分子诊断的不同技术平台中，又以近两年随着“精准医疗”概念迅速崛起的二代测序（NGS）领域最受关注，国内就存在上百家同类企业，且资本市场融资火爆，估值也是居高不下。简单梳理了几个较有代表性的融资案例如下： 1、华大基因华大基因是国内基因测序领域的领导者，在NGS产业链上、中、下游均有所布局。2012 年-2015 上半年营收分别为7.95亿、10.47亿、11.32亿、5.65亿，净利润对应8500万、1.73亿、5900万，8200万。2015 年最近一轮融资引进PE机构以191 亿估值作为增资及转让的定价基础，引入和玉高林及中国人寿，融资20 亿元，投后估值210亿。而华大基因按照其IPO的计划定价得出估值约为156亿元，相当于相较一级市场的估值，华大基因的估值实际已缩水超过50亿元，出现了一二级市场的倒挂。

2、贝瑞和康贝瑞和康成立于2010 年，利用二代测序平台，在NIPT 领域占据了主要的市场，全国100 家医疗机构获得NIPT 试点资格，70％使用贝瑞和康的仪器及试剂。2015 年底最近一轮融资估值100 亿，融资金额 3.3 亿左右，引入了海通兴泰、尚融宁波、中信锦绣等机构；2016 年12 月，上市公司天兴仪表作价43 亿元购买贝瑞和康100％股权，若交易完成，贝瑞和康将成功借壳上市。值得关注的是，贝瑞和康43 亿的借壳价与此前一级市场百亿估值相比，有着较大的出入，同样出现了一二级市场的倒挂，其原因在于市场对贝瑞和康的预期降低还是之前PE入股时估值过高，也是值得思考推敲的。 3、碳云智能 2015 年10 月成立，由原华大基因CEO 王俊等联合创办，定位在“医疗+人工智能”方向，运用人工智能技术进行数据处理，目标是打造智能健康管理大数据平台。成立半年左右，即2016 年3 月完成A 轮融资，融资金额10 亿元，估值约65 亿元，腾讯、中源协和、天府集团等机构领投。碳云智能所锚定的大数据积累及解读这个细分相对而言存在一定的门槛，是未来的一个发展方向，但存在的难度及障碍也很大，还有很漫长的路要走。天使期就以如此高的估值融到资更多的还是王俊的“名人”效应，但即使是65 亿的高估值，王俊依然表示：这只是碳云智能最便宜的时候。 4、燃石医学 2014 年成立，定位于基于NGS 平台的肿瘤精准医疗基因诊断领域，产品线包括基于组织层面的靶向药物用药指导、易感基因筛查及液体活检，目前以LDT的形式进行检测。2015 年下半年曾以15 亿估值获投资机构1.5 亿元投资，今年正以30 亿估值融资2 亿元，进展未知。

(完整)高通量测序(NGS)数据分析中的质控

高通量测序错误总结一、生信分析部分 1）Q20/Q30 碱基质量分数与错误率是衡量测序质量的重要指标，质量值越高代表碱基被测错的概率越小。Q30代表碱基的正确判别率是99.9%，错误率为0.1%。同时我们也可以理解为1000个碱基里有1个碱基是错误的。Q20代表该位点碱基的正确判别率是99%，错误率为1%。对于整个数据来说，我们可以认为100个碱基里可能有一个是错误的, 在碱基质量模块报告的坐标图中，背景颜色沿y-轴将坐标图分为3个区：最上面的绿色是碱基质量很好的区，Q值在30以上。中间的橘色是碱基质量在一些分析中可以接受的区，Q值在20-30之间。最下面红色的是碱基质量很差的区。在一些生信分析中，比如以检查差异表达为目的的RNA-seq分析，一般要求碱基质量在Q在Q20以上就可以了。但以检查变异为目的的数据分析中，一般要求碱基质量要在Q30以上。一般来说，测序质量分数的分布有两个特点： 1.测序质量分数会随着测序循环的进行而降低。 2.有时每条序列前几个碱基的位置测序错误率较高，质量值相对较低。

在图中这个例子里，左边的数据碱基质量很好，而右边的数据碱基质量就比较差，需要做剪切（trimming），根据生信分析的目的不同，要将质量低于Q20或者低于Q30的碱基剪切掉。

2）序列的平均质量这个是碱基序列平均质量报告图。横坐标为序列平均碱基质量值，纵坐标代表序列数量。通过序列的平均质量报告，我们可以查看是否存在整条序列所有的碱基质量都普遍过低的情况。一般来说，当绝大部分碱基序列的平均质量值的峰值大于30，可以判断序列质量较好。如这里左边的图，我们可以判断样品里没有显著数量的低质量序列。但如果曲线如右边的图所示，在质量较低的坐标位置出现另外一个或者多个峰，说明测序数据中有一部分序列质量较差，需要过滤掉。

二代测序数据分析软件包大全

二代测序数据分析软件包大全 Integrated solutions * CLCbio Genomics Workbench - de novo and reference assembly of Sanger, Roche FLX, Illumina, Helicos, and SOLiD data. Commercial next-gen-seq software that extends the CLCbio Main Workbench software. Includes SNP detection, CHiP-seq, browser and other features. Commercial. Windows, Mac OS X and Linux. * Galaxy - Galaxy = interactive and reproducible genomics. A job webportal. * Genomatix - Integrated Solutions for Next Generation Sequencing data analysis. * JMP Genomics - Next gen visualization and statistics tool from SAS. They are working with NCGR to refine this tool and produce others. * NextGENe - de novo and reference assembly of Illumina, SOLiD and Roche FLX data. Uses a novel Condensation Assembly Tool approach where reads are joined via "anchors" into mini-contigs before assembly. Includes SNP detection, CHiP-seq, browser and other features. Commercial. Win or MacOS. * SeqMan Genome Analyser - Software for Next Generation sequence assembly of Illumina, Roche FLX and Sanger data integrating with Lasergene Sequence Analysis software for additional analysis and visualization capabilities. Can use a hybrid templated/de novo approach. Commercial. Win or Mac OS X. * SHORE - SHORE, for Short Read, is a mapping and analysis pipeline for short DNA sequences produced on a Illumina Genome Analyzer. A suite created by the 1001 Genomes project. Source for POSIX. * SlimSearch - Fledgling commercial product. Align/Assemble to a reference * BFAST - Blat-like Fast Accurate Search Tool. Written by Nils Homer, Stanley Nelson and Barry Merriman at UCLA.

全基因组重测序数据分析

全基 1. 简通过变（d 的功况，dise 比较实验（1）（2）基因组重测序简介(Introduc 过高通量测序识deletioin, du 功能性进行综合杂合性缺失ease （cance 较基因组学，群验设计与样本 Case-Contr ）家庭成员组序数据分析 ction) 识别发现de plication 以及合分析；我们（LOH ）以及r ）genome 中群体遗传学综ol 对照组设计组设计：父母novo 的som 及copy numb 们将分析基因及进化选择与中的mutation 综合层面上深计； -子女组（4 人matic 和germ ber variation 因功能（包括与mutation 之n 产生对应的深入探索疾病基人、3 人组或m line 突变，）以及SNP miRNA ），重之间的关系；以的易感机制和基因组和癌症多人）；结构变异-SN 的座位；针对重组率（Rec 以及这些关系功能。我们将症基因组。 NV ，包括重排对重排突变和combination ）系将怎样使得将在基因组学排突 SNP ）情在学以及

初级数据分析 1．数据量产出：总碱基数量、Total Mapping Reads、Uniquely Mapping Reads统计，测序深度分析。 2．一致性序列组装：与参考基因组序列（Reference genome sequence）的比对分析，利用贝叶斯统计模型检测出每个碱基位点的最大可能性基因型，并组装出该个体基因组的一致序列。3．SNP检测及在基因组中的分布：提取全基因组中所有多态性位点，结合质量值、测序深度、重复性等因素作进一步的过滤筛选，最终得到可信度高的SNP数据集。并根据参考基因组信息对检测到的变异进行注释。 4．InDel检测及在基因组的分布: 在进行mapping的过程中，进行容gap的比对并检测可信的short InDel。在检测过程中，gap的长度为1~5个碱基。对于每个InDel的检测，至少需要3个Paired-End序列的支持。 5．Structure Variation检测及在基因组中的分布: 能够检测到的结构变异类型主要有：插入、缺失、复制、倒位、易位等。根据测序个体序列与参考基因组序列比对分析结果，检测全基因组水平的结构变异并对检测到的变异进行注释。高级数据分析 1.测序短序列匹配（Read Mapping）（1）屏蔽掉Y染色体上假体染色体区域（pseudo-autosomal region）, 将Read与参考序列NCBI36进行匹配（包括所有染色体，未定位的contig，以及线粒体序列mtDNA（将用校正的剑桥参考序列做替代）)。采用标准序列匹配处理对原始序列文件进行基因组匹配，将Read与参考基因组进行初始匹配；给出匹配的平均质量得分分布；（2）碱基质量得分的校准。我们采用碱基质量校准算法对每个Read中每个碱基的质量进行评分，并校准一些显著性误差，包括来自测序循环和双核苷酸结构导致的误差。（3）测序误差率估计。 pseudoautosomal contigs，short repeat regions（包括segmental duplication，simple repeat sequence-通过tandem repeat识别算法识别）将被过滤； 2. SNP Calling 计算（SNP Calling）我们可以采用整合多种SNP探测算法的结果，综合地，更准确地识别出SNP。通过对多种算法各自识别的SNP进行一致性分析，保留具有高度一致性的SNP作为最终SNP结果。这些具有高度一致性的SNP同时具有非常高的可信度。在分析中使用到的SNP识别算法包括基于贝叶斯和基因型似然值计算的方法，以及使用连锁不平衡LD或推断技术用于优化SNP识别检出的准确性。统计SNV的等位基因频率在全基因组上的分布

DNA测序结果分析比对实例

DNA测序结果分析比对（实例）关键词：dna测序结果2013-08-22 11:59来源：互联网点击次数：14423 从测序公司得到的一份DNA测序结果通常包含.seq格式的测序结果序列文本和.ab1格式的测序图两个文件，下面是一份测序结果的实例： CYP3A4-E1-1-1(E1B).ab1 CYP3A4-E1-1-1(E1B).seq .seq文件可以用系统自带的记事本程序打开，.ab1文件需要用专门的软件打开。软件名称：Chromas 软件Chromas下载 .seq文件打开后如下图： .ab1文件打开后如下图：通常一份测序结果图由红、黑、绿和蓝色测序峰组成，代表不同的碱基序列。测序图的两端（下图原图的后半段被剪切掉了）大约50个碱

基的测序图部分通常杂质的干扰较大，无法判读，这是正常现象。这也提醒我们在做引物设计时，要避免将所研究的位点离PCR序列的两端太近（通常要大于50个碱基距离），以免测序后难以分析比对。我的课题是研究基因多态性的，因此下面要介绍的内容也主要以判读测序图中的等位基因突变位点为主。实际上，要在一份测序图中找到真正确实的等位基因多态位点并不是一件容易的事情。一般认为等位基因位点假如在测序图上出现像套叠的两个峰，就是杂合子位点。实际比对后才知道，情况并非那么简单，下面测序图中标出的两个套峰均不是杂合子位点，如图并说明如下：

说明：第一组套峰，两峰的轴线并不在同一位置，左侧的T峰是干扰峰；第二组套峰，虽两峰轴线位置相同，但两峰的位置太靠近了，不是杂合子峰，蓝色的C峰是干扰峰通常的杂合子峰由一高一略低的两个轴线相同的峰组成，此处的序列被机器误判为“C”，实际的序列应为“A”，通常一个高大碱基峰的前面 1~2个位点很容易产生一个相同碱基的干扰峰，峰的高度大约是高大碱基峰的1/2，离得越近受干扰越大。一个摸索出来的规律是：主峰通常在干扰峰的右侧，干扰峰并不一定比主峰低。最关键的一点是一定要拿疑似为杂合子峰的测序图位点与测序结果的文本序列和基因库中的比对结果相比较；一个位点的多个样本相比较；你得出的该位点的突变率与权威文献或数据库中的突变率相比较。通常，对于一个疑似突变位点来说，即使是国际上权威组织大样本的测序结果中都没有报道的话，那么单纯通过测序结果就判定它是突变点，是并不严谨的，因一份 PCR产物中各个碱基的实际含量并不相同，很难避免不产生误差的。对于一个未知突变位点的发现，通常还需要用到更精确的酶切技术。 (责任编辑：大汉昆仑王)