文档库 最新最全的文档下载
当前位置:文档库 › 基于Python的对土壤细菌群落结构的影响的16srRNA基因测序分析

基于Python的对土壤细菌群落结构的影响的16srRNA基因测序分析

基于Python的对土壤细菌群落结构的影响的16srRNA基因测序分析
基于Python的对土壤细菌群落结构的影响的16srRNA基因测序分析

本科生毕业论文(设计)

题目: 基于Python的对土壤细菌群落结构的影响的16srRNA基因测序分析

姓名: 熊艺

学院: 资源与环境科学学院

专业: 农业资源与环境

班级: 资环132班

学号: 13613229

指导教师: 兰平职称: 研究员

2017年5月16日

南京农业大学教务处制

目录

摘要: (4)

关键词: (4)

Abstract: (4)

引言 (5)

1 材料与方法 (5)

1.1 土壤样品介绍与处理方法 (5)

1.2 Python语言以及生物信息相关Python包和软件的介绍 (6)

1.2.1 Python在生物信息方面的应用 (6)

1.3 Python开发环境搭建以及Biopython包的安装和使用 (6)

1.3.1 安装python和相关的科学计算的包Python (6)

1.3.2 搭建基于sublimetext3的python开发环境 (6)

1.3.3 Biopython包的使用方法[9] (7)

1.4 Qiime微生生物基因组分析工具的安装[10] (8)

1.5 本研究使用的其它的Python包的简要介绍 (8)

1.5.1 Numpy (8)

1.5.2 Pandas (8)

1.5.3 Scipy (8)

1.5.4 Matplotlib (8)

1.5.5 ETE Toolkit (8)

1.5.6 NetworkX (8)

1.5.7 Pygraghviz (8)

1.6 进入Qiime工作流前测序原始数据的初步处理 (9)

1.6.1 提取barcode序列 (9)

1.6.2 reads拼接 (9)

1.6.3 fasta文件拼接 (9)

1.6.4 割库 (9)

1.6.5 去除嵌合体序列 (10)

1.7 OTU聚类和数据的分析和可视化 (11)

1.7.1 OTU聚类 (11)

1.7.2 OTU聚类和系统发育树的可视化 (11)

1.8 多样性分析 (12)

1.8.1 α-多样性分析 (12)

1.8.2 β-多样性分析 (13)

1.9 存在显著性差异物种分级聚类并可视化 (13)

2 结果与分析 (13)

2.1 土壤样品基本理化性质的分析 (13)

2.2初步处理后的序列的质量控制结果 (14)

2.3 OTU聚类和数据的分析和可视化结果 (14)

2.4多样性分析结果 (14)

3 讨论 (15)

3.1 土壤理化性质的改变和土壤细菌群落结构变化的关系 (15)

3.2 16s rRNA基因测序技术在土壤微生物生态研究中的局限性 (16)

3.3 Python在16s rRNA基因测序数据分析中的优缺点 (16)

致谢 (16)

参考文献 (16)

附录 (18)

基于Python的对土壤细菌群落结构的影响的16srRNA基因测序

分析

农业资源与环境专业学生熊艺

指导教师兰平

摘要:施肥措施可以对土壤细菌群落结构以及其多样性产生影响,16s rRNA基因测序技术又是研究土壤样品中细菌群落组成结构的重要手段之一,而Python在分析生物序列数据方面具有软件资源丰富、语法简练的优点。因此,我们选择了Python语言,对不同施肥方式处理的土壤微生物16s rRNA 基因测序数据进行了初步处理和数据挖掘,进而将长期混合施用牛粪、化肥和秸秆后土壤微生物的群落结构的改变同长期施用牛粪、化肥和秸秆对土壤理化性质带来的影响联系起来。我们发现在土壤自身有机质含量较高的情况下,这种混合的施肥方式对土壤细菌群落结构的影响并不大,这主要体现在:对照组和实验组在α-多样性和β-多样性上没有显著性差异,在407个不同等级的分类的序列丰度上具有显著差异,其中黄色单胞菌和微球菌两个目下各分类等级的序列丰度差异特别突出。这种状况可能是在这种施肥方式下,虽然土壤微生物可以利用的有机质中的碳源、氮源更多了,但是土壤其它理化性质(特别是pH)变化不显著造成的。

关键词:Python;16s测序;土壤细菌群落结构;牛粪;秸秆

Analysis of 16S rRNA gene sequencing data of effect of long-term mixed application of cow dung, chemical fertilizers and straw on soil

microbial community structure

Student majoring in Agricultural Resources and Environment Xiong Yi

Tutor Lan Ping

Abstract:Fertilization measures can influence soil microbial community structure and its diversity. By the way, 16s rRNA gene sequencing technology is an important method to study the structure of microbial community in soil samples, and Python is in advantage of rich software resources and convenience in analyzing biological sequence data. Therefore, we chooses the Python language to carry out preliminary processing and data mining on the 16s rRNA gene sequencing data of soil microbes treated by different fertilization methods, and then L删i删n除k the change of the community structure of soil microorganisms after long-term mixed application of cow dung to the physical and chemical properties change of soil under this long -term fertilization method. We found that this mixed fertilization method had little effect on the soil microbial community structure, In the case of high levels of organic matter in the soil.The results showed

that there was no significant difference in α-diversity and β-diversity between the control group and the experimental group, and there was significant difference in the sequence abundance of 407 different grades. Among them, The difference in sequence abundance between the two grades, Xanthomonadales and micrococcus ,is particularly prominent. The reason may be that in this fertilization mode, although the soil microbial can use the carbon source, nitrogen source more from organic matter, but other soil physical and chemical properties (especially pH) changes are not significantly.

Key words: Python; 16 s sequencing; Soil bacterial community structure; Cow dung; Straw

引言

微生物是土壤最活跃的组成。从定植于土壤母质的蓝绿藻开始,到土壤肥力的形成,土壤微生物参与了土壤发生、发展、发育的全过程,推动了地球表层系统关键生态过程,维系了陆地生态系统物质与能量的良性循环,被称为地球元素生物地球化学循环的引擎[1]。土壤细菌群落功能多样性又是土壤微生物群落状态与功能的指标,反映了土壤中微生物的生态特征[2]。有研究表明长期施用有机肥可以增加土壤细菌群落的多样性[3],长期施用化肥会降低土壤细菌群落的多样性[4]。

土壤中最多可达99%的微生物尚未被培养,其功能尚未可知。同时,以rRNA序列比对为基础的分子指纹图谱技术极大地改变了传统的研究理念和方法,将土壤微生物学的研究对象从单个菌种资源发展到整体的细菌群落演替及功能意义。

16S rRNA位于原核细胞核糖体小亚基上,包括 10 个保守区域(Conserved Regions)和 9 个高变区域(Hypervariable Regions),其中保守区在细菌间差异不大,高变区具有属或种的特异性,随亲缘关系不同而有一定的差异。因此,16S rDNA可以做作为揭示生物物种的特征核酸序列,被认为是最适于细菌系统发育和分类鉴定的指标。16S rDNA扩增子测序(16S rDNA Amplicon Sequencing),通常是选择某个或某几个变异区域,利用保守区设计通用引物进行PCR扩增,然后对高变区进行测序分析和菌种鉴定,16S rDNA扩增子测序技术已成为研究环境样品中细菌群落组成结构的重要手段[5]。

随着高通量测序平台的不断发展,升级后的HiSeq测序平台可实现双端测序的PE250策略,达到与MiSeq平台相同的读长,并且在通量和测序质量上比MiSeq有了很大的提升,成为更适用于16S扩增子测序的新平台。HiSeq PE250测序深度高,更有利于低丰富群落物种的鉴定,提高细菌群落研究的完整性,是研究细菌群落多样性的首选之策[6]。

Python易学,语法明晰,并且能很容易地调用以C,C++或者FORTRAN编写的模块从而实现扩展。在本项研究中,我们采用了基于Python编写的Qiime(微生物群落结构分析工具)、Biopython(用于生物序列处理的Python包),和其它的一些用于科学计算和数据可视化处理的Python包,完成了16s rRNA基因测序数据的预处理、样品复杂度分析(Alpha Diversity)、多样品比较分析(Beta Diversity)和组间差异物种分析。

1 材料与方法

1.1 土壤样品介绍与处理方法

对照组(CK)和实验组(OM)的土样取自河北曲周某块进行长期定位实验的小麦地。对照组(CK)为完全不施肥的耕作方式,实验组(OM)为牛粪 200kg/亩+70%NPK+秸秆全量还田的耕作方式,每个对照三个重复。

土壤基本理化性质的测定按照《土壤农化分析》[7]中的标准流程进行,分别测定了6个样本中的pH、EC值、含水量、有机质含量共计四个指标。

接下来,我们使用FastDNA? SPIN Kit for Soil试剂盒分别提取了6个样本中的

DNA,并送往某生物科技公司进行16s rRNA基因测序。根据所扩增的16S区域特点,基于Illumina HiSeq测序平台,利用双末端测序(Paired-End)的方法,构建小片段文库进行双末端测序,进而得到下机数据,我们称之为Raw PE的fastaq文件。

1.2 Python语言以及生物信息相关Python包和软件的介绍

Python是一种广泛使用的高级编程语言,由Guido van Rossum在1991年发布。Python强调代码的可读性,特别是用空格缩进来分割代码块,允许程序员使用比C++或者java等语言更少的字符来表达概念[8]。Python有一个动态类型系统和自动存储管理器,支持自动的垃圾回收,并支持多种编程范式,包括面向对象的编程、命令行式的编程、面向过程的编程以及函数式编程。Python解释器可用于许多操作系统,从而可以让Python代码在各种系统上运行。

Python目前有2和3两大版本,Python3大幅度改进了字符编码问题,这对生物序列(譬如DNA、RNA的序列)的处理非常有利。由于Pygrahviz包兼容性的缘故,本项研究所有代码均基于Windows10系统和Python3.4。

在科学计算方面Python有Numpy和Scipy两个基础包,本项研究使用的其他Python 软件包以及自己编写的脚本均不同程度地调用了这两个包。Numpy主要被用来生成N维矩阵,并进行相关的矩阵运算,这是进行统计运算的基础,Scipy则是Numpy的补充,封装了大量可直接调用的的统计学功能,譬如方差分析、显著性检测。

1.2.1 Python在生物信息方面的应用Python能够方便的处理各种格式的文本,而生物序列数据也是以文本的形式存储在磁盘上的。Biopyhton提供了表示生物序列和序列注释的类,并且能够读取和写入各种文件格式,它允许以编程的方式访问生物信息相关的数据库(比如NCBI的数据库),此外它还提供了一些简单的基因组和系统发育树的可视化工具。

而在微生物基因组方面,基于Python编写的Qiime提供了基于原始DNA测序数据的分析工作管线。它可以被用来处理来自Illumina或者其它平台的数据,并提供了开源且公认的质量控制、可视化和统计工具,这些工具包括多路的测序文件质量控制、OTU 聚类、确定微生物分类、建立系统发育树和多样性分析与可视化工具。

1.3 Python开发环境搭建以及Biopython包的安装和使用

1.3.1 安装python和相关的科学计算的包Python安装包在官网下载,选择适合自己电脑操作系统的版本,建议选择3.4,64位windows

镰杰:h删t删t除p除s删:删/除/w删w除https://www.wendangku.net/doc/5a15163395.html,/downloads/windows/ 安装完成后打开cmd,按windows+x,点运行输入cmd,确定运行cmd,更新pip

在windows上可运行的与python科学计算、信息生物学有关的包都可以在这里找到:

镰杰:h删t删t删p删:删/除/除w删w除https://www.wendangku.net/doc/5a15163395.html,/~gohlke/pythonlibs/ 下载numpy scipy matplotlib biopython 四个包(biopython依赖于前三者),然后用pip安装。

下载并安装sublimetext

镰杰:h删t删t除p除s删:删/除/w删w除w.sublimetext.删c删o除m/

安装SublimeREPL

按Ctrl+shift+p 键入 install packages,稍等片刻后键入 SublimeREPL 安装即可,通过选项Tools->SublimeREPL->Python就可以看到效果了。键位绑定后可通过快捷键从当前文档运行,或者运行python。打开Preferences(首选项)->Key Bindings (键位绑定)-User(用户)。

设置参数写法参考:

脚本。

安装SublimeTmpl

Ctrl+shift+p 键入 install packages,稍等片刻后键入SublimeTmpl安装即可。推荐把默认模版目录的*.tmpl文件复制到自定义模板路径, 再去修改。

tmpl)–>python 新建python脚本。

1.3.3 Biopython包的使用方法[9]

生物序列对象操作:

以DNA序列为例,介绍基于Biopython的序列建立与序列修改,源代码见附表1。

序列文件输入输出:

以DNA序列为例,介绍了基于Biopython的序列文件的读取与写入,支持常见的几种序列格式文件譬如fasta和genebank文件。此外,还介绍了压缩文件中序列文件的读写和NCBI genebank,SwissProt两个数据库的调用,源代码见附表2。

1.4 Qiime微生生物基因组分析工具的安装[10]

由于Qiime依赖的软件部分只有Linux的版本,Qiime官方建议Windows用户直接安装Qiime的Ubuntu虚拟机,本项研究采用的是1.9.1版本的Qiime。

首先下载并安装VirtuBox,并下载官方提供的已经安装好Qiime的Ubuntu映像文件。

VirtuBox镰杰:h删t删t删p删:删/除/除w删w除https://www.wendangku.net/doc/5a15163395.html,/wiki/Downloads

映像文件镰杰:h删t删t删p删:删/除/除https://www.wendangku.net/doc/5a15163395.html,/home_static/dataFiles.html 运行VirtualBox,点击New->Next->选择Ubuntu(64 bit)->Next->至少分配3GB内存->Next->选择“Use existing hard drive”->Add->选择你下载的Ubuntu映像文件。然后运行你刚才新建的叫做QIIME的虚拟机(root密码是 qiime)。在虚拟机的桌面上你会看到一个叫做‘Before_you_start’的文件夹,按照里面的提示安装VirtualBox的驱动并设置好交换文件夹,虚拟机里面的Qiime就可以读取宿主机里面的文件了。

1.5 本研究使用的其它的Python包的简要介绍

除1.5.5外,下列Python包均可按照1.2.1所述的方法进行安装

1.5.1 Numpy Numpy为Python提供了多维数组和矩阵,以及大量高级数学函数的支持[11]。在本项研究中,Numpy主要被用来将biom表中各细菌种群的序列数量转化为矩阵,进而简化相关统计计算的复杂度。

1.5.2 Pandas Pandas为Python提供了一种类似于Excel表格的数据结构,能够方便地读取和调用CSV文件中的数据,此外Pandas可以直接利用Numpy数组读取和写入数据[12]。在本项研究中,Pandas主要被用来读取biom文件,并批量修改一些数据的格式。

1.5.3 Scipy Scipy是一个基于Numpy数组对象建立的科学计算包,包含线性代数、积分、统计、信号处理和图像处理等功能[13]。在本项研究中,Scipy主要被用来做不同处理间不同细菌种群数量的t检测。

1.5.4 Matplotlib Matplotlib是一个Python绘图包,为Python提供了类似于MATLAB的功能[14]。Biopython和Pygraphviz的绘图功能均基于Matplotlib实现。

1.5.5 ETE Toolkit ETE Toolkit是一个由EMBL(欧洲分子生物实验室)提供的树文件处理和可视化的包[15]。在本项研究中,ETE Toolkit被用来完成Qiime产生的newick 格式的系统发育树的可视化。这个包官方没有适配Windows,需要使用pip安装源代码。此外,还需要PyQt4、lxml和six三个依赖包。

来完成对各细菌种群各分类层次关系的聚类和可视化。

1.5.7 Pygraghviz Pygragpviz提供了连接Graphviz与NetworkX的API接口。在本项研究中,它被用来提供一个更为美观的聚类布局。Graphviz需要另外下载安装并添加到path环境变量。

下载镰杰:h删t删t删p删:删/除/除w删w除https://www.wendangku.net/doc/5a15163395.html,

1.6 进入Qiime工作流前测序原始数据的初步处理

针对illumina测序仪产生的数据可以参考Qiime官方文档

文档地址:h删t删t删p删:删/除/除https://www.wendangku.net/doc/5a15163395.html,/tutorials/processing_illumina_data.html

1.6.1 提取barcode序列

此项操作需要用到虚拟机中的Qiime。原始序列文件需要提前拷贝至Shared_Folder 文件夹中。提取barcode序列是指将barcode序列从原始序列中提取出来,并生成barcodes.fastq文件,和其它对应的不包含barcode序列的fastq文件,为接下来的拼接操作做准备。

-f 正向读取的reads的路径

-r 反向读取的reads的路径

-m metadata文件的路径(文件中包含正向和反向引物信息)

-a 通过正向和反向引物来定位序列

1.6.2 reads拼接

此项操作的目的在于将双向测序的reads通过overlap区域进行识别并组装成一条完整的序列,生成拼接完毕的fastq文件,用于后续分析。

-f 正向测序的fastaq文件路径

-r 反向测序的fastaq文件路径

j 最小的overlap长度(用来识别两个read是否属于同一个序列)

-p 在overlap中不同所能容忍的最多不同碱基的百分比

-o 输出文件的路径

详细参数解析Qiime官方文档可见:

h删t删t除p除s删:删/除/github.删c删o除m/biocore/qiime/blob/master/doc/scripts/join_paired_ends.rst

1.6.3 fasta文件拼接

由于测序公司提供的测序结果的fastaq文件根据样品分成了好几个,为了便于Qiime的后续处理,所以需要合并为一个文件。因此,我们调用Biopython包写了一个fastaq文件合并的脚本。源代码见附表3。

1.6.4 割库

割库是指依据barcode文件将每一条序列归类到不同的样品中去,生成的文件是一个归类完毕的fasta格式序列文件,其中所有序列都有唯一编号和所属样品。这个操作需要制作一个metadata文件(格式见表2),这个文件也会在Qiime的后续分析中经常用到。

表2 metadata文件格式:

#SampleID BarcodeSequence L删i删n除kerPrimerSequence Description Treatment Description CK1 CATTTTACTTGA GTGCCAGCMGCC CK1 CK CK

CK2 CATTTTGGCTAC GTGCCAGCMGCC CK2 CK CK

CK3 CATTTTGATCAG GTGCCAGCMGCC CK3 CK CK

OM1 CATTTTCAGATC GTGCCAGCMGCC OM1 OM OM

OM2 CATTTTGCCAAT GTGCCAGCMGCC OM2 OM OM

OM3 CATTTTTAGCTT GTGCCAGCMGCC OM3 OM OM

注:SampleID和BarcodeSequence是必须具备的参数,文件可以用表格软件(比如Excel)写入然后保存为txt格式,或者直接用文本编辑器(比如sublime)编辑,各段字符间用制表符隔开。

制作好的metadata文件再用validate_mapping_file.py脚本检测有无错误。

文件。

然后利用split_libraries_fastq.py进行割库操作。

-i 不含barcode的序列文件路径

-b barcode序列文件路径

-m metadata文件路径

-q 质量控制参数。q19意为整条序列完全正确的概率大于99%(参考fastaq文件格式)

-o 输出序列路径

1.6.5 去除嵌合体序列

在微生物学中,嵌合体序列指在PCR扩增过程中产生的,母本来自两个或者两个以上的DNA序列。有时,扩增子可能会在完全完成之前过早终止,当PCR在下一个循环中再次检测到时,如果起始区域足够相似,则另外的DNA链可以附着在第一个离开的位置,并从该第二个亲本完成扩增子[17]。如果对该序列直接进行分类,而不检查嵌合状态,则可能将其作为新序列返回。这将给研究者一个假象,即他们发现了一个以前未知的生物体,实际上它只是两个以前分类的微生物的组合。这种序列需要在后续的数据分析中除去。

Qiime提供了去除嵌合体的脚本,但是脚本需要的usearch软件和嵌合体数据库需要自己下载,并添加到虚拟机的环境变量。

usearch 下载镰杰:h删t删t删p删:删/除/除w删w除w.drive5.删c删o除m/usearch/download.html

“Gold fa”嵌合体数据库下载镰杰:h删t删t删p删:删/除/除drive5.删c删o除m/uchime/gold.fa

命令行代码:

-i 输入序列路径

-o 输出文件路径

-r 嵌合体数据库文件路径

详细参数解析Qiime官方文档可见

运行完脚本后获得chimeras.txt,再利用filter_fasta.py将fna文件中,chimeras.txt文件中记录的嵌合体序列除去。

-f 输入序列文件路径

-o 输出文件路径

-s 嵌合体序列名单文件路径

-n 去除名单中的序列

当然嵌合体序列也可以利用其它软件和数据库完成譬如ChimeraSlayer和Silva数据库,或者已经比对好的序列。

1.7 OTU聚类和数据的分析和可视化

OTU全称”operational taxonomic unit(可操作的分类单元)”是微生物多样性最常用的单位,在分析小亚基16S或18S rRNA标记基因序列数据集时经常会被使用到。序列可以根据它们彼此的相似性进行聚类,并且基于由研究者设置的相似性阈值(通常为97%相似性)来定义OTU。

Qiime可将生成的OTU信息存储在biom格式的文件中,并可以此为基础,进行下游分析和可视化操作。

1.7.1 OTU聚类

Qiime提供三种OTU聚类的方式,分别包含在pick_de_novo_otus.py, pick_closed_refer ence_otus.py和pick_open_reference_otus.py三个脚本中。pick_de_novo_otus.py指在没有参考序列数据库的情况下产生新的OTU,pick_closed_refer ence_otus.py指根据参考序列数据库生成OTU,pick_open_reference_otus.py指先根据参考序列数据库生成OTU,没有匹配到参考序列的序列再用de_novo的方式产生新的OTU[18]。

如果16s rRNA基因测序区段是V2和V4的话就必须采用pick_closed_refer ence_otus.py脚本,在本项研究中正是这种情况,因此采用Silva的数据库。

Qiime可用的Silva数据库的下载镰杰:

h删t删t除p除s删:删/除/w删w除w.arb-silva.de/no_cache/download/archive/qiime/

下载到本地并解压后即可直接调用

-i 输入序列路径

-o 输出biom表的路径

-r 参考数据库序列文件路径

-t 参考数据库分类信息文件路径

1.7.2 OTU聚类和系统发育树的可视化

Qiime自身提供了OTU分类信息可视化脚本

-i 输入biom文件的路径

-o 输出文件的路径

-m metadata文件的路径

summarize_taxa_through_plots.py脚本根据不同的分类等级,对不同种类的微生物的丰度进行可视化,界(Kingdom)、门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)分别对应level_0-level_5。生成的在门水平上的不同种类微生物丰度柱状图见附图1。

Qiime产生的biom文件可以转化成csv格式,从而便于其它软件(比如Excel)直接打开和修改,csv文件也可以直接使用pandas读取。

-i 输入的biom文件路径

-o 输出的csv文件的路径

--to-tsv 转化为csv文件

--header-key 要保留的OTU属性,这里保留的是分类信息

Qiime也提供了系统发育树文件的过滤脚本。filter_tree.py脚本可根据提供的OTU id或者序列id保留或者删除系统发育树的leaf(叶片)。

-i 输入系统发育树文件的路径

-t 记录有OTU id或者序列id的文本文件路径

-o 输出系统发育树文件的路径

我们也可以自行更改系统发育树文件中leaf的名称,在这里我们使用了Biopython 包来将原来树文件中的OTU id替换成第四级分类(目)上的名称,源代码见附表4,附图2为利用FigTree软件对修改后的tree文件进行可视化和美化操作后生成的图片。

FigTree下载镰杰:

h删tt删p删:删/除/tree删.bio除.ed.除ac除.uk/删software删/figtree/除接下来我们采用pandas包来读取csv文件,采用ETE tookit读取系统发育树文件,进而生成基于系统发育树的OTU聚类热图,见附图3,源代码见附表5。

1.8 多样性分析

1.8.1 α-多样性分析

α-多样性在这里指样本内的多样性,多样性指数越高,说明该样本的微生物种群多样性越高[19]。在Qiime中,可使用alpha_rarefaction.py生成稀疏曲线,进而比较不同处理间的α-多样性的差异。

参数解释:

-i 输入biom文件的路径

-o 输出稀疏曲线文件的路径

-t 系统发育树的路径

-m metadata文件路径

-e 抽样的最大OTU个数

1.8.2 β-多样性分析

β-多样性在这里指样本之间的微生物群落组成的差异[19]。Qiime提供了beta_diversity_through_plots.py脚本,其作用在于,各样本分别再抽样,并计算各样本再抽样的样本之间的距离矩阵,从而进行PCoA(主成因)分析,生成PCoA图,进而观测β-多样性。

Qiime还提供了jackknifed_beta_diversity.py脚本,他和前者的区别在于,jackknifed_beta_diversity.py多次重复地再抽样,从而能够在PCoA图上生成样点的置信区域。这样能够测试分析结果的健壮性。

两个脚本的使用方法基本相同。

-i 输入biom文件的路径

-o 输出文件路径

-t 系统发育树文件路径

-m metadata路径

-e 抽样深度,即再抽样的序列个数

1.9 存在显著性差异物种分级聚类并可视化

在土壤细菌群落的研究中,有时我们也需要关注不同分类等级上物种序列丰度的差异。于是,我们根据这个思路,开发了不同分类层次下的序列丰度统计,差异检测,并分级聚类的脚本。

脚本源代码见附表7,该Python脚本的思路是统计各分类层次下,各样本中包含的不同种类序列的数量,然后再调用Scipy包进行t检测,过滤出CK和OM两个处理间具有显著差异的分类,最后调用Biopython和Pygraghviz以及NetworkX将有从属关系的分类联系起来,从而进行聚类,并用Graghviz的布局将产生的关系图可视化。

2 结果与分析

2.1 土壤样品基本理化性质的分析

CK和OM土样的基本理化性质如表1所示。显然,在长期混合施用牛粪、化肥和秸秆后,土壤的有机质含量得到了显著的提升(虽然OM和CK两个处理下的有机质含量都很高),但是土壤的pH、EC值、含水量并没有显著性的改变。

表 1 土样基本理化性质

注:两组的理化性质差异主要在有机质含量上,实验组有机质含量显著更高。

2.2初步处理后的序列的质量控制结果

质量控制结果可在Qiime割库操作产生的日志文件中查看,本项研究产生的序列质量控制汇总表见表3。从表3的Effective Tags栏可看出,CK和OM两个处理的有效序列数量并没有显著差异,说明两个处理中的微生物(主要指细菌)总量没有显著差异。

表3 样品质量控制数据汇总

注:Raw PE 表示原始下机的PE reads;Raw Tags是指拼接得到的Tags序列;Clean Tags 是指Tags过滤低质量和短长度后的序列;Effective Tags 是指过滤嵌合体后,最终用于后续分析的Tags序列;Base是指最终 Effective Data的碱基数目;AvgLen 指 Effective Tags 的平均长度;Q20和Q30是指Effective Tags中碱基质量值大于20(测序错误率小于1%)和30(测序错误率小于0.1%)的碱基所占的百分比;GC (%) 表示 Effective Tags中GC碱基的含量; Effective (%) 表示 Effective Tags的数目与Raw PE数目的百分比。

2.3 OTU聚类和数据的分析和可视化结果

summarize_taxa_through_plots.py脚本能够生成不同分类等级上的物种丰度柱状图的html文件,附图1为该html文件的一部分,该图展示了门分类水平上的物种丰度状况,从中我们可以粗略地观测两个处理间的细菌群落组成状况。Proteobacteria(变形杆菌门)、Actinobacteria(放线菌门)、Acidobacteria(酸杆菌门)为两个处理的细菌群落的主要组成分类。

附图2为经过FigTre软件美化,包含序列条数超过1000的OTU的系统发育树图,并标注了每个OTU所属的目的种类,从中我们可以粗略地在门水平上观测两个处理间的细菌群落的优势种群。附图3为基于系统发育树的OTU聚类热图,树的每个叶片同样也是序列条数包含序列条数超过1000的OTU,色块热颜色越偏红说明在对应处理下,对应OTU的序列条数越多,越偏蓝说明序列条数越少,这样可以直观的判断两个处理间优势种群的丰度差异。由附图3可见,编号为FN794227.1.1213、GU980236.1.1327、GU359072.1.1474的OTU,在两个处理间差异较大,且均为在OM处理下的丰度更高,其分类在属的水平上分别为Sphingomonas(鞘氨醇单胞菌)、Sphingomonadales(鞘氨醇单胞菌)和一种未分类的酸杆菌。

2.4多样性分析结果

alpha_rarefaction.py脚本能够生成根据不同算法计算的α-多样性曲线,分别是PD_whole_tree(按照物种分类),chao1(chao1指数)和observed_otus(按照OTU)三种算法。附图4展示的是按照PD_whole_tree算法计算的α-多样性曲线,曲线横轴

表示再抽样样本中的序列数量,纵轴表示的是再抽样样本中包含的OTU数量,α-多样性越高,在再抽样相同数量序列的情况下,包含的OTU数量应越多。然而CK和OM两个处理的曲线没有很好的区分开来,这说明两个处理间的α-多样性差异不大。

如附图5所示,jackknifed_beta_diversity.py生成的样本点具有置信区域,距离相近的样点细菌群落组成相似。此外这两个脚本还能生成稀疏的UPGMA树,可以根据β-多样性多不同样本进行聚类,进而分辨出不同样本间的微生物种群差异的大小。脚本生成的tree文件的可视化可以用ETEtoolkit包完成,源代码见附表6,生成的图片见附图6。由附图6可知,样本OM1和OM2细菌群落组成相近,CK3细菌群落组成最为独特,OM和CK两组处理间细菌群落组成有略微差异。

2.5 存在显著性差异物种分级聚类并可视化结果

由我们自己编写的脚本(源代码见附表7)生成的附图7可看出,43和19为差异的聚类中心,两个分类在下属的分类层次中,CK和OM两个处理间具有较大差异。查询生成的classes_passed_test2.txt文件可知,在407个不同等级的分类的序列丰度上具有显著差异,在这些具有差异的分类中,这两个中心分别为D_0__Bacteria D_1__Proteobacteria D_2__Gammaproteobacteria D_3__Xanthomonadales(黄色单胞菌目)和D_0__Bacteria D_1__Actinobacteria D_2__Actinobacteria D_3__Micrococcales(微球菌目),二者的相对平均丰度如表3所示。这两个种类的丰度均为OM的更高。

表4 差异物种丰度信息

平均相对丰度(%)

种类名称中文名

CK OM

D_0__Bacteria D_1__Proteobacteria D_2__Gammaproteobacteria D_3__Xanthomonadales 黄色单胞菌目 4.523% 6.597%

D_0__Bacteria D_1__Actinobacteria D_2__Actinobacteria D_3__Micrococcales 微球菌目 2.577% 3.160%

3 讨论

3.1 土壤理化性质的改变和土壤细菌群落结构变化的关系

长期混合施用牛粪、化肥和秸秆仅仅对土壤的有机质含量起到显著性的影响,而没有造成pH、EC值的显著性变化。从CK和OM两个不同处理以及一个处理包含的三个重复,共计6个样本的16s rRNA基因的分析上可以看出,这种混合的施肥措施对微生物种群结构的影响并不大,这主要体现在两个处理间的α-多样性和β-多样性的差异不显著上。两个处理的细菌群落在407个不同等级的分类的序列丰度上具有显著差异,其中黄色单胞菌和微球菌两个目下各分类等级的序列丰度差异特别突出。在包含序列条数超过1000的OTU中,OM处理下的鞘氨醇单胞菌序列丰度显著更高。鞘氨醇单胞菌对芳香化合物有极为广泛的代谢能力[20],微球菌菌目可能与土壤中的硝化作用有关[21],黄色单胞菌目是一种重要的植物病原菌,与番茄、香蕉、柑橘、水稻和咖啡的多种病害有关[22],另外有研究表明黄色单胞菌目的部分菌种可能具有土壤线虫的生防功能[23]。在影响土壤细菌群落结构的因素当中,土壤pH起到了重要的作用[24]。因此我们推测,在土壤自身有机质含量就很高的情况下,长期混合施用牛粪、化肥和秸秆,虽然土壤微生物可以利用的有机质中的碳源、氮源更多,但是却不会造成但是土壤其它理化性质(特别是pH)的显著性改变,从而也无法对土壤细菌群落结构产生显著性的影响。

但是这个推测也并不准确,因为对照内的重复组间微生物(主要是细菌)种群结构的差异和对照间的差异没有很好的区分开来,三个重复并不足够。此外,牛粪、秸秆、

化肥混合施用带来的复杂的养分组成也无法说明究竟是那一种(或者多种)成分对种群结构会造成影响。因此,想要深入研究牛粪、秸秆、化肥混合施用对于微生物种群的影响,我们需要增加重复的数量并在人工加入土壤的物质的组分上设置更多的处理,让每个处理中加入土壤的物质的组分变得单一。

3.2 16s rRNA基因测序技术在土壤微生物生态研究中的局限性

16s rRNA基因测序技术只能说明土壤中不同种类微生物DNA序列数量的丰度,这些序列也可能是死亡细胞或者芽孢的序列。所以,长期定位施肥实验的处理时间长度也会对实验结果造成影响,所以应该在处理时长上再追加不同的处理。此外,某些微生物对于施入土壤中的不同物质的响应并不体现在细胞分裂、繁殖,序列数量的变化上[25],这也就导致了土壤微生物16s rRNA基因测序数据分析结果的片面性。

3.3 Python在16s rRNA基因测序数据分析中的优缺点

Python作为一个强大的脚本语言可以将很多其它语言编写的程序结合在一起,从而集合各个程序的功能和优点[26]。Python清晰、凝练的语法风格,可以使算法在较短的代码量下实现,而且可读性很强。基于Python的微生物基因组学分析工具Qiime很好地体现了Python的这种优点。我们可以很方便地使用Python在前人已经写好的软件的基础上实现自己想要的功能。

但是目前在组学方面Python的绘图功能尚不及R,绘制的的图形不如R绘制的美观,尚缺乏实现绘制某一特定类型图形(譬如聚类热图)的包。此外,利用Python写的脚本不如C语言编译出来的程序运行效率高[27]。

致谢

感谢各位老师的认真指导以及各位师兄师姐的无私帮助。

参考文献:

[1]宋长青, et al., 中国土壤微生物学研究十年回顾. 地球科学进展, 2013. 28(10): p.

1087-1105.

[2]唐海明, et al., 长期施肥对双季稻田根际土壤微生物群落功能多样性的影响. 生态环境

学报, 2016. 25(3): p. 402-408.

[3]李清华, et al., 长期施肥对黄泥田土壤微生物群落结构及团聚体组分特征的影响. 植物

营养与肥料学报, 2015. 21(6): p. 1599-1606.

[4]刘晶鑫, et al., 长期施肥对农田黑土微生物群落功能多样性的影响. 应用生态学报, 2015.

26(10): p. 3066-3072.

[5]Kim, M., et al., Towards a taxonomic coherence between average nucleotide identity and 16S rRNA

gene sequence similarity for species demarcation of prokaryotes. International journal of systematic and evolutionary microbiology, 2014. 64(2): p. 346-351.

[6]Logares, R., et al., Metagenomic 16S rDNA Illumina tags are a powerful alternative to amplicon

sequencing to explore diversity and structure of microbial communities. Environmental Microbiology, 2014. 16(9): p. 2659–2671.

[7]南京农业大学, 土壤农化分析. 1990: 农业出版社.

[8]Zelle, J.M., Python programming: an introduction to computer science. 2004: Franklin, Beedle &

Associates, Inc.

[9]Cock, P.J.A., et al., Biopython: freely available Python tools for computational molecular biology

and bioinformatics. Bioinformatics, 2009. 25(11): p. 1422.

[10]Caporaso, J.G., et al., QIIME allows analysis of high-throughput community sequencing data.

Nature Methods, 2010. 7(5): p. 335.

[11]Walt, S.v.d., S.C. Colbert, and G. Varoquaux, The NumPy array: a structure for efficient numerical

computation. Computing in Science & Engineering, 2011. 13(2): p. 22-30.

[12]McKinney, W., Python for data analysis: Data wrangling with Pandas, NumPy, and IPython. 2012:

" O'Reilly Media, Inc.".

[13]Blanco-Silva, F.J., Learning SciPy for numerical and scientific computing. 2013: Packt Publishing

Ltd.

[14]Devert, A., matplotlib Plotting Cookbook. 2014: Packt Publishing Ltd.

[15]Huerta-Cepas, J., F. Serra, and P. Bork, ETE 3: Reconstruction, analysis, and visualization of

phylogenomic data. Molecular biology and evolution, 2016. 33(6): p. 1635-1638.

[16]Schult, D.A. and P. Swart. Exploring network structure, dynamics, and function using NetworkX. in

Proceedings of the 7th Python in Science Conferences (SciPy 2008). 2008.

[17]Nichols, B. and C. Quince, Simera: Modelling the PCR Process to Simulate Realistic Chimera

Formation. bioRxiv, 2016: p. 072447.

[18]Rideout, J.R., et al., Subsampled open-reference clustering creates consistent, comprehensive OTU

definitions and scales to billions of sequences. Peerj, 2014. 2(5): p. e545.

[19]Brault, S., et al., Contrasting patterns of α-and β-diversity in deep-sea bivalves of the eastern and

western North Atlantic. Deep Sea Research Part II: Topical Studies in Oceanography, 2013. 92: p.

157-164.

[20]胡杰, et al., 鞘氨醇单胞菌研究进展. 应用与环境生物学报, 2007. 13(3): p. 431-437.

[21]陈威, et al., 异养硝化微球菌的分离及性能评价. 生态学杂志, 2010. 29(8): p. 1629-

1633.

[22]da Silva, A.R., et al., Comparison of the genomes of two Xanthomonas pathogens with differing host

specificities. Nature, 2002. 417(6887): p. 459-463.

[23]李静, 假黄色单胞菌(Pseudoxanthomonas japonensis)防治南方根结线虫的研究. 2013, 云

南大学.

[24]Zhalnina, K., et al., Soil pH determines microbial diversity and composition in the park grass

experiment. Microbial ecology, 2015. 69(2): p. 395-406.

[25]Whitman, T., et al., Dynamics of microbial community composition and soil organic carbon

mineralization in soil following addition of pyrogenic and fresh organic matter. The ISME journal, 2016. 10(12): p. 2918-2930.

[26]王振振, Python科学计算包在实验数据处理中的应用. 计量技术, 2015(7).

[27]刘巧红,单贵, Python语言整数运算实现机制分析与性能评估. 计算机系统应用, 2011.

20(2): p. 169-172.

附录

附表1

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# @Date : 2016-10-23 20:49:24

# @Author : XYZ (superxyz@删v删i删p除.除q除q.删c删o除m)

# @L删i删n除k : w删w除w.bubblefertilizer.删c删o除m

# @Version : 1.0

print('----------1----------')

from Bio.Seq import Seq

from Bio.Alphabet import IUPAC

my_seq = Seq("GACTAGCA", IUPAC.unambiguous_dna)

for index,letter in enumerate(my_seq):#按碱基输出序列

print(index,letter)

print(len(my_seq))

print(my_seq[0])

print(my_seq[2])

print(my_seq[-1])

print('----------2----------')

print(my_seq.count('A'))#非重叠计数

print(my_seq.count('C'))

print('----------3----------')

my_seq2=Seq('GATCGATGGGCCTATATAGGATCGAAAATCGC', IUPAC.unambiguous_dna)#计算“CG”含量

print(len(my_seq2))

print(my_seq2.count('G'))

p=100*float(my_seq2.count('G')+my_seq2.count('C'))/len(my_seq2)

print('''"CG"含量是:%.3f'''%(p)+'%')#浮点数格式输出

print('----------4----------')

from Bio.SeqUtils import GC #算GC碱基含量的函数

p = GC(my_seq2)

print('''"CG"含量是:%.3f'''%(p)+'%')

print('----------5----------')

print(my_seq2[4:12])#切取序列

print(my_seq2[0::3])#通过设置步幅切取,从第一个开始每三个碱基取一个

print(my_seq2[1::3])

print(my_seq2[2::3])

print(my_seq2[::-1])#倒序切片

print('----------6----------')

string=str(my_seq2)#转换序列为字符串

print(string)

print('----------7----------')

fasta_format_string='>Name\n%s\n'%my_seq2 #像序列一样格式化输出seq

print(fasta_format_string)

print('----------8----------')

from Bio.Alphabet import generic_alphabet #转化为通用字母表

protein_seq=Seq('EVRNAK',IUPAC.protein)

dna_seq=Seq('ACGT',IUPAC.unambiguous_dna)

protein_seq2=protein_seq

dna_seq2=dna_seq

protein_seq2.alphabet=generic_alphabet #转化为通用字母表

dna_seq2.alphabet=generic_alphabet

print(dna_seq2+protein_seq2)

print('----------9----------')

from Bio.Alphabet import generic_nucleotide #这里有个例子是将通用核苷酸序列加到明确的IUPAC DNA序列上,最后生成一段模糊的核苷酸序列

nuc_seq=Seq('GATATG',generic_nucleotide)

print(nuc_seq)

print(dna_seq)

print(nuc_seq+dna_seq)

print('----------10----------')

from Bio.Alphabet import generic_dna #改变大小写

dna_seq3=Seq('acgtACGT',generic_dna)

print(dna_seq3)

print(dna_seq3.upper())

print(dna_seq3.lower())

print('GTAC'in dna_seq3)

print('GTAC'in dna_seq3.upper())

dna_seq3=(dna_seq3.upper())#注意,严格地说IUPAC字母表仅仅是对于大写字母构成的序列的

dna_seq3.alphabet='IUPAC.unambiguous_dna'

print(dna_seq3.alphabet)

print('----------11----------')

print(my_seq2)

print(my_seq2.删c删o除m plement())#输出互补序列

print(my_seq2.reverse_complement())#输出反向互补序列

print(my_seq2[::-1])#在所有这些操作中,字母的属性一直保留着

print('----------12----------')

coding_dna=Seq("ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG",

IUPAC.unambiguous_dna)#双链DNA的复制、延伸

print(coding_dna)

template_dna=coding_dna.reverse_complement()

print(template_dna)

messenger_rna=coding_dna.transcribe()#转录

print(messenger_rna)

print(template_dna.reverse_complement().transcribe())#从模板链去做一个真正的生物学上的转录

print(messenger_rna.back_transcribe())#mRNA逆向转录为DNA编码链

print('----------13----------')

print(messenger_rna.translate())#从mRNA进行翻译

print(coding_dna.translate())#从编码RNA进行翻译,默认情况下连同终止密码子一起翻译*是终止符的意思

print(coding_dna.translate(table='Vertebrate Mitochondrial'))#在线粒体中的编码方式

'''

默认情况下,翻译使用的是标准遗传密码(NCBI上table id 1),

少数细菌(属于原核生物)以GUG(缬氨酸)或UUG为起始密码,

线粒体和叶绿体以AUG、AUU、AUA 为起始密码子

'''

print(coding_dna.translate(table=2))

print(coding_dna.translate(to_stop=True))#仅翻译到阅读框的第一个终止密码子,然后停止

print(coding_dna.translate(table=2,to_stop=True))

print(coding_dna.translate(table=2,stop_symbol='@'))#自定义终止符号

print('----------14----------')

gene=Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCA"+ \

"GCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGAT"+ \

"AATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACAT"+ \

"TATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCAT"+ \

"AAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA",

generic_dna)

print(gene.translate())

新一代测序技术的发展及应用前景

2010年第10期杨晓玲等:新一代测序技术的发展及应用前景 等交叉学科的迅猛发展。 1.1第二代测序——高通量低成本齐头并进以高通量低成本为主要特征的第二代测序,不再需要大肠杆菌进行体内扩增,而是直接通过聚合酶或者连接酶进行体外合成测序¨】。根据其原理又可分为两类:聚合酶合成测序和连接酶合成测序。1.1.1聚合酶合成测序法Roche公司推出的454技术开辟了高通量测序的先河。该技术通量可达Sangcr测序的几百倍,而成本却只有几十分之一,因此一经推出,便受到了国际上基因组学专家的广泛关注。454采用焦磷酸合成测序法HJ,避免了传统测序进行荧光标记以及跑胶等繁琐步骤,同时利用乳胶系统对DNA分子进行扩增,实现了大规模并行测序。截止到2010年4月,已有700多篇文献是采用了454测序技术(http://454.com/publications.and—resources/publications.asp),对该技术是一个极大的肯定。 Illumina公司推出的Solexa遗传分析仪是合成技术的进一步发展与延伸。该技术借助高密度的DNA单分子阵列,使得测序成本和效率均有了较大改善。同时Solexa公司提出的可逆终止子”1也是该技术获得认可的原因之一。与454相比。Solexa拥有更高的通量,更低的成本。虽然片段长度较短仍是主要的技术瓶颈,但是对于已有基因组的物种来说,Solexa理所当然成为第二代测序技术的首选。2008年以来,利用该技术开展的研究大幅度上升,报道文献达400多篇(http://www.illumina.com/systems/genome—analyzer_iix.ilmn)o 1.1.2连接酶合成测序法2007年ABI公司在Church小组拍1研究成果的基础上推出了SOLID测序仪。该技术的创新之处在于双碱基编码…的应用,即每个碱基被阅读两次,因此大大减少了测序带来的错误率,同时可以方便的区分SNP和测序错误。在测序过程中,仪器自动加入4种荧光标记的寡核苷酸探针,探针与引物发生连接反应,通过激发末端的荧光标记识别结合上的碱基类型。目前SOLID3.0测序通量可达20G,而测序片段仅有35—50bp,这使得该技术与Solexa相比,应用范围还不够广泛。ABI公司正加快研发进度,争取在片段长度方面做出重大突破。 DanaherMotion公司推出Polonator¨1测序仪同样也是基于Church小组的研究成果,但是该设备的成本要低很多,同时用户在使用时可以根据自己的研究目的设置不同的测序条件。而CompleteGe—nomics公司推出的DNA纳米阵列与组合探针锚定连接测序法"1则具有更高的容错能力,试剂的消耗也进一步减少,目前已顺利完成3个个体基因组的测序工作。 1.2第三代测序——单分子长片段有望实现第二代测序技术虽然在各方面都有了较大的突破,但是仍然建立在PCR扩增的基础上。为了避免PCR扩增带来的偏差,科学家目前正在研制对DNA单个分子直接测序的第三代测序仪。最具代表性的包括Heliscope单分子测序仪,单分子实时合成测序法,纳米孔测序技术等。 Helicos技术仍然是基于合成测序原理¨…,它采用了一种新的荧光类似物和灵敏的监测系统,能够直接记录到单个碱基的荧光,从而克服了其他方法须同时测数千个相同基因片段以增加信号亮度的缺陷。PacificBioscienees公司研发的单分子实时合成测序法充分利用了DNA聚合酶的特性,可以形象的描述为通过显微镜实时观测DNA聚合酶,并记录DNA合成的整个过程。纳米孔测序技术[11’121则是利用不同碱基在通过纳米小孔时引起的静电感应稍有不同,或者不同碱基通过小孔的能力各有差异,来加以区分不同的碱基信号。 2应用与实践 Kahvejian在2008年的一篇综述中提到¨“:“如果你可以随心所欲地测序,你会开展哪些研究?”。人类基因组计划的完成和近年来高通量测序的兴起,使越来越多的科研工作者认识到,我们对于生物界的认识才刚刚起步。基因图谱的绘制并不意味着所有遗传密码的破解,癌症基因组的开展也没有解决所有的医学难题。DNA变异的模式和进化机制,基因调控网络的结构和相互作用方式,复杂性状及疾病的分子遗传基础等,仍是困扰生物学家和医学家的难题,而高通量测序的广泛应用,也许可以让我们知道的更多。 2.1DNA水平的应用 2.1.1全基因组测序新一代测序技术极大地推

16SrRNA SOP文件

16SrRNA SOP文件 检测方法: (一)细菌基因组DNA的提取: 向200μl的无菌PCR管中加入50μl无菌水,挑取已纯化的单个菌落于其中充分混匀,调制菌液至1-2浊度,震荡15秒钟,盖好管盖置100℃沸水中煮沸 10min,取出后于冰上放置3—5分钟后,13000转离心5分钟,取上清液约 30ul即为DNA提取液 (二)16SrRNA基因的PCR扩增:50 μl 体系 2×PCR Mix 25 μl 上游引物:1μl 下游引物:1μl Taq DNA聚合酶(5 U/μl)0.5μl DNA 模板 1 μl ddH2O 21.5μl 16SrRNA基因的检测引物: 27F:5’-AGAGTTTGATC(C/A)TGGCTCAG-3’ 1492R: 5’-TACGG(C/T)TACCTTGTTACGAC-3’ 16SrRNA基因的PCR反应参数: 94 ℃8 min; 94 ℃40 s 55 ℃(53℃) 40 s 30循环 72 ℃1 min 30 s 72 ℃8 min 4℃保存 注:每次配制PCR反应体系时,应多制备一个体积,以防由于(三)琼脂糖电泳检测: 1×TAE电泳缓冲液的配制:

50×TAE缓冲液:Tris碱121g,冰醋酸28.56mL,0.5mol/LEDTA(pH8.0)50mL,加去离子水定容至500ml室温保存备用,使用时先将50×TAE缓冲液稀释成1×TAE缓冲液。1%琼脂糖凝胶的配制: 称取0.3g琼脂糖,加入30 mL 1×TAE电泳缓冲液,于微波炉中加热溶解,取出后用水冷却至50℃,加入,3μl的goldview核酸染料;将上样梳固定于胶槽内,将制备好的胶液小心地倒入胶板内,使胶液缓慢展平,确保没有气泡后,将胶槽于室温放置使胶液完全凝固。 胶液完全凝固后,将凝胶置于电泳槽内,添加1×TAE电泳缓冲液至没过胶板1—2mm,取4μl产物于胶孔内,100V电泳25分钟。 检测: 将电泳后的凝胶于紫外线下观察,16SrRNA基因的条带位于1500bp处

2017年二代基因测序市场分析

二代基因测序市场分析 目录 一、二代测序资本市场融资火爆 二、二代测序为何如此受市场追捧? 三、测序市场当前现状及存在的问题 四、未来趋势判断及启示 一、二代测序资本市场融资火爆 在整个体外诊断市场,生化和免疫经过多年的发展,市场格局已基本形成;分子诊断目前市场规模还不大,但增速较快,潜力被广泛看好。在分子诊断的不同技术平台中,又以近两年随着“精准医疗”概念迅速崛起的二代测序(NGS)领域最受关注,国内就存在上百家同类企业,且资本市场融资火爆,估值也是居高不下。简单梳理了几个较有代表性的融资案例如下: 1、华大基因 华大基因是国内基因测序领域的领导者,在NGS产业链上、中、下游均有所布局。2012 年-2015 上半年营收分别为7.95亿、10.47亿、11.32亿、5.65亿,净利润对应 8500万、1.73亿、5900万,8200万。2015 年最近一轮融资引进 PE机构以 191 亿估值作为增资及转让的定价基础,引入和玉高林及中国人寿,融资20 亿元,投后估值 210亿。而华大基因按照其IPO的计划定价得出估值约为156亿元,相当于相较一级市场的估值,华大基因的估值实际已缩水超过50亿元,出现了一二级市场的倒挂。

2、贝瑞和康 贝瑞和康成立于 2010 年,利用二代测序平台,在 NIPT 领域占据了主要的市场,全国 100 家医疗机构获得 NIPT 试点资格,70%使用贝瑞和康的仪器及试剂。2015 年底最近一轮融资估值 100 亿,融资金额 3.3 亿左右,引入了海通兴泰、尚融宁波、中信锦绣等机构;2016 年 12 月,上市公司天兴仪表作价 43 亿元购买贝瑞和康 100%股权,若交易完成,贝瑞和康将成功借壳上市。值得关注的是,贝瑞和康 43 亿的借壳价与此前一级市场百亿估值相比,有着较大的出入,同样出现了一二级市场的倒挂,其原因在于市场对贝瑞和康的预期降低还是之前 PE入股时估值过高,也是值得思考推敲的。 3、碳云智能 2015 年 10 月成立,由原华大基因 CEO 王俊等联合创办,定位在“医疗+人工智能”方向,运用人工智能技术进行数据处理,目标是打造智能健康管理大数据平台。成立半年左右,即 2016 年 3 月完成 A 轮融资,融资金额 10 亿元,估值约 65 亿元,腾讯、中源协和、天府集团等机构领投。碳云智能所锚定的大数据积累及解读这个细分相对而言存在一定的门槛,是未来的一个发展方向,但存在的难度及障碍也很大,还有很漫长的路要走。天使期就以如此高的估值融到资更多的还是王俊的“名人”效应,但即使是 65 亿的高估值,王俊依然表示:这只是碳云智能最便宜的时候。 4、燃石医学 2014 年成立,定位于基于 NGS 平台的肿瘤精准医疗基因诊断领域,产品线包括基于组织层面的靶向药物用药指导、易感基因筛查及液体活检,目前以 LDT的形式进行检测。2015 年下半年曾以 15 亿估值获投资机构 1.5 亿元投资,今年正以 30 亿估值融资 2 亿元,进展未知。

我国基因测序行业研究-行业政策、发展状况

我国基因测序行业研究-行业政策、发展状况 (一)行业政策 当前,生物技术在引领未来经济社会发展中的战略地位日益凸显,现代生物技术的一系列重要进展和重大突破正在加速向应用领域渗透。我国政府为加快推进生物技术与生物技术产业发展,打造国家科技核心竞争力和产业优势,对于生物产业,尤其是基因测序领域,加大了产业扶持力度,先后推出了多项相关政策、规划等产业指导。 (1)中华人民共和国国民经济和社会发展第十三个五年规划纲要2016 年3 月,全国人民代表大会发布“十三五”规划指出,支持新一代信 息技术、生物技术、精准医疗等新兴前沿领域创新和产业化,形成一批新增长点。加强前瞻布局,在生命科学等领域,培育一批战略性产业。加快发展合成生物和再生医学技术,打造未来发展新优势。战略性新兴产业发展行动指出,加速推动基因组学等生物技术大规模应用,建设网络化应用示范体系,推进个性化医疗,新型药物,生物育种等新一代生物技术产品和服务的规模化发展,推进基因库细

胞库等基础平台建设。 (2)“十三五”国家科技创新规划 2016 年7 月,国务院印发《关于“十三五”国家科技创新规划的通知》,规划指出:加快推进基因组学新技术、合成生物技术、生物大数据等生命科学前沿关键技术突破,加强生物产业发展及生命科学研究核心关键装备研发,提升我国生物技术前沿领域原创水平,抢占国际生物技术竞争制高点;把握生物技术和信息技术融合发展机遇,建立百万健康人群和重点疾病病人的前瞻队列,建立多层次精准医疗知识库体系和国家生物医学大数据共享平台,重点攻克新一代基因测序技术、组学研究和大数据融合分析技术等精准医疗核心关键技术,开发一批重大疾病早期筛查、分子分型、个体化治疗、疗效预测及监控等精准化应用解决方案和决策支持系统,推动医学诊疗模式变革。 (3)促进和规范健康医疗大数据应用发展的指导意见 2016 年6 月,国务院办公厅发布《关于促进和规范健康医疗大数据应用发 展的指导意见》,意见指出:依托现有资源建设一批心脑血管、肿瘤、老年病和儿科等临床医学数据示范中心,集成基因组学、蛋白质组学等国家医学大数据资

16SrRNA基因在临床上的应用进展

19Engedal N ,Ertesvag A ,Blomhoff HK.Survival of activated human T lym phocytes isprom oted by retinoic acid via induction of I L 22[J ].Int Immunol ,2004,16(3):4432453. 20S tephensen C B ,Ras ooly R ,Jiang X ,et al.Vitam in A enhances in vitro Th2 development via retinoid X receptor pathway[J ].J Immunol ,2002,168(9):449524503. 21G eissmann F ,Revy P ,Brousse N ,et al.Retinoids regulate survival and antigen presentation by immature dendritic cells[J ].J Exp M ed ,2003,198(4):6232634.22H oag K A ,Nashold FE ,G overman J ,et al.Retinoic acid enhances the T helper 2cell development that is essential for robust antibody responses through its action on antigen 2presenting cells [J ].J Nutr ,2002,132(12):373623739. 23M alaba LC ,Iliff P J ,Nathoo K J ,et al.E ffect of postpartum maternal or neonatal vitam in A supplementation on in fant m ortality am ong in fants born to HIV 2negative m others in Z imbabwe[J ].Am J Clin Nutr ,2005,81(2):4542460. (收稿日期:2005206228)(本文编辑:赵英卓) 16S rRNA 基因在临床上的应用进展 Progress in Clinical Application of 16S rRNA G ene 杨祖卿(综述) 尚世强(审校) (浙江大学医学院附属儿童医院,杭州310003) 【摘要】 传统的细菌检测主要依靠血清学、生物化学、细菌形态学及细菌培养等方法进行分类鉴定,但前三者敏感性和特异性不高,后者费时且阳性率低。近10余年来分子生物学技术发展迅速,各种基因方法如DNA 杂交、质粒图谱和16S rRNA 序列分析等在临床上得到广泛应用。该文就近年来国外16S rRNA 在细菌学研究及其应用的一些新进展作一综述。 【关键词】 RNA ,核糖体,16S; 基因 【中图分类号】 Q522 【文献标识码】 A 【文章编号】100123512(2005)0420252204 16S rRNA 基因是细菌染色体上编码rRNA 的相对应的DNA 序列,存在于所有细菌及衣原体、立克次体、支原体、螺旋体、放线菌等原核生物的染色体基因中,不存在于病毒、真菌等非原核生物体内。16S rRNA 具有以下特点:(1)多拷贝。以多拷贝形式存在于细菌染色体基因组中;(2)多信息。编码基因由可变区和保守区组成,保守区为所有细菌共有,细菌间无差别;可变区具有属或种的特异性,可据此设计引物、探针。(3)长度适中。其编码基因长度约1500bp 。目前,几乎所有病原菌的16S rRNA 基因测序均已完成,因此被选为细菌病原体PCR 扩增部分或全部序列的目标[1]。1 研究方法 1.1 基因芯片技术 基因芯片技术也称DNA 微阵列(DNA arrays ),指在固相支持物上原位合成寡核苷酸或 者直接将大量DNA 探针以点涂的方式有序地固化于支持物表面,然后与标记的样品杂交,通过对杂交信号的检测分析,即可得出样品的信号(基因序列或表达信息)。其突出特点在于高度的并行性、多样性、微型化和自动化。有时胶体电泳会得出模糊的结果,非特异的PCR 产物使电泳解释显得困难,而芯片杂交却不会 作者简介:杨祖卿(19762),男,浙江苍南人,在读硕士研究生,主要从事儿童感染性疾病的分子生物学研究。 为这一问题所困扰;短的产物和阵列杂交更有效,PCR 效果更好,因为芯片杂交不会受限于产物的长度以至不能鉴别[2]。 1.2 单链构象多态性分析 单链构象多态性分析的 基本原理是单链DNA 呈现复杂的构象,而这种立体构象主要是依靠单链内碱基配对等分子内相互作用维系的,当碱基发生改变时,必然会影响其构象改变。一旦变性,单链DNA 片段采用一种基于其序列上的特定构象,通过非变性凝胶电泳保持这种构象。这种情况导致了那些具有类似大小却有不同序列的PCR 产物在电泳移动度上有一个变化,这允许它们在检测点不需要完全测序就能区别开来[3]。聚丙稀酸胺凝胶电泳可敏锐地检测单链DNA 序列改变所导致的构象变化。小于400bp 的DNA 片段经变性、双链解链为单链条件下进行聚丙稀酸胺凝胶电泳,根据迁移率的改变可发现具有一个bp 变异的DNA 链。细菌16S rRNA 的保守区是理想的引物目标识别区,而可变区对种类鉴别是有用的。细菌的16S 核糖体基因证实种类特异的序列变异性导致一种DNA 片段构象很容易被单链构象多态性分析所证明。 1.3 荧光定量技术 T aq Man 技术的基本原理[4]是利 用T aq 酶的5′23′外切酶核酸活性,在普通引物5′端和3′端中添加一条荧光双标记探针,分别标记上荧光报

16SrRNA

关于细菌的16srRNA和16srDNA 分子生物学技术的应用使肠道微生态学的研究取得了突破性的发展。目前研究最多的是16S rRNA。 近几年来国外学者采用不同的分子生物学方法对细菌的16SrRNA进行研究,得到了广泛的细菌 16SrRNA序列库。使用该方法可以检测肠道中常规方法不能培养或生长缓慢的细菌。rRNA分子在生物体中普遍存在,生物细胞rRNA分子的一级结构中既具有保守的片段,又具有变化的碱基序列。在生物进化的漫长过程中,rRNA分子保持相对恒定的生物学功能和保守的碱基排列顺序,同时也存在着与进化过程相一致的突变率,在结构上可分为保守区 (conserveddomain)和可变区(variabledomain),保守的片段反应了生物物种间的亲缘关系,而高变片段则能表明物种间的差异,那些保守的或高变的特征性核苷酸序列则是不同分类级别生物(如科、属、种)鉴定的分子基础。研究rRNA基因序列可以发现各物种间的系统发生(phylogenesis)关系。细菌rRNA按沉降系数分为3种,分别为5S、16S和23SrRNA。 其中位于原核细胞核糖体小亚基上的16SrRNA长约1540bp,结构和碱基排列复杂度适中,较易于进行序列测定和分析比较。16SrDNA是细菌染色体上编码 16SrRNA相对应的DNA序列,存在于所有细菌染色体基因中,它的内部结构由保守区及可变区两部分组成[62]。因此可用PCR扩增其相应的rDNA片断,来快速、灵敏地检测样品中是否存在某些细菌或致病菌,或进行细菌多样性分析,尤其是那些人工无法培养的微生物。Woese(1980)在比较200多种原核生物和真核生物的16S(或18S)rRNA/rDNA的核苷酸序列谱后,定义建立了古细菌界(包括产甲烷菌、极端嗜盐菌和极端嗜热菌),将生物界重新划分为3主干6界系统,即古细菌、真细菌和真核生物3个主干,真核生物又包括原生动物、真菌、植物和动物4界。因为古细菌虽然细胞结构和真细菌相似,但在脂类和细胞壁分子结构上有较大差异,16SrRNA碱基序列分析结果也表明古细菌与真细菌之间的同源性差异不小于原核和真核生物之间的差异。现在人们已经认同16SrRNA/rDNA基因序列可用于评价生物的遗传多态性

2016-2022年中国基因测序市场竞争调研与发展前景分析报告

2016-2022年中国基因测序市场竞争调研与发展前景分析报告 中国报告网

2016-2022年中国基因测序市场竞争调研与发展前景分析报告 中国报告网发布的《2016-2022年中国基因测序市场竞争调研与发展前景分析报告》首先介绍了基因测序行业市场相关概念、分类、应用、经营模式,行业全球及中国市场现状,产业政策生产工艺技术等,接着统计了行业部分企业盈利、负债、成长能力等详细数据,对行业现有竞争格局与态势做了深度剖析;结合产业上下游市场、营销渠道及中国政策环境,经济环境,对行业未来投资前景作出审慎分析与预测。 第一章基因测序行业发展综述12 第一节基因测序的定义12 一、基因测序的定义12 二、基因检测的定义12 三、基因测序与基因检测的逻辑关系12 第二节国内基因测序相关政策15 第三节基因测序技术分析17 一、第一代基因测序技术17 二、第二代基因测序技术18 三、第三代基因测序技术19 四、三代基因测序技术对比21 ?【报告来源】中国报告网https://www.wendangku.net/doc/5a15163395.html, ?【交付方式】Email电子版/特快专递 ?【价格】纸介版:7200元电子版:7200元纸介+电子:7500元 第二章基因测序产业链分析27 第一节基因测序产业链简介27 一、基因测序产业链简介27 二、产业链企业竞争力不断提升27 第二节基因测序仪器29 一、基因测序仪发展历程29 二、基因测序仪市场规模36 三、基因测序仪市场格局37 四、基因测序仪并购进程38 五、基因测序仪最新进展43 六、基因测序仪选购因素45 第三节基因测序试剂46 一、国内检测试剂的分类46 二、基因测序试剂市场格局47 三、基因测序试剂最新进展50 第四节基因测序服务51 一、国内基因测序服务处于世界领先水平51

基因检测行业调研

基因检测行业调研 继上次基因检测产业调研之后,这两周我们再次调研了几家基因检测公司,并且拜访了一些行业专家,现将调研的重点内容整理如下,欢迎大家交流探讨。 一、基因检测公司梳理 目前全国涉及基因检测概念的公司有200余家,按照业务范围划分,这些公司可以分为:①最上游的基因检测仪器开发企业(测序仪、芯片扫描仪、PCR设备),②提供样本处理试剂和耗材的中上游企业(建库试剂盒、检测试剂盒、工具酶、基因芯片),③提供第三方基因检测服务的中游企业,④提供测序数据存储、分析和出具报告的下游企业,⑤还有将这三部分整合起来提供CRO服务的商业公司,当然如果公司研发实力和经济实力允许,大部分公司会选择向上下游产业链延伸,进一步提升自己的盈利能力。 按照基因检测公司的服务内容,主要可以分为四类:科研服务、第三方临床基因检测服务、直接面向个人的检测服务、非医疗基因检测服务(例如食品、环境、刑侦等方面的应用)。 1 科研中的基因检测服务又分为两种情况,第一种是纯科研服务,检测目的纯粹是满足科研需要,不作为医学诊断的依据;第二种是以科研的名义为患者提供医学诊断服务,医生在其中起主导作用,推荐有需要的患者去做基因检测,医生在其中所获得的好处是得到用药指导依据、科研数据、获得销售提成,这是当前肿瘤基因测序普遍采用的手段,因为目前国内还没有一种获批临床的肿瘤高通量检测试剂盒,只能以科研的形式变相的进行医学诊断从而获取收益。纯科研基因检测市场在百亿级别。 2 第三方临床检测机构是指批准为医院提供检测外包服务的独立医学检验实验室,大部分第三方临检机构都能开展分子诊断服务(需通过临检中心的PCR实验室认证),例如QPCR、ddPCR、基因芯片等,但是高通量测序在临床检测上的应用当前受到限制,只有在试点名单上的机构才能出具正式的临检报告,目前出台了第一批四个领域的试点名单,分别是遗传病诊断、产前筛查与诊断、植入前胚胎遗传学诊断、肿瘤基因测序,试点单位名单由卫计委医政医管局和妇幼司共同制定。临床基因检测的市场空间在千亿级别。 3 提供面向个人基因检测服务的商业公司,提供的是非诊断性基因检测,例如23andMe是美国本地唯一一家被FDA批准的能够直接向个人提供基于基因检测分析服务公司,业务范围也仅仅提供祖源分析、遗传病筛查、酒精耐受、基因寻亲这四类遗传分析服务,23andMe此前的疾病风险筛查和药物过敏分析被禁止,而我国有许多直接面向个人的基因检测商业机构,业务范围甚至包括疾病风险、天赋基因、个性特征分析等一系列基因分析服务,未来有加强监管和整合的压力。商业化B2C基因检测的市场空间在十亿级别。

16SrRNA基因技术在环境科学领域中的应用_乐毅全

·综 述· 收稿日期:2003-04-10作者简介:乐毅全(1962-),男,浙江宁波人,现就读于同济大学环境工 程专业博士研究生,讲师。 16S rRNA 基因技术在环境科学领域中的应用 乐毅全,顾国维 (同济大学污染控制与资源化国家重点实验室,上海 200092) 摘要:随着分子生物学的发展,16S r RNA 基因技术被逐渐应用到环境科学领域中。目前在环境保护和治理中,该技术主要被 用于鉴定污染物的生物降解菌和分析环境样品中的微生物群落多样性,由于它不必将微生物培养分离出来,也就避免了在培养过程中可能出现的微生物丢失的情况。本文对16S r RN A 基因技术及其在环境科学领域中的应用现状和发展作了一简要介绍,并对16S r RNA 基因技术存在的不足进行了讨论。关 键 词:16S r RNA 基因序列;DNA 扩增;多样性分析 中图分类号:Q 938 文献标识码:A 文章编号:1001-3644(2003)06-0001-04 The Application of 16S rRNA Gene Technology on Environmental Sciences LE Yi -quan ,GU Guo -w ei (National K ey L aboratory of Pollution Control and Resources Reuse , Tongji University ,S hanghai 200092,China ) A bstract :With the development of mo lecular biology ,the 16S rRNA gene technique has been gradually used in environmental sci -ences .N ow ,this technique has been mainly applied to identify the pollutant -biodegradation bacteria and to analyse the diversity of mi -croorganism community in enviro nmental samples .Because it is unnecessary to culture the microorg anisms by traditional metho ds ,it can avoid the situation of losing the microorg anisms during the culture .I n this paper ,it briefly introduces that the development and the use of 16S rRN A gene technique on enviro nmental sciences .T he disadvantage of 16S rRNA gene technique is also discussed .Key words : 16S rRNA g ene sequence ;DNA amplifica tio n ;diversity analysis 1 微生物体内的16S rRNA 基因及其应用 核糖体存在于每个合成蛋白质的细胞中,在原核微生物中,核糖体是分散在细胞质中的亚微颗粒,细菌的核糖体由三种相对分子量不同的rRNA 组成,分别为5S rRNA 、16S rRNA 和23S rRNA 。其中16S rRNA 的长度在1475-1544核苷酸之间,含有少量修饰碱基,16S rRNA 的结构十分保守。 Pace 等[1] 在20世纪80年代首先利用rRNA 基因(rDNA )来确定环境中的微生物,通过对5S rRNA 基因的序列分析来研究微生物的生态和进化,由于5S rRNA 基因相对较小(约120个核苷酸),携带的信息较少,而随后开展的16S rRNA 基因序列可以携带更多的信息,效率更高。 以16S rRNA 基因为基础,结合DNA 扩增(PCR )技术,近年来发展出一种新的分子生物学手 段,即通过对16S rRNA 基因的DNA 序列分析,可以分析细菌的种类信息,并且已经逐渐成为微生物分类和鉴定中非常重要而且有用的指标和手段。目前在生物学上,有关16S rRNA 基因的工作很多,集中在以下两个方面: 1.1 对未知生物的分类鉴定 相对于传统的微生物形态、生理生化指标,DNA 由于其稳定性和保守性,逐渐为人们所关注,随着生物学研究手段的发展,把生物的DNA 信息作为生物分类鉴定的指标已经成为可能,如G +C %、DNA 杂交、DNA -rRNA 杂交和16S rRNA 碱基顺序分析等。 rRNA 由于含量大,已成为细菌系统分类学研究中最常用的方法,其中16S rDNA 序列的相对稳定而又高度保守,可以为细菌鉴定提供相对稳定可靠的信息。目前,已有10000种以上的细菌的16S rDNA 序列被报道,并且每年以很快的速度补充到Genebank 中。利用特异的引物对未知的来自细菌的DNA 样品 — 1—四川环境2003年第22卷第6期 DOI :10.14034/j .cn ki .schj .2003.06.001

基因测序的产业链及商业模式

基因测序的产业链及商业模式 导读:基因组学是未来最被看好的领域之一,在农业、畜牧业、祖先起源、法医取证、生物能源、药物等领域均有广泛应用。探索基因测序行业的产业链和商业模式是目前测序服务公司目前的主要工作,本文为大家梳理一下基因测序服务行业的产业链和商业模式。

基因组学是未来最被看好的领域之一,比尔·盖茨说,”下一个超越他的富豪将来自基因领域“。2014年7月,麦肯锡发布报告称,除移动互联网、物联网以及云储备外。在生物领域,下一代基因组学上榜是未来10年10大热门发展领域之一,未来的10年,该领域的潜在能量大致为0.7万亿至1.6万亿美元之间。而当前全球基因组学市场为110亿美元左右。基因组学在农业、畜牧业、祖先起源、法医取证、生物能源、药物等领域均有广泛应用。 探索基因测序行业的产业链和商业模式显得非常有必要了。本文为大家梳理一下当前基因测序行业的产业链和商业模式。 基因测序产业链 基因测序产业链,上游为测序仪器和试剂供应商,中间为基因检测服务提供商,下游对象为医院,药企,科研机构和病人本身。目前测序仪和核心试剂相关技术为外企垄断,国内企业多为检测服务提供商。 上下游供应商的关系:国内基因检测服务提供商普遍存在的问题是对上游仪器和试剂供应商依赖严重,绝大部分国内公司不具备自行研发测序仪和核心试剂的能力,因此能否与上游供应商形成长期稳定的共盈关系变得非常重要。境外市场,Illumina 和 Life Tech 两家仪器供应商已开始通过并购等方式向下游延伸,与下游服务型企业形成直接竞争;境内市场目前暂无这类动向,考虑到外资企业在服务领域并不具备优势,短期内国内基因检测公司仍可与外资仪器供应商共赢。值得注意的是,华大基因于 2012 年收购了 Complete Genomics,后者为一家基因测序仪开发公司,望借此逐步摆脱对 Illumina 的依赖。 临床检测资质的获取:CFDA年初叫停基因检测的临床应用随后打开试点申报标志着行业开始进入规范化,在技术平台和需求都已具备在的情况下,能否尽早拿到资质成为能否领跑国内测序服务行业的关键之一。6月30日,CFDA以罕见的速度报批了华大基因的测序仪和试剂盒。 疾病基因组数据库的建立:对于测序服务类企业来说,测序结果的解读是业务流程中最大的壁垒,数据解读的准确度和样本量直接相关,是否拥有企业自身的疾病基因组数据库,能否积累足够的样本量,构建自己的 IT 平台提高解读准确度是拉开测序服务企业差距的关键之一。

一代至四代测序技术详细讲解

一、我们将如何应对海量的基因信息 新一代测序技术带给人们大量遗传信息的同时,却成为限制其广泛应用的一个障碍。 1980年,英国生物化学家Frederick Sanger与美国生物化学家Walter Gilbert建立了DNA测序技术并获得诺贝尔化学奖,至今已有近三十年了。在这三十年,DNA测序技术取得了令人瞩目的进展。目前已进入市场的循环阵列测序平台采用的是与Sanger生物化学测序方法完全不同的原理。在过去几年,应用极为广泛的毛细管电泳测序法采用的则是多线并行阵列格式,它运用尖端的荧光成像技术进行碱基识别。上述各类新技术为生物学研究领域开辟了新的视角,也使实验研究达到一个新的水平。学界对开发这类新技术的兴趣持续高涨,与此同时,人们却发现这些技术存在一定的不足——大量信息数据的产生限制了技术更加广泛的应用,并降低了其市场价值。 过去,研究人员使用Applied Biosystems(ABI)公司的3730XL毛细管电泳测序仪进行基因分析,每年至多能完成六千万碱基的测序量。随着测序技术日新月异的发展,这种情况已经成为历史。在2005年刚刚开始进行新一代测序技术开发时,Roche公司和454公司联合开发的焦磷酸测序仪的分析速度就已经达到了上述提及的ABI仪器速度的50倍之上。也就是从那时起,因基因数据过多而产生的问题凸显了出来,而且这个问题随着其他制造商开发出更多更快的测序仪而愈加严重。举个例子,ABI的新一代测序平台SOLiD(supported oligonucleotide ligation and detection)单次运行,便可以分析6Gb的碱基序列;而Roche/454测序仪单次运行可以将上述结果转换成12-15个千兆字节(gigabytes)的数据信息;Illumina Genome Analyzer(GAII)测序系统仅在两个小时的运行时间里,就得到10兆兆字节(terabytes)的信息。尽管对于像Applied Biosystems这样的制造商而言,可以为用户提供高达11.25TB的存储量,但对于多数实验室所具有的信息管理系统来说,规模如此庞大的数据信息,就好像是迎面而来的洪水,让人感到难以控制。 过量信息所带来的一个副作用在于,用户无法将初始图像数据进行分类存档,而必须交给相关公司,利用软件对数据进行读取,然后才能对数据进行保存。对于大多数研究人员来说,像这样在每次实验后对原始数据进行处理的方式既繁琐又不经济。与花费上万美元对每一段序列进行备份分析相比,对每一次测序结果进行重新测定显然是一个更简单、更便宜的选择。测序仪制造商称,对原始数据再次进行分析并不能得到更多新的信息。但是,对于454测序仪而言,用户至少可以通过更新的软件从原始数据得到质量更高的序列,从而提高碱基识别分辨率,减少误差。 除数据处理问题之外,研究人员还需要拥有一个足够强大的计算机平台,以便将来自多个测序技术的短小基因片段进行组合,形成基因组外显子。目前问题在于,测序仪生产商仅仅提供用于某些特定基因信息分析的软件,如靶标重测序、基因表达分析、染色质免疫沉淀反应或基因组从头测序等,而并未提供任何其它类型的下游生物学信息分析软件。研究界越来越熟悉这些测序平台对循证生物学的巨大潜力,这也就产生了新的研究问题以及全新类型的试验方法,而这单凭依赖目前的生物学信息是无法满足的。 从这个角度看,SOLiD软件研发公司(https://www.wendangku.net/doc/5a15163395.html,/gf/)于今年七月刚刚兼并了两个新的软件公司,这一举动无疑朝正确的方向迈进了一步。该公司在开放源码许可证下开发软件分析工具,目的就是为了给生物信息学领域提供支持,并为其开发新的算法。 对用户而言,如果能够将数据格式与不同测序平台获得的结果进行比较所得的统计数字进行标准化,无疑具有重大的意义。特别是由于目前以测序平台为核心的市场竞争激烈,因此每个生产商都努力提供最好的数据结果。

2017年基因测序分析报告

2017年基因测序分析报告 WORD可编辑

文本目录 一、基因测序临床项目:重点覆盖生育和肿瘤 (4) 二、无创产前检测:基因测序临床转化最成熟的项目 (4) (一)准确安全周期短,无创产检是方向 (4) (事)叐益事孩红利市场空间大,龙头企业先収优势强 (6) 三、胚胎植入前遗传学检测:继NIPT 之后,基因测序临床应用的下一个爆发点 (12) (一)试管婴儿染色体异常高収,基因测序劣力优质胚胎筛选 (12) (事)胚胎植入前检测借力试管婴儿谋収展 (15) 四、肿瘤基因检测:预防→诊断→治疗→监测,基因测序全方位覆盖 (18) (一)当前以筛查诊断为主,未来有望实现完全闭环 (18) 1、肿瘤易感基因筛查 (19) 2、肿瘤早期诊断 (20) 3、肿瘤伴随诊断和用药指导 (22) 4、肿瘤愈后监控 (24) (事)增长潜力巢大,千亿市场可期 (24) 五、相关标的:贝瑞基因关注现在,华大基因布局未来 (26) (一)贝瑞基因:与注基因测序癿临床转化 (26) (事)华大基因:布局全面,国内测序龙头;厚积薄収,业务转型顺利 (27) (三)其它相关上市公叵 (28) 六、风险提示 (29) 图表目录 图1:基因测序在临床检测中癿应用 (4) 图2:无创产前检测収展历程 (5) 图3:无创产前检测原理 (5) 图4:无创产前检测操作流程 (5) 图5:无创产前检测产品在全球各个国宧癿分布(戔至2014 年底) (6) 图6:国内无创产前检测监管模式 (8) 图7:2010-2020 年我国出生人数预计发化 (9) 图8:唐氏综合征収病率随孕妇年龄增长显著升高 (9) 图9:2011-2015 年我国高龄产妇(≥35岁)产儿比例 (9) 图10:政府定价对无创产前检测市场价格癿影响 (10) 图11:2015-2020 年我国无创产前检测预计市场觃模 (10) 图12:2015 年我国无创产前检测市场格局(按检测例数计算) (11) 图13:2016Q1 我国无创产前检测市场格局(按检测例数计算) (11) 图14:国内主要无创产前检测产品检测样本量(戔至2016.3) (11) 图15:胚胎植入前筛查对人巟叐精生育癿影响 (13) 图16:胚胎植入前遗传学检测収展历程 (13) 图17:胚胎植入前遗传学检测癿操作流程 (14) 图18:胚胎植入前遗传学检测技术特点 (15) 图19:全球试管婴儿累计数量 (16) 图20:丌孕丌育比例随女性年龄增长迅速升高 (16) 图21:2011-2015 年我国30 岁以上产妇产儿比例 (16)

新一代测序技术的发展和应用_田李

·特约综述· 2015, 31(11):1-8 生物技术通报 BIOTECHNOLOGY BULLETIN DNA 测序技术在生命科学的发展中起着越来越重要的作用。新一代测序技术是一种革命性的技术,它的出现使得科研人员能够以相对较少的经费获得以往望尘莫及的海量DNA 序列,从根本上改变了人们研究生命科学的方式 [1] 。现阶段,生命科学的研 究已经从以往研究单一基因转变为研究整个基因组,其中既包括了基础研究中的基因组、转录组和表观遗传,也涉及了应用研究中的医学诊断和农作物育种等[2] 。本文回顾了DNA 测序技术的演化,并论述了其在生命科学研究中的应用。 1 测序技术的发展 1.1 第一代测序技术 Sanger 等在20世纪70年代中期发明了DNA 末端终止法测序技术,他的发明第一次为人们开启了解读生命遗传密码的大门,Sanger 本人也因此获得了1980年诺贝尔化学奖[3]。DNA 末端终止法测序技术的基本原理是:通过在DNA 聚合酶、模板、放射性同位素标记的引物、dNTP 和ddNTP 的作用下发生延伸反应,由于ddNTP 的存在,会形成长度不一的DNA 延伸片段;然后采用平板凝胶电泳,用4 收稿日期:2015-04-10 基金项目:国家自然科学基金项目(31501588),中国博士后科学基金项目(2014T70621),山东省自然科学基金项目(ZR2013CQ018)作者简介:田李,博士,副教授,研究方向:植物病原真菌的致病机理及比较基因组学;E -mail :tianlister@https://www.wendangku.net/doc/5a15163395.html, 通讯作者:赵云峰,博士,教授,研究方向:细胞生物学;E -mail :yfz667788@https://www.wendangku.net/doc/5a15163395.html, 新一代测序技术的发展和应用 田李1?张颖2?赵云峰1 (1.曲阜师范大学生命科学学院,曲阜 273165;2. 山东水利职业学院,日照 276826) 摘 要: DNA 测序技术是人类探索生命秘密的重要研究手段。自第一代的Sanger 测序技术诞生以来,DNA 测序技术经历了三代变革,产生了第二代到第四代测序技术,统称为新一代测序技术。目前,新一代测序技术的数据产出能力呈指数增长,而且这一技术本身也从依赖DNA 聚合酶的生化反应转变为面向物理学中纳米技术的新领域。新一代测序对生命科学领域具有里程碑意义,引领了科学研究模式革新和研究思维的转变。科研人员可利用新一代测序技术对基因组、转录组和表观组等诸多领域展深入的研究。分析了新一代测序技术的特点,并对其未来的发展方向以及应用进行了展望。 关键词: 新一代DNA 测序;边合成边测序; 单分子测序;纳米孔;应用DOI :10.13560/https://www.wendangku.net/doc/5a15163395.html,ki.biotech.bull.1985.2015.11.003 The Next Generation Sequencing Technology and Its Applications Tian Li 1 Zhang Ying 2 Zhao Yunfeng 1 (1. College of Life Science ,Qufu Normal University ,Qufu 273165;2. Shandong Water Polytechnic ,Rizhao 276826) Abstract : DNA sequencing technology is an important research method in life science. Since the birth of the Sanger sequencing technology, DNA sequencing technology has experienced three generations of change, resulting the second generation to the fourth generation sequencing technology. DNA sequencing not only has been improving its productivity in an exponential growth rate but also been evolving into a new technological territories toward physical disciplines of nanotechnology. Next generation sequencing that has landmark significance of life sciences, can improve researches in the genome, transcriptome and epigenome. This review analyzes technical characteristics of the next generation sequencers and provide prospective insights into their future development and applications. Key words : next generation sequencing; sequence by synthesis ; single molecule sequencing ; nanopore ;applications 网络出版时间:2015-11-26 15:41:55 网络出版地址:https://www.wendangku.net/doc/5a15163395.html,/kcms/detail/11.2396.Q.20151126.1541.001.html

相关文档