生信名词
生物信息学(bioinformatics):综合计算机科学、信息技术和数学的理论和方法来研究生物信息的交叉学科。包括生物学数据的研究、存档、显示、处理和模拟,基因遗传和物理图谱的处理,核苷酸和氨基酸序列分析,新基因的发现和蛋白质结构的预测等。
基因组(genome):是指一个物种的单倍体的染色体数目,又称染色体组。它包含了该物种自身的所有基因。
基因(gene):是遗传信息的物理和功能单位,包含产生一条多肽链或功能RNA所必需的全部核苷酸序列。
基因组学(genomics):是指对所有基因进行基因组作图(包括遗传图谱、物理图谱、转录图谱)、核酸序列测定、基因定位和基因功能分析的科学。基因组学包括结构基因组学(structural genomics)、功能基因组学(functional genomics)、比较基因组学(Comparative genomics)。
蛋白质组学(proteomics):阐明生物体各种生物基因组在细胞中表达的全部蛋白质的表达模式及功能模式的学科。包括鉴定蛋白质的表达、存在方式(修饰形式)、结构、功能和相互作用等。
高通量测序:高通量测序技术(High-throughputsequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )足见其划时代的改变, 同时高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能, 所以又被称为深度测序(Deep sequencing)。
下一代测序:英文名为Next Generation Sequencing,简称为NGS。也叫做二代测序或者高通量测序。也称为高通量测序,high-throughput sequencing,或者称为新一代测序,全基因组测序WGS等等概念。是指相对于Sanger为主的第一代测序技术来说的,其特点是测序产量高,读长短,价格便宜。现在通常所说的二代测序技术,主要包括ABI的solid测序,罗氏的454测序技术、Life 公司的Ion Torrent测序技术和illumina公司的Hiseq、miseq测序技术等。当前最主要的是指illunina测序。
全基因组测序 (Whole Genome Sequecing,WGS):是指利用高通量测序平台对人类 不同个体或群体进行全基因组测序,并在个体或群体水平上进行生物信息分析的技术手段. 全基因组测序可全面挖掘 DNA 水平的遗传变异,包括较大的结构性变异,为筛选疾病的致病 及易感基因,研究发病及遗传机制 ,以及推断种群迁徙和进化等提供重要信息。全基因组测序可以检测人基因组上SNP突变,INDEL突变之外,还可以用于检测拷贝数变异CNV和结构变异SV,融合基因,病毒整合位点检测,非编码区突变检测等。
全外显子组测序, Whole Exon Sequencing:也就是只测序基因组上的外显子区域。目前主要用于人基因组的研究,也包括一些小鼠等。人类基因组中约有180,000个外显子,占人全部基因组的1%,约30M。外显子测序是利用探针杂交富集外显子区域的DNA序列,然后通过高通量测序,主要用于研究基因组上编码区域的信息。WES只包含了基因组上外显子的信息,而WGS则覆盖了所有的遗传信息。相比于WGS,WES可以进行大样本高深度的测序。
目标区域测序(Target Region Sequenceing,TRS):是针对研究者感兴趣的基因组序列,通过定制目标区域的探针,与基因组DNA进行杂交,将目标区域DNA富集后进行高通量测序的技术手段。目标区域测序可以进行更大样本量的测序,可以用于发现和验证疾病相关位点或候选基因,广泛应用于临床诊断和药物研究。
RAD(Restriction site Associated DNA):是与限制性核酸内切酶识别位点相关的DNA。RAD方法对基因组DNA进行单酶切,然后对酶切片段超声波随机打断,进行高通量测序。
GBS(Genotyping-By-Sequencing):是指通过测序进行基因分型。GBS方法对基因组DNA进行单酶切,不需要超声波随机打断,而是利用PCR进行片段大小选择。
BSA(Bulked segreant analysis):也称为集群分离分析法或混合分组分析法,通常指的是从作图群体中挑选极端个体,然后混合样 本构成DNA池。通过计算DNA池中的突变表型亲本的基 因型频率,实现基因定位。
第三代测序技术:主要是相对于二代测序技术来说的,主要包括Pacbio 测序,nanopore测序等单分子测序技术。相对于二代测序读长短的特点,三代测序读长更长,因为不使用pcr技术,读长不受pcr技术的限制,目前的pacbio测序可以达到20K的读长,但是三代测序目前主要面临测序错误过高的问题。往往是将其与二代测序的illumina数据混合来使用。
宏基因组学:宏基因组学(又称元基因组学,环境基因组学,生态基因组学等),这个词主要来源于Environmental Microbiology的简称,也叫做meta genomics。是以微生物多样性、 种群结构、 进化关系、 功能活性、 相互协作关系及与环境之间的关系为研究目的的新的微生物研究方法。是研究直接从环境样本中提取的基因组遗传物质的学科。传统的微生物研究依赖于实验室培养,元基因组的兴起填补了无法在传统实验室中培养的微生物研究的空白。宏基因组研究目前主要分为16s测序和宏基因组测序。16S测序以分类研究为核心,可以提供物种分类,物种丰度以及系统进化分析。宏基因组测序除了能提供物种分类,物种丰度分析之外,还能做基因功能以及代谢通路相关的研究。
小RNA测序:小RNA为一类重要的体内调节分子,主要包括miRNA、piRNA、siRNA。它的功能主要是诱导基因沉默,参与基因转录后调控,从而调节细胞生长、分化,以及个体发育、生殖等重要生物学过程。小RNA测序技术采用胶分离技术,收集样品中18-30nt的RNA片段,利用高通量测序技术,能够一次性获得单碱基分辨率的数百万条小RNA序列信息,通过数据分析,鉴定已知小RNA,并预测新的小RNA及其靶标。推测小RNA与样品表型之间相互作用的关系。
数字化表达谱分析(DGE):Digital Gene Expression Profile,利用新一代高通量测序技术和高性能计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况,即运用特定的酶对mRNA距polyA tail 21-25nt的位置进行酶切,所获得的带polyA尾的序列(Tag)通过高通量测序,该tag被测得的次数即是对应基因的表达值。数字基因表达谱已被广泛应用于基础科学研究、医学研究和药物研发等领域。特点是经济,但获得 的数据量有限。若想获得转录本的更多信息的话,一般都采用转录组测序的方法来测序。而且这里面需要注意,DGE是通过固定的polyA探针,从样品中筛选出表达的基因,因为原核生物mRNA没有固定的探针序列,因此,原核生物无法做DGE测序分析。
全基因组Bisulfite甲基化测序:全基因组甲基化测序是DNA甲基化研究的黄金标准,它具有单碱基的分辨率,可精确评估单个C碱基的甲基化水平,覆盖范围广。它可以构建精细甲基化图谱,建立表观遗传学研究数据库,为后续大规模开展不同样品间的甲基化差异分析提供参考图谱。医学研究方面可以阐明复杂疾病的部分发生、发展机制;干细胞的传代、分化、重编程过程中甲基化调控;以及环境因素(如激素、饮食、压力、损伤等)对甲基化修饰的影响,从而引起一系列疾病或是表型的改变。农业研究方面可以绘制某物种的甲基化图谱,研究特定区域的甲基化与物种特定表型的相关性,进一步研究营养、环境、自然选择压力对物种的甲基化修饰的影响,为动植物分子育种研究提供基础。
MeDIP Sequencing(MeDIP-Seq):MeDIP-Seq是基于免疫富集原理进行高性价比的全基因组DNA甲基化研究。可以以较小的数据量快速有效地寻找基因组上的甲基化区域,从而比较不同细胞、组织、甚至疾病样本间的DNA甲基化修饰模式的差异。可广泛的用于大样本量的疾病研究和分子育种研究。
ChIP Sequencing(ChIP-Seq):染色质免疫共沉淀(Chromatin Immunoprecipition, ChIP)是研究蛋白质与DNA相互作用的经典实验方法,ChIP与高通量测序的结合(ChIP Sequencing)可以在全基因组范围内对蛋白结合位点进行高效而准确地筛选与鉴定,广泛应用于组蛋白修饰,转录因子调控等相关领域的研究。
表观遗传学:Epigenetics,是指在基因组DNA序列没有改变的情况下,基因的表达调控和性状发生了可遗传的变化。表观遗传的现象很多,已知的有DNA甲基化(DNA methylation),基因组印记(genomic impriting),母体效应(maternal effects),基因沉默(gene silencing),核仁显性,休眠转座子激活和RNA编辑(RNA editing)等。全基因组甲基化测序:DNA 甲基化是指在 DNA 甲基化转移酶的作用下,在基因组 CpG 二核苷酸的胞嘧啶5'碳位共价键结合一个甲基基团。DNA 甲基化已经成为表观遗传学和表观基因组学的重要研究内容。甲基化是基因表达的主要调控方式之一,研究染色体DNA甲基化情况是了解基因调控的重要手段。对已经有参考基因组的物种的基因组DNA用标准亚硫酸氢盐(Bisulfite)处理后,未甲基化的胞嘧啶C会脱氨基形成尿嘧啶U,经PCR扩增,U替换为胸腺嘧啶T,而发生甲基化的胞嘧啶C保持不变。将处理组与参考基因组序列进行比对,可发现甲基化位点并对甲基化情况进行定量分析的方法叫做全基因组甲基化测序。
ChIp-Seq:Chromatin Immunoprecipitation sequencing,即染色质免疫共沉淀-测序技术,即通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段。对富集得到的DNA片段进行纯化与文库构建,然后进行高通量测序,从而得到全基因组范围内可以与目的蛋白相互作用的DNA片段的方法叫做ChIP-Seq。
转录组测序:转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组研究是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本及基因序列,已广泛应用于基础研究、临床诊断和药物研发等领域。
全基因组重测序:全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点。SBC可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异, 同时完成注释。
可变剪切:可变剪切(或选择性剪切)是一个过程,即主要基因或者mRNA前体转录所产生的RNA的外显子以多种方式通过RNA剪切进行重连。由此产生的不同的基因可能被翻译成不同的蛋白质构体,因此,一个基因可能编码多种蛋白质。
基因融合:两个基因或两个基因的各自一部分(或全部)的序列融合成一个新的基因的过程。
同源重组:是指发生在非姐妹染色单体(sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合。(又称为一般性重组它是由两条同源互补的DNA分子通过配对链的断裂和再连接而产生片段交换的过程)。
cDNA文库:以mRNA为模板,经反转录酶催化,在体外反转录成cDNA,与适当的载体(常用噬菌体或质粒载体)连接后转化受体菌,则每个细菌含有一段cDNA,并能繁殖扩增,这样包含着细胞全部mRNA信息的cDNA克隆集合称为该组织细胞的cDNA文库。
GO :GO是基因联合会(Gene Onotology Consortium)所创立的数据库,旨在建立一个适用于各种堆基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能。
KEGG:Kyoto Encyclopedia of Genes and Genomes,京都基因及基因组百科全书,是一个有关生物系统较完善的数据库,关联基因组信息和功能信息的知识库。其由基因蛋白序列(KEGG Genes)、具有内源性和外源性的化学物质(KEGG Ligand)、分子相互作用和代谢通路图(KEGG Pathway)和各种生物之间的层次关系(KEGG Brite)构成,在功能注释分析中,我们主要关注的是KEGG代谢通路图的分析。【教程:KEGG数据库使用及通路分析教程】
COG:Cluster of Orthologous Groups of pretein,蛋白相邻类的聚簇。该数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成的。对于预测单个蛋白质的功能和整个新基因组中的蛋白质的功能非常有用。
转录组测序:转录组即特定细胞在某一功能状态下所能转录出来的所有RNA的总和,包括mRNA和非编码RNA。转录组研究是基因功能及结构研究的基础和出发点,通过新一代高通量测序,能够全面快速地获得某一物种特定组织或器官在某一状态下的几乎所有转录本及基因序列,已广泛应用于基础研究、临床诊断和药物研发等领域。
全基因组重测序:全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。全基因组重测序的个体,通过序列比对,可以找到大量的单核苷酸多态性位点(SNP),插入缺失位点(InDel,Insertion/Deletion)、结构变异位点(SV,Structure Variation)位点。SBC可以协助客户,通过生物信息手段,分析不同个体基因组间的结构差异, 同时完成注释。
可变剪切:可变剪切(或选择性剪切)是一个过程,即主要基因或者mRNA前体转录所产生的RNA的外显子以多种方式通过RNA剪切进行重连。由此产生的不同的基因可能被翻译成不同的蛋白质构体,因此,一个基因可能编码多种蛋白质。
基因融合:两个基因或两个基因的各自一部分(或全部)的序列融合成一个新的基因的过程。
同源重组:是指发生在非姐妹染色单体(sister chromatin) 之间或同一染色体上含有同源序列的DNA分子之间或分子之内的重新组合。(又称为一般性重组它是由两条同源互补的DNA分子通过配对链的断裂和再连接而产生片段交换的过程)。
微进化:又称种内进化(microevolution),是由突变,遗传漂变,基因流和自然选择导致的等位基因频率的改变。
趋同进化:convergent evolution,不同的生物,在相同或相似的环境条件下,逐渐具有相似性状的进化过程。
平行进化:parallel evolution,来自共同祖先的两个生物类群,在不同生态环境中产生性状分异,后又因生活于相似生态环境而产生相似性状的进化方式。
遗传漂变(genetic drift):对于所有有限大小的种群来说,由于小样本抽样的基因数量有限而导致种群的等位基因频率在世代间发生变化的现象 遗传重组 genetic recombination :指分别来自两个亲本的基因连锁群间所产生的交换,形成两个亲本所没有的连锁群组合,产生具有重组性状的后代(重组体)的现象。
Ka/Ks:在遗传学中,Ka/Ks或者dN/dS表示的是异义替换(Ka)和同义替换(Ks)之间的比例。这个比例可以判断是否有选择压力作用于这个蛋白质编码基因。异义替换导致氨基酸的改变,而同义替换由于密码子虽然改变,但是仍旧对应的是同一氨基酸。由于异义替换往往对于生命体有害,所以在纯化选择的作用下,异义替换常常会在群体中被逐渐消灭。
进化树:英文Evolutionary Trees。在生物学中,用来表示物种之间的进化关系,又称“系统树”、“系谱树”。生物分类学家和进化论者根据各类生物间的亲缘关系的远近,把各类生物安置在有分枝的树状的图表上,简明地表示生物的进化历程和亲缘关系。
分子树(molecular tree):依据分子数据构建的反映分子系统发育的树。
系统发生树(英文:Phylogenetic tree):又称为演化树(evolutionary tree),是表明被认为具有共同祖先的各物种间演化关系的树。是一种亲缘分支分类方法(cladogram)。在树中,每个节点代表其各分支的最近共同祖先,而节点间的线段长度对应演化距离(如估计的演化时间)。
基因树(Gene tree): 当一个分子系统树是根据某一个基因数据构建而来的,称为基因树。
物种树(Species tree): 是指代表一组物种进化过程的系统树,映物种实际种系发生的树
MP 最大简约法(maximal parsimony):假设4种核苷酸或者20中氨基酸可以突变为与其自身不同的任何一种,这样对于任何一个给定的拓朴结构,可以推断每个位点的祖先状态。对这一拓朴结构,可以计算出用来解释整个进化过程所需核苷酸或者氨基酸的最小替代数。对所有可能正确的拓朴结构进行这种计算,并挑选出所需替代数最小的拓朴结构作为最优系统树。
NJ 邻接法(neighbour joining):是距离法中的一种,这种方法并不检验所有可能的拓朴结构,但在物种聚合时要应用最小进化原则。 ML 最大似然法( maximal likelihood ):在ML法中,以一个特定的替代模型分析既定的一组序列数据,使所获得的每一个拓朴结构的拟自然率最大,挑选出其中拟自然率最大的拓朴结构作为最终树。
Read:高通量测序平台产生的短序列就称为reads,也称为一个读段,reads可以是单独一条,成为Single End reads,简称SE read,也可以是两条具有物理关系的一对reads,根据reads方向,可以分为Pair-end reads和mate-pair reads,简称为PE reads。在很多分析中会利用管道reads之间的关系。
Contig:来自于单词contiguous,拼接软件基于reads之间的overlap关系,连接成为更长的序列为contig,contig序列之间不再具有overlap关系,也不包含N碱基。
Scaffold:基因组拼接得到contig序列之后,通过reads之间的pair-end或者mate-pair关系,连接成更长的片段成为scaffold,scaffold序列一般包含N碱基。
N50:N50是基因组拼接之后一个评价指标,将拼接得到的所有的序列,根据序列大小从大到小进行排序,然后逐步开始累加,当加和长度超过总长一半时,加入的序列长度即为N50长度。N50越长,拼接得到的更长的序列越多,类似的还有N90等。
Coverage depth:(覆盖深度,亦简称覆盖度,也叫乘数),指每个碱基被测序的平均次数,是用来衡量测序量的首要参数。
Coverage ratio:(覆盖比率,亦简称覆盖率),指被测序到的碱基占全基因组大小的比率。覆盖比率随覆盖深度升高而提高,亦受测序bias的影响,如illumina测序会受到GC bias的影响而导致测序不均匀。
回文序列:palindromic sequence;palindrome具有反向重复的DNA序列。通常是DNA结合蛋白的识别部位,也是限制性核酸内切酶识别位点的序列特征。
串联重复序列(Tandem Repeat sequences):在染色体上一段序列的多次重复,称为串联重复序列。常用来作为物理图谱中的标记子。
LTR:长末端重复转座子(long terminal repeat),是由RNA反转录而成的元件,它在两端有长大数百碱基对的LTR。Length:1.5-10kbp Encode reverse transcriptase Flanked by 300-1000bps terminal repeats。
LINE:长散在重复序列(long interspersed nuclear elements),意为散在分布的长细胞核因子,是散在分布在哺乳动物基因组中的一类重复,这种重复序列比较长,平均长度大于1000bp,平均间隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。
SINE:为短散在重复序列(short interspersed nuclear elements)。SINE是非自主转座的反转录转座子,来源于RNA聚合酶III 的转录物,它的平均长度约为300bp,平均间隔1000bp,如:Alu家族,Hinf家族序列。
SNP:单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称SNP,读作/snip/)指的是DNA序列上发生的单个核苷酸碱基之间的变异,在人群中这种变异的发生频率至少大于1%,否则被认为是点突变。在人类遗传基因的各种差异,有90%都可归因于SNP所引起的基因变异。在人基因组中,每隔100至300个碱基就会存在一处SNP。每3个SNP中有两个会是胞嘧啶(C)和胸腺嘧啶(T)的相互转变。
同义突变(synonymous mutation):由于生物地遗传密码子存在兼并现象,是碱基被替换之后,产生了新地密码子,但新旧密码子是同义密码子,所编码的氨基酸种类保持不变,因此同义突变并不产生突变效应。
错义突变(missense mutation):是编码某种氨基酸的密码子经碱基替换以后,变成编码另一种氨基酸的密码子,从而使多肽链的氨基酸种类和序列发生改变。错义突变的结果通常能使多肽链丧失原有功能,许多蛋白质的异常就是由错义突变引起的。
无义突变(nonsense mutation ):是指由于某个碱基的改变使代表某种氨基酸的密码子突变为终止密码子,从而使肽链合成提前终止。编码氨基酸的密码子突变为终止密码子,使肽链合成中断。
移码突变(frameshift mutation):在正常地DNA分子中,碱基缺失或增加非3地倍数,造成这位置之后的一系列编码发生移位错误的改变,这种现象称移码突变。
InDel:一般把基因组突变小于50bp的插入和缺失成为InDel,一般50bp小于一个reads长度,可以通过reads进行检测。
CNV:copy number variation:基因组拷贝数变异,基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。
基因组结构变化,Structure Variation,简称SV:染色体结构变异是指在染色体上发生了大片段的变异。分为广义和狭义之分,广义上来说基因组上所有的变化都可以成为SV,目前主要使用其狭义的概念,主要是指基因组结构变化超过50个碱基的突变,包括染色体大片段的插入和缺失,染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosometrans-location)等。
Segment Duplication:一般称为SD区域,串联重复是由序列相近的一些DNA片段串联组成。串联重复在人类基因多样性的灵长类基因中发挥重要作用。在人类染色体Y和22号染色体上,有很大的SD序列。
NT库:NCBI非冗余的核酸数据库,包括GeneBank、Refseq和PDB。
NR 库 :NR库是由NCBI收集的非冗余蛋白数据库,包括所有非冗余GeneBank CDS的翻译序列 + 参考序列蛋白 + PDB数据库 + SwissProt蛋白数据库 + PRF蛋白数据库,内容丰富。
SwissProt:SwissProt数据库是经过注释的蛋白序列数据库,由欧洲生物信息学研究所(EBI)维护。每个条目包括蛋白质序列、引用文献、分类学信息和注释等。注释包括蛋白质的功能、转录后修饰、特殊位点、二级结构等信息。
TrEMBL :TrEMBL数据库中大多数蛋白序列不是直接由实验得到,而是通过DNA序列翻译而得到,是一个计算机注释的蛋白质数据库,作为SwissProt的补充。该库主要从EMBL/GeneBank/DDBJ核酸数据库中根据CDS翻译而得到蛋白质序列。