基因文库的构建
基因工程技术的迅速发展使人们对生物体基因的结构、功能、表达及其调控的研究深入到分子水平,而分离和获得特定基因片段是上述研究的基础。完整的基因文库的构建使任何DNA片段的筛选和获得成为可能。基因文库是指通过克隆方法保存在适当宿主中的一群混合的DNA分子,所有这些分子中的插入片段的总和,可代表某种生物的全部基因组序列或全部mRNA序列,按此可分为基因组文库和cDNA文库。
基因文库载体容纳外源基因的大小(size),称为载体的容量。显而易见,容量大的载体优越性大。l噬菌体是早期用于构建文库的载体,可接受15 kb~20 kb的外源DNA片段,用置换型的插入,容量还可更大些。粘粒(cosmid)是把l的粘末端(cohesive end)嵌入质粒而成,其容量达35 kb~45 kb。近年使用的酵母表达体系,例如YAC质粒,容量达Mbp级。
一般来说,生物越高等,基因的结构越庞大,复杂。完整的基因文库,必须使任何一个基因进入库内的概率均达99 %。换句话说,要求在文库内钓取任何一个基因,均有99 %的可能性。例如人类基因组DNA序列是3´109 bp(30亿碱基对),如果构建基因文库的载体,容量只有4 kb,这种文库应有的克隆数为:3´109/4´103=7.5´105。载体容量大,所需的克隆数也就少些。可见,生物基因组大小和载体容量是克隆总数的2个重要参数。70年代中期,Clarke和Carbon提出了一个统计学公式,用于计算基因文库应有的克隆数(N值),公式如下:
N=ln(1-P)/ln(1-f/g)
其中,P为从基因文库中选出的任一基因概率,一般定为99 %(0.99);f为载体容量(kb);g为基因组大小(kb)。
构建一个理想的基因文库有多方面的要求。首先,构建的文库中应包含全部DNA序列,能代表全部基因组序列或mRNA序列。这就要求克隆过程中尽可能随机化,不能有偏向性,文库构成后混合培养细菌进行扩增的时间应尽可能短。其次,构建的文库既要足够大,具有代表性,又要在便于筛选克隆的数量级范围内,否则筛选过程会花费较多的人力和物力。通常采用能插入较大外源片段的l噬菌体载体和粘粒载体而不用只能插入较小片段的质粒载体。另外在克隆过程中可对载体进行适当处理(例如脱磷酸等),以减少非重组子数,提高重组子数。还有一点,就是构建的文库要便于扩增和储存,以便进行多方面的研究。相对而言,以噬菌体颗粒形式存在的用l载体构建的文库,比以质粒形式存在的用粘粒构建的文库易于扩增和保存。另外,还需选择适当的宿主使文库不致因扩增和保存而丢失某些片段。