什么是基因测序,为什么要跑在云上

本文带你领略过去这年中人类对基因的认识从无到有,并到当下即将进入寻常百姓家的发展历程,以及说明为什么基因测序和云计算会扯上关系。另,本文定位只是科普类文章,目的是带你入门基因测序技术,所以内容篇幅都不会很长。如果你对某个环节的细节感兴趣,你可以继续查找相关的资料深入学习。

一、什么是基因

1.探索遗传因子

孟德尔种植豌豆的故事相信大家都有听说过,他在年至年的8年间种下了约株豌豆植株并进行杂交实验。孟德尔发现,当纯品系的黄色豌豆和纯品系的绿色豌豆交配时,他们的后代总是产生黄色豌豆。然而,再下一代,绿色豌豆重新出现,绿黄比例为1:3。

他在论文中提出:生物的所有性状都是通过遗传因子来传递的,遗传因子是一些独立的遗传单位。不过直到年时,他的研究才被人们所重视,人类开始意识到,也许有一种“遗传因子”在控制着生命的特性。所以在接下来的百年中,科学家们都在寻找这个“遗传因子”的秘密。

2.遗传因子与染色体

随后的年,德国的科学家在细胞核内发现了一种可以被碱性红色染料染色的“微粒状特殊物质”,也就是现在的“染色体”。此后,科学家们在了解了染色体与细胞分裂的关系后,开始意识到染色体可能是遗传的重要物质。

年,美国细胞学家萨顿在实验中发现:染色体的行为与孟德尔的遗传因子的行为是平行的,只要假定遗传因子在染色体上,孟德尔所提出的分离定律和自由组合定律的机制就可以得到合理的解释。那么,遗传因子是否真的存在于染色体上呢?这一推论很快就被美国生物学家摩尔根在年以实验结果证实。并且实验进一步表明,一条染色体上可以有多个遗传因子。同时,科学家们开始把遗传因子命名为基因。

3.DNA双螺旋

虽然DNA在细胞核中很早就被发现,但证明其为遗传物质的决定性实验是年艾弗里的肺炎双球菌转化实验。该实验明确证实:DNA是遗传信息的载体。随后年赫希和蔡斯进一步证明遗传物质是DNA而不是蛋白质。

然而那个时候,虽然人们已经知道了脱氧核糖核酸(DNA)可能是遗传物质,但是对于DNA的结构,以及它如何在生命活动中发挥作用的机制还不甚了解。年,美国分子生物学家詹姆斯·沃森和英国物理学家佛朗西斯·克里克根据威尔金斯和富兰克林所进行的X射线衍射分析,提出了著名的DNA双螺旋结构模型,进一步说明基因载体就是DNA。

4.基因

在证明DNA是由无数碱基对组成的双螺旋后,那么不同的碱基对顺序,是否就代表了能够影响生物不同的特性呢?事实结果也确实证明了这一点,这个过程就是基因的转录过程,也就是用基因编码顺序,来控制翻译从而得到不同的蛋白质。

这里插一个有意思的过程,DNA在细胞核内,而蛋白质在细胞核外。那么这种翻译是怎么进行的呢?所以科学家推断肯定有一种可以传递密码的东西,能从细胞核里面跑到细胞核外面。这个信使也就是RNA了,而且RNA是一个单链结构。

而最最神奇的,就是这个RNA翻译为蛋白质的过程。科学家证实3个编码为一组,可以对应一种氨基酸,用来控制蛋白质的种类(蛋白质由一个或多个由氨基酸残基组成的长链条组成)。

因为有4种符号,又是3个一组,所以总共也就是有64种编码。这个编码表就是上帝的密码表了。

PS,如果换个角度看这个密码表,你会发现跟咱们八卦确实有那么一丢丢像(比如双螺旋,64卦)

好了,知道了基因就是神奇的密码,它可以控制生物的特性。接下来的工作就是要破解这个密码,也就是第一步得先得到DNA的具体序列。于是当前的工作重点就跑到了如何测定每种生物的DNA序列。

二、基因怎么测序

1.桑格测序

最早的DNA测序技术,由英国生物化学家弗雷德里克·桑格(FrederickSanger)于年发明。具体过程太技术化,简单概括就是一个一个按需顺序进行检测。这种检测方法可以做到精度非常高(达99.%),读长(一次最长检测的DNA长度)很长(0bp),可以成为后续其他基因检测仪的判断标准。人类基因组计划(HGP)主要就是使用该测序方法完成的。

拿了两块诺贝尔奖的桑格

但是这种测序方法也有很明显的缺点,就是成本昂贵,测序速度也比较慢。这也是为什么人类基因组计划需要美、英、日、德、法、中等国耗时10年时间才完成人类基因图谱的绘制。

2.基因参考组

人类基因组计划(HumanGenomeProject,HGP)是一项规模宏大,跨国跨学科的科学探索工程。其宗旨在于测定组成人类染色体中所包含的30亿个碱基对组成的DNA序列,从而绘制人类基因组图谱,并且找出所有基因在染色体上的位置,达到破译人类遗传信息的最终目的。

该计划于年宣布完成,意义巨大。

3.二代测序技术

因为不同的人与人之间的基因序列只有不到1%差异,当我们已经有了一份完整的人类基因图谱,那么其他人的基因序列都是差不多的。所以就出现了鸟枪法测序(又称散-弹-枪法)。该法的思路独特,好像树林里停了一大群鸟,很多人乱枪射击,在很短的时间内,就可以将林子中的大部分鸟打中。

“鸟枪法”有点类似人们玩的拼图游戏。拼图游戏是将一个完整的画面分成杂乱无章的碎块,然后重新拼装复原。而“鸟枪法”则是先将整个基因组打乱,切成随机碎片,然后测定每个小片段序列,最终利用计算机对这些切片进行排序和组装,并确定它们在基因组中的正确位置。

由于可以将目标先拆分小粒度,然后分段得出结果,最后合并结果。这就好比是大数据中的并行计算,直接导致的结果就是测序性能大大提升。经过不断的技术开发和改进,第二代测序技术开始诞生了。

第二代测序技术在大幅提高了测序速度的同时,还大大地降低了测序成本,并且保持了高准确性,以前完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周,但其序列读长方面比起第一代测序技术则要短很多,大多只有bp-bp。

二代测序技术最大的价值在于它极大地降低了测序的成本,使得基因测序技术普及并开始进入普通消费者的视野。

而二代测序技术中,属Illumina公司的测序仪,市场占有率最高,属于绝对的控制地位。

这里有个介绍Illumina测序原理的视频(3分钟),强烈推荐打开看一看,对理解二代测序原理将有很大的帮助:









































海口治白癜风最好的医院
白癜风医治



转载请注明:http://www.bjgongshangzhuce.com/jywh/4569.html


当前时间: