人类基因组测序未完成90的结构变异体被

“科学家们说,人类基因组测序已经完成”,纽约时报、Science、Nature在年都以相似的标题报道了这个历史性的成就。但是,有一个小问题。

业内人士所知道的,并不是其他人所听到的。大众以为,构成23对人类染色体的所有DNA——每个A,T,C和G都已经基本完全清楚了。美国国立卫生研究院在常见问题中对“人类基因组是否完全测序”的回答:“是的”,“是在当前技术能做的范围内已经完成”。

遗漏的未测序部分

领导Whitehead研究所实验室的EricLander说:“实际上,‘已经完成的测序序列’还没有完成。我经常说,这个“完成”只是一种艺术上的辞令。”Whitehead研究所在美国政府资助的人类基因组计划中承担了最主要的工作量,超过其他任何一个机构。

另外一个杰出的基因组学家文特尔(CraigVenter)表示,“非常坦白地说人类基因组从未完全测序。”

哈佛医学院的大咖级人物GeorgeChurch也说,“人类基因组没有被完全测序,据我所知也没有任何其他的哺乳动物基因组被完全测序。”GeorgeChurch曾在测序技术领域取得了关键的早期进展。

因为遗漏的序列看起来似乎并不重要,大概没有人会留意这个问题。但现在看来,它们可能在一些疾病——诸如癌症和自闭症等疾病——中起作用。

加州大学圣克鲁斯分校生物学家卡伦·米加(KarenMiga)表示:“20世纪80年代和90年代(人类基因组计划开始时),很多人认为这些区域是非功能性的。

“但是情况已经完全不同了,”这些区域中一些称为卫星区域的部分,在某些形式的癌症中存在异常,“因此,在这些区域中发生了很重要的事情。”Miga认为,对这些基因组中尚无法企及的未知之地进行测序,“是人类遗传学和基因组学的最后一片荒野。”

GeorgeChurch在五月份的会议上提到合成基因组的工作,以及上周末国际干细胞研究学会的会议上也一直在强调这一点。他说,大多数未测序区域,“与衰老和非整倍体(即染色体数量异常,如唐氏综合症)存在有某种关联”。Church估计,人类基因组还有4%至9%尚未测序。Miga认为是8%。

(GeorgeChurch)

造成这些测序结果的空白间隙(或者漏洞)的原因是:DNA测序机器在测序基因组时不像人类读书那样从第一个字看到最后一个字。相反,他们首先随机地切碎多个拷贝的23对染色体——这23对染色体总共约有30亿个“字母”——这样机器就不会因为“一口气读这么长的序列而累死”。在人类基因组计划期间,随机切碎产生的片段中大概包含1,个碱基(Sanger测序),在当今的NGS测序平台中随机切碎产生的片段约为数百个碱基)。这些片段相互重叠。用计算机可匹配重叠,将片段组装成正确的顺序。

但是如果这些片段包含大量重复的段,如TTAATATTAATATTAATA,这种组装就很困难,甚至无法组装。“问题在于,当你拿到相同序列的区域,很难组装,”Lander说,就像拼图游戏中遇到显示同样蓝天的拼图碎片时。

年,人类基因组计划报告说,人类基因组序列中有个空白间隙。多数的空白——其中个——位于每条染色体的主要部位,即维持生命运行的蛋白质的基因所在之处。这些空白间隙很小。只有几个空白间-最新计数是33个-位于每个染色体的着丝粒(染色体两个部分连接之处)和端粒(染色体末端的帽)上或附近,但这33个空白间隙大小,大约是那个空白间隙总和的10倍之长。

这使得着丝粒区域就像基因组里未知的曲折起伏的河流。华盛顿大学的EvanEichler表示,每个染色体都有这样的难以测序的重复元件-就像是DNA语言中的结结巴巴的地方-例如其中包括一段臭名昭着的、长达个字母的、末端回文重复达数千碱基的片段。

现任麻省理工学院和哈佛大学Broad研究所所长Lander说,在人类基因组计划开始时就“非常清楚,这些高度重复的序列对现有技术来说是无法对付的。当时并不算一个很大的困扰,因为他和其他项目负责人期望下一代科学家找到一个解决方案。这个问题到现在仍没有真正解决,部分原因是没有太多的动机去一对一定位映射这些区域。“我不确定,有点怀疑,这些位置是否真的对于疾病来说很重要,但也许我这样说是因为我们还没法读到这些序列。”DNA重复序列是否致病取决于什么?

(EricLander)

然而,随着新的测序技术已经能够帮助科学家去窥视这些未测序的领域,他们已经看到,“这些难以测序的区域内经常包含具有重要作用的基因,”PacificBiosciences的董事长兼首席执行官MichaelHunkapiller说。PacBio是第三代DNA测序仪生产商。(Hunkapiller以往的显赫战绩包括年曾聘请文特尔到他的新公司CeleraGenomics,以一私人公司之力单挑由美国政府支持的人类基因组计划,双方展开激烈竞争,最终政府支持的人类基因组计划居然没占到优势,以克林顿总统出面协调,按双方平手共赢收场,嘿嘿,厉害。)

Hunkapiller说,PacBio以增加测序读长(可读取及组装的DNA片段之长度)为终极奥义。越长的读取片段,其效果就像放大拼图块一样——即使这些拼图块仍然包含很多重复的“蓝天”(拼图游戏中大片非常相似、没啥特征的区域),更大的读出序列长度使得它们更有可能包含一些足够新的信息,使得它们更容易组装。Hunkapiller说,PacBio的当前最大DNA读长约为6万碱基,平均读长为1.5万个碱基对。相比NGS多到bp的短读长,优势不言而喻。

Lander说:“有了这么长的测序读长,你可以通读很多这些令人讨厌的[未测序]区域了。”

这看起来越来越像一个值得的事情,不仅因为未测序区域可能含有实际与制造蛋白质相关的基因;有证据表明,非基因部分-特别是DNA重重复复或者断断续续的部分-“显然对疾病有影响,”Hunkapiller说。一个人与另一个人之间的“基因组差异”部分有四分之三是这样的结构变异”,而不是过去一直特别受


转载请注明:http://www.bjgongshangzhuce.com/jyjg/7156.html


当前时间: