首頁 >國內(nèi) >

中國科學家將基因組分析速度提升5倍

自基因組學技術(shù)問世以來,測序與分析一直是基因組學技術(shù)中最主要的兩個環(huán)節(jié)。實際上,與繁重的測序工作相比,基因組的分析也同樣復雜,需要耗費大量時間。

然而,隨著近年來基因組學技術(shù)發(fā)展突飛猛進,這種狀況正在逐步改變。

日前,中國農(nóng)業(yè)科學院深圳農(nóng)業(yè)基因組研究所阮玨團隊在《自然·方法學》上發(fā)表了第三代測序數(shù)據(jù)組裝算法Wtdbg,極大提高三代測序數(shù)據(jù)的分析效率,與今年4月發(fā)表在《自然·生物技術(shù)》上的Flye算法相比,分析速度提升了5倍,并首次將測序數(shù)據(jù)分析時間降低到少于測序數(shù)據(jù)產(chǎn)出時間。

基因組的測序與分析

DNA測序技術(shù)成熟于上世紀70年代中后期,1990年人類基因組計劃的提出,將基因組測序技術(shù)逐步由實驗室邁入商業(yè)化階段;到2004年人類基因組計劃完成時,第二代基因組測序技術(shù)已經(jīng)相對成熟,開始大規(guī)模商業(yè)化應用;2013年,單分子等第三代測序技術(shù)出現(xiàn),也預示著測序技術(shù)應用更廣,測序的成本越低。

“如今,完成一個人的全基因組測序是普通家庭都可以負擔起費用的‘平常’事情了。以三代測序為例,完成個人全基因組測序僅需1天時間、費用低于5萬元。”論文作者、中國農(nóng)業(yè)科學院深圳農(nóng)業(yè)基因組研究所研究員阮玨告訴經(jīng)濟日報記者。

在測序技術(shù)日新月異的同時,分析技術(shù)也在共同成長。以人類基因組組裝為例,在2014年需要消耗50萬個CPU小時,且只能在超大計算機集群上進行。因而,以全基因組組裝方式對群體進行測序分析已經(jīng)成為生物醫(yī)學研究的趨勢。

關(guān)鍵鑰匙:模糊布魯因圖

Wtdbg算法的開發(fā)得益于一個新的組裝圖理論——模糊布魯因圖的提出。模糊布魯因圖借鑒了德布魯因圖的思想,將測序數(shù)據(jù)切分為固定長度的短串,再從短串構(gòu)建出的圖上恢復出全基因組序列。

上世紀90年代,德布魯因圖被引入基因組組裝領(lǐng)域,其以速度優(yōu)勢常用于第二代測序數(shù)據(jù)的組裝分析,但因測序噪音極高,從未成功應用在第三代測序數(shù)據(jù)。

2013年起,阮玨和美國哈佛醫(yī)學院的博士李恒在德布魯因圖基礎(chǔ)上,設(shè)計出一個新的組裝圖理論——模糊布魯因圖。通過重新對短串進行定義,它能夠容忍高噪音數(shù)據(jù),并隨后對生成組裝圖和恢復基因組序列做了大量相應的重構(gòu),使其兼具高效率和高容錯的優(yōu)點。

不斷進化的新算法

近年來,生物信息學領(lǐng)域的科學家們致力于改變這種數(shù)據(jù)產(chǎn)出速度遠高于數(shù)據(jù)分析速度的尷尬狀況,不斷開發(fā)出更高效的組裝分析算法。

2013年,阮玨與李恒合作開始了測序數(shù)據(jù)分析方法如組裝算法的開發(fā),力求推動測序數(shù)據(jù)的分析速度更快、分析質(zhì)量更高。2016年,他們的研究結(jié)束,并將研究成果Wtdbg對所有人免費開放使用。3年來,這項成果不僅被幾十篇學術(shù)論文引用,還被國內(nèi)多家基因測序分析公司作為主要組裝分析工具,并且在2019年世界大學生超算競賽中作為性能測試賽題。

“我們收到大量反饋,不僅有助修訂算法軟件中的漏洞,還帶來了新想法和思路。算法需要不斷在實踐中完善,只有通過更多實際應用,我們才能更有效調(diào)整改進這套算法。目前的算法與2016年相比已經(jīng)是2.0版本,而更高版本的算法于今年初也開始了研究。”阮玨告訴記者。

關(guān)鍵詞:

責任編輯:Rex_01

推薦閱讀