北京大學(xué)生物動(dòng)態(tài)光學(xué)成像中心,北京未來(lái)基因診斷高精尖創(chuàng )新中心等處的研究人員發(fā)表了題為“Highly accurate fluorogenic DNA sequencing with information theory–based error correction”的文章,報道了一種全新概念的測序方法——糾錯編碼(簡(jiǎn)稱(chēng)ECC)測序法。ECC測序法采取一種獨特的邊合成邊測序(SBS)策略,利用多輪測序過(guò)程中產(chǎn)生的簡(jiǎn)并序列間的信息冗余,大幅度增加了測序精度。
這一研究成果公布在今天(美國時(shí)間11月6日)Nature Biotechnology雜志上。文章的通訊作者為北京大學(xué)生命科學(xué)聯(lián)合中心黃巖誼教授,其他作者包括北京大學(xué)博士后陳子天,博士研究生周文雄、喬朔、康力,段海峰副研究員和謝曉亮教授。
高通量測序近年來(lái)的蓬勃發(fā)展有望大大影響醫學(xué)的未來(lái)。然而,測序技術(shù)仍有很多方面有待改進(jìn),如費用進(jìn)一步降低,以及樣品制備方面的改善。兩類(lèi)主要的測序技術(shù):使用原始的核苷酸以及使用熒光標記的核苷酸各有優(yōu)缺點(diǎn)——前者測序過(guò)程相對較快,且焦磷酸測序能實(shí)現較長(cháng)的讀長(cháng),但瞬時(shí)發(fā)光或電化學(xué)信號的檢測需要持續監控,這限制了通量,而且往往不夠熒光檢測靈敏;后者降低了試劑消耗和成本。然而,每個(gè)測序循環(huán)中多個(gè)化學(xué)步驟使流程更為復雜,限制了測序速度和讀長(cháng)。
2011年,謝曉亮課題組在Nature Methods上發(fā)文,將以上兩種方法的優(yōu)勢結合起來(lái),開(kāi)發(fā)出了熒光焦磷酸測序。這種測序方法巧妙之處在于在DNA互補鏈合成時(shí)可以釋放同所延伸核苷酸數目相等的熒光分子,利用這一反應可以實(shí)現低錯誤率的SBS。
在此基礎上,黃巖誼課題組過(guò)去幾年對該方法進(jìn)行了拓展),為本次技術(shù)突破奠定了基礎。研究人員首先從化學(xué)原理上對熒光發(fā)生測序技術(shù)中的熒光標記分子進(jìn)行了結構優(yōu)化,設計合成了具有不同波長(cháng)、更優(yōu)性能的測序底物分子,并對聚合酶參與的各階段反應動(dòng)力學(xué)進(jìn)行了細致的測量和建模;在深入理解熒光發(fā)生測序化學(xué)反應速度、完成度、副反應等關(guān)鍵技術(shù)細節的基礎上,完善了ECC測序原理樣機的搭建,不斷迭代優(yōu)化測序反應條件和信號采集流程;從數據入手,構建了精確的測序信號失相模型并提出了次級延伸理論,并據此開(kāi)發(fā)出算法軟件對測序反應失相過(guò)程做出了合理簡(jiǎn)化使其具備了實(shí)用性。
在ECC測序法中,序列信息的冗余來(lái)自黃巖誼課題組新發(fā)展的“對偶堿基熒光發(fā)生”SBS測序流程,該流程通過(guò)對測序試劑按對偶堿基分為兩兩匹配的三組,并對待測DNA序列進(jìn)行三輪獨立測序,繼而產(chǎn)生三條互相正交的簡(jiǎn)并序列編碼。這三條編碼可互為校驗,后續不但能夠通過(guò)解碼推導出真實(shí)堿基序列信息,而且具備對單輪測序錯誤位點(diǎn)的校正能力。
ECC編碼和解碼策略已被廣泛應用在信息通訊和存儲等其它領(lǐng)域中,并被證實(shí)可以有效檢測和糾正數據傳輸或存儲時(shí)發(fā)生的錯誤。此次黃巖誼團隊在測序技術(shù)中首次引入冗余編碼概念,通過(guò)和低錯誤率的熒光發(fā)生測序技術(shù)巧妙結合,在實(shí)驗室搭建的原理樣機上獲得了單端測序超過(guò)200堿基讀長(cháng)無(wú)錯誤的實(shí)驗結果。
(本文轉載生物通)