隨著(zhù)高通量測序技術(shù)的不斷崛起,全基因組測序也逐步普及。越來(lái)越多的物種基因組予以公布。目前,主要有兩種獲得研究物種參考基因組的策略:de novo 基因組拼接和基于mapping算法的基因組序列修正,mapping是指將所有測序讀段通過(guò)序列比對定位到參考基因組上。De novo基因組拼接是利用短讀序列(reads)組裝出一個(gè)基因組草圖,然后通過(guò)自動(dòng)注釋標出可能的開(kāi)放閱讀框(open reading frame, ORF)。然而現行的測序平臺和自動(dòng)拼接算法的限制,并不能一次拼接出較長(cháng)的基因組序列,而是輸出數以萬(wàn)計的短碎的contig,這些contig常常缺乏完整的ORF,或者很難對ORF進(jìn)行預測,甚至對于基因組較小的生物也存在這種問(wèn)題。因此,想要做到較好的基因組拼接效果,就必須額外進(jìn)行測序以及更復雜的計算處理。然而即便是這樣,拼接結果仍然錯誤頻發(fā)。研究報道,當食烷菌(Alcanivorax borkumensis)SK2菌株的平均測序深度為30x時(shí),de novo 拼接結果的正確率只有95.3%(每20個(gè)堿基有一個(gè)錯誤),覆蓋度為98.7%,遠低于基于mapping算法的基因組修正策略。另外,自動(dòng)注釋的準確性仍然有待提高:在測試中,對食烷菌(Alcanivorax borkumensis)SK2拼接結果的ORF進(jìn)行注釋?zhuān)詈玫淖⑨屲浖仓荒苓_到52.8%的正確率,假陽(yáng)性率高達到49%。
相比之下,基于mapping的基因組修正策略是將短讀序列(reads)匹配到近緣物種已知的全基因組上,然后找到單核苷酸變異,并用這些修正信息補充更新現有的參考序列。當存在已知的近緣基因組序列時(shí),這種策略得到的新基因組會(huì )非常精確,而且可以直接利用原有的基因組注釋信息。盡管基于mapping的基因組修正策略無(wú)法分析與參考基因組相比有大片段插入或者是基因組重排的情況,但是這些插入的部分通常對于蛋白質(zhì)方向的研究并不太重要,因為在系統中大多數編碼基因均普遍存在。因此,這種策略能夠有效的運用于群體的基因分型,也就是簡(jiǎn)化基因組分析。隨著(zhù)生物信息學(xué)的不斷發(fā)展,各種mapping算法應運而生。相應的也存在很多檢測研究物種實(shí)際基因組序列與已知近緣參考基因組序列間單個(gè)核苷酸變異(SNV)的算法,例如,k-spectrum-based、Suffixtree/array based和MSA based。相應的軟件有HSHREC、Reptile、Quake、SOAPec、HiTEC、ECHO、Coral。根據Yang文中的評估結果,Reptile參數的選擇比其他軟件繁瑣;HiTEC不適合處理有“N”的或不同長(cháng)度的reads。值得關(guān)注的是,這些方法的共有的缺陷也十分明顯:
(1)對于SNV的敏感度非常不穩定,對有的菌很好但有的菌很差(可低至0.03%);
(2)敏感度最高的算法在修正大腸桿菌基因組時(shí)就需要11個(gè)小時(shí)以上的時(shí)間和大約10 GB的RAM,此方法對計算機的性能要求很高;
(3)現行可用的方法都只能處理與參考基因組十分相近的基因組(差異<1.6%)。對于沒(méi)有十分相似基因組的物種,這些算法都無(wú)法很好的發(fā)揮其功能。
很不幸的是,單一物種不同菌株間的遺傳多樣性常常超出上述算法的最大限度。例如輕癥鏈球菌(Streptococcus mitis)不同菌株間的差異要高于5%;金黃色葡萄球菌(Staphylococcus aureus)不同菌株基因組序列間的變異率甚至能夠達到20%。顯然,傳統的基于mapping的基因組修正方法是無(wú)法解決如此高得差異度的,但是基因組的多樣性往往導致了菌株致病性和耐藥性的重大變化。而基因組的高度變異又會(huì )導致這些缺乏準確的參考蛋白組,這種情況嚴重阻礙了這些菌株蛋白質(zhì)組的分析與發(fā)展,影響了致病菌和耐藥菌的功能研究。
針對上述問(wèn)題,暨南大學(xué)翻譯組學(xué)實(shí)驗室提出了一個(gè)新策略。利用迭代修正的方法不斷矯正已知近緣物種的基因組序列,以獲得研究物種相對精確的基因組。這種修正方法是基于該實(shí)驗室自行開(kāi)發(fā)的mapping算法:FANSe。FANSe具有穩定、精確、容錯率高的特點(diǎn),能夠在保持合理運行速度的前提下達到非常高的準確度。FANSe的優(yōu)勢體現在:
(1)準確性:在實(shí)際運行時(shí),FANSe能夠達到一個(gè)穩定且非常高的靈敏度。在測序錯誤率為每核苷酸0.5%的情況下,FANSe的誤判率可低達10-6,特別是在比對RNA-seq序列時(shí)。
(2)對插入缺失位點(diǎn)敏感:FANSe使用了不依賴(lài)硬件的加速Smith-Waterman算法,能夠完美的檢測出堿基的插入與缺失。
(3)運算速度:在運行速度方面,FANSe使用CPU的一個(gè)核便可以在幾分鐘內將1000萬(wàn)條reads匹配到大腸桿菌的參考基因組上??稍诖蠹s一天時(shí)間內,使用一臺四核計算機將1000萬(wàn)條reads 匹配到人類(lèi)參考基因組上。
(4)容錯率高:FANSe對于錯配堿基的容忍度也是極高的。這一參數可供使用者根據研究需要靈活設置,而不像其它mapping算法,例如:SOAP2、Bowtie,最多只能允許2~3個(gè)錯配。設置較高的錯配數時(shí),FANSe并不會(huì )降低比對的準確性,reads仍然能夠匹配到最佳的位置上。
(5)適應性強:FANSe的適用性很廣,對于輸入的測序讀長(cháng)和參考基因組沒(méi)有任何限制。它可以支持參考序列中同時(shí)存在大小寫(xiě)字母和未被準確測定的核苷酸(標記為“N”),并支持單向比對。FANSe這一強大的比對算法為我們新策略的提出奠定了堅實(shí)的基礎。新策略可以矯正研究物種基因組與已知近緣物種基因組的差異大約在5%左右的情況并正確輸出研究物種的參考蛋白質(zhì)組。在二級質(zhì)譜鑒定中,利用修正后的蛋白質(zhì)數據庫能夠顯著(zhù)的提高蛋白和肽段的鑒定效率。新策略大幅度提高了非模式生物功能蛋白質(zhì)組的分析。