逐次修正基因組法:有效提高非模式生物蛋白質組鑒定的新策略
瀏覽次數:1829 發布日期:2014-10-10
來源:本站 僅供參考,謝絕轉載,否則責任自負
隨著高通量測序技術的不斷崛起,全基因組測序也逐步普及。越來越多的物種基因組予以公布。目前,主要有兩種獲得研究物種參考基因組的策略:de novo 基因組拼接和基于mapping算法的基因組序列修正,mapping是指將所有測序讀段通過序列比對定位到參考基因組上。De novo 基因組拼接是利用短讀序列(reads)組裝出一個基因組草圖,然后通過自動注釋標出可能的開放閱讀框(open reading frame, ORF)。然而現行的測序平臺和自動拼接算法的限制,并不能一次拼接出較長的基因組序列,而是輸出數以萬計的短碎的contig,這些contig常常缺乏完整的ORF,或者很難對ORF進行預測,甚至對于基因組較小的生物也存在這種問題。因此,想要做到較好的基因組拼接效果,就必須額外進行測序以及更復雜的計算處理。然而即便是這樣,拼接結果仍然錯誤頻發。研究報道,當食烷菌(Alcanivorax borkumensis)SK2菌株的平均測序深度為30x時,de novo 拼接結果的正確率只有95.3%(每20個堿基有一個錯誤),覆蓋度為98.7%,遠低于基于mapping算法的基因組修正策略。另外,自動注釋的準確性仍然有待提高:在測試中,對食烷菌(Alcanivorax borkumensis)SK2拼接結果的ORF進行注釋,最好的注釋軟件也只能達到52.8%的正確率,假陽性率高達到49%。
相比之下,基于mapping的基因組修正策略是將短讀序列(reads)匹配到近緣物種已知的全基因組上,然后找到單核苷酸變異,并用這些修正信息補充更新現有的參考序列。當存在已知的近緣基因組序列時,這種策略得到的新基因組會非常精確,而且可以直接利用原有的基因組注釋信息。盡管基于mapping的基因組修正策略無法分析與參考基因組相比有大片段插入或者是基因組重排的情況,但是這些插入的部分通常對于蛋白質方向的研究并不太重要,因為在系統中大多數編碼基因均普遍存在。因此,這種策略能夠有效的運用于群體的基因分型,也就是簡化基因組分析。隨著生物信息學的不斷發展,各種mapping算法應運而生。相應的也存在很多檢測研究物種實際基因組序列與已知近緣參考基因組序列間單個核苷酸變異(SNV)的算法,例如,k-spectrum-based、Suffix tree/array based和MSA based。相應的軟件有HSHREC、Reptile、Quake、SOAPec、HiTEC、ECHO、Coral。根據Yang文中的評估結果,Reptile參數的選擇比其他軟件繁瑣;HiTEC不適合處理有“N”的或不同長度的reads。值得關注的是,這些方法的共有的缺陷也十分明顯:(1)對于SNV的敏感度非常不穩定,對有的菌很好但有的菌很差(可低至0.03%);(2)敏感度最高的算法在修正大腸桿菌基因組時就需要11個小時以上的時間和大約10 GB的RAM,此方法對計算機的性能要求很高;(3)現行可用的方法都只能處理與參考基因組十分相近的基因組(差異<1.6%)。對于沒有十分相似基因組的物種,這些算法都無法很好的發揮其功能。
很不幸的是,單一物種不同菌株間的遺傳多樣性常常超出上述算法的最大限度。例如輕癥鏈球菌(Streptococcus mitis)不同菌株間的差異要高于5%;金黃色葡萄球菌(Staphylococcus aureus)不同菌株基因組序列間的變異率甚至能夠達到20%。顯然,傳統的基于mapping的基因組修正方法是無法解決如此高得差異度的,但是基因組的多樣性往往導致了菌株致病性和耐藥性的重大變化。而基因組的高度變異又會導致這些缺乏準確的參考蛋白組,這種情況嚴重阻礙了這些菌株蛋白質組的分析與發展,影響了致病菌和耐藥菌的功能研究。
針對上述問題,暨南大學翻譯組學實驗室提出了一個新策略。利用迭代修正的方法不斷矯正已知近緣物種的基因組序列,以獲得研究物種相對精確的基因組。這種修正方法是基于該實驗室自行開發的mapping算法:FANSe。FANSe具有穩定、精確、容錯率高的特點,能夠在保持合理運行速度的前提下達到非常高的準確度。FANSe的優勢體現在:(1)準確性:在實際運行時,FANSe能夠達到一個穩定且非常高的靈敏度。在測序錯誤率為每核苷酸0.5%的情況下,FANSe的誤判率可低達10-6,特別是在比對RNA-seq序列時。(2)對插入缺失位點敏感:FANSe使用了不依賴硬件的加速Smith-Waterman算法,能夠完美的檢測出堿基的插入與缺失。(3)運算速度:在運行速度方面,FANSe使用CPU的一個核便可以在幾分鐘內將1000萬條reads匹配到大腸桿菌的參考基因組上。可在大約一天時間內,使用一臺四核計算機將1000萬條reads 匹配到人類參考基因組上。(4)容錯率高:FANSe對于錯配堿基的容忍度也是極高的。這一參數可供使用者根據研究需要靈活設置,而不像其它mapping算法,例如:SOAP2、Bowtie,最多只能允許2~3個錯配。設置較高的錯配數時,FANSe并不會降低比對的準確性,reads仍然能夠匹配到最佳的位置上。(5)適應性強:FANSe的適用性很廣,對于輸入的測序讀長和參考基因組沒有任何限制。它可以支持參考序列中同時存在大小寫字母和未被準確測定的核苷酸(標記為“N”),并支持單向比對。FANSe這一強大的比對算法為我們新策略的提出奠定了堅實的基礎。新策略可以矯正研究物種基因組與已知近緣物種基因組的差異大約在5%左右的情況并正確輸出研究物種的參考蛋白質組。在二級質譜鑒定中,利用修正后的蛋白質數據庫能夠顯著的提高蛋白和肽段的鑒定效率。新策略大幅度提高了非模式生物功能蛋白質組的分析。(本課題相關測序服務由上海伯豪生物技術有限公司提供)。
原文出處:Wu XH, Xu LN, Gu W, Xu Q, He QY, Sun XS , Zhang G. Iterative Genome Correction Largely Improves Proteomic Analysis of Nonmodel Organisms. J Proteome res. 2014.