人類基因組中的變異和人類的演化、疾病風險等方面都有著密切的聯系;蚪M變異主要包括單核苷酸突變、插入缺失和結構變異三大類。而受技術限制,
結構變異分析仍然是一大塊“神秘土地”,齊碳通過總結近幾年人類基因組結構變異相關的研究成果,與大家分享目前基于納米孔測序技術長讀長優勢的結構變異測序與分析方法,為更好地從群體及個體角度解析結構變異提供新思路。
結構變異
結構變異(Structural variation, SV)是指序列長度大于50 bp的基因組序列變化,可以分為缺失(Deletion)、插入(Insertion)、重復(Duplication)、倒位(Inversion)和易位(Translocation)以及復雜結構變異等。其中,缺失和重復事件也稱為拷貝數變異(Copy number variation/alteration, CNV/CNA)。
圖1 結構變異類型[1]
值得一提的是,在人類基因組中,結構變異的數量雖然遠少于單核苷酸變異(Single-nucleotide variant,SNV)的數量(表1),但研究發現
結構變異對基因組的影響卻更大。這是由于DNA序列變化越大,其有害性通常也越大。
如表1所示,人類基因組結構變異的數量約占SNV數量的0.5%,但受結構變異影響的堿基數卻是SNV總和的10倍之多。與SNV相比,大片段結構變異與全基因組關聯信號相關的可能性高出3倍,影響基因表達的可能性則達30倍以上。
表1人類遺傳變異的類別與其影響基因組長度占比[2]
隨著結構變異成為越來越多研究關注的熱點,目前主要檢測方法呈現多樣化。但由于技術限制,
如何更準確檢測大片段結構變異(如拷貝數變異、大片段InDel、染色體倒位、染色體內部或染色體之間的序列易位等)依然充滿挑戰。
相比于其他檢測技術,
三代測序發揮長讀長的優勢可跨越基因組中大片段結構變異,為結構變異的準確分析提供了新平臺。
一方面,
三代測序技術有效增加了結構變異檢測的數量和類型,例如復雜結構變異、串聯重復和轉座元件插入等;另一方面,
可以幫助獲取結構變異更完整的信息,例如斷點位置和完整的變異序列等。

圖2 長讀長測序和短讀長測序檢測結構變異數量
[3]
納米孔測序檢測結構變異方法
納米孔測序檢測結構變異的方法可分為
全基因組納米孔測序和
目標區域納米孔測序。
全基因組納米孔測序
全基因組納米孔測序可以全面檢測基因組中發生的結構變異,但通常所需數據量較大,例如能夠檢測到人類樣本約在15x測序深度下的可靠胚系結構變異。
2020年,針對3622個冰島人樣本進行全基因組納米孔測序(深度:~17.2x)揭示了冰島人群結構變異特征,同時還發現與LDL膽固醇和身高等性狀相關的基因結構變異
[4]。
2021年,另一篇針對405個中國人樣本的全基因組納米孔測序研究(深度:~17x),將檢測到的結構變異與其臨床性狀(生化、血液和血清成分等指標)進行關聯分析,發現14號染色體的22個SV事件與13個表型呈顯著相關。研究還揭示了中國南北方人在免疫相關基因上面臨著不同的選擇壓力
[5]。

圖3 中國南北方人人群分層
目標區域納米孔測序
目標區域納米孔測序則是僅對獲取的目標區域測序,研究針對性強且所需數據量少。獲取目標區域序列方式是多樣化的,包含PCR擴增、探針捕獲和Cas9富集。PCR擴增和探針捕獲方式獲取的目標區域測序深度較高,但在擴增過程中往往無法保留堿基的修飾信息;而Cas9富集測序的目標區域深度波動范圍較大,但可以相對完整地保留堿基修飾信息。
一項對林奇綜合征的研究,
通過探針捕獲相關基因全長序列和納米孔測序(深度:~1000x),能夠檢測到MLH1和MSH2基因上的缺失或重復事件[6];另一項研究利用PCR對視網膜母細胞瘤病人
RB1基因的序列擴增和納米孔測序,檢測到
RB1基因
exon23缺失,并在缺失位置檢測到85bp的插入序列
[7]。

圖4 林奇綜合征患者MLH1和MSH2基因的結構變異
納米孔測序結構變異數據分析方法
由于測序數據前期可以采用比對法或組裝法處理,使得結構變異分析方法也有所不同。
·基于
比對法主要利用比對到斷點位置的Split reads識別結構變異,即一條read被分割成多個區域比對在參考基因組不同位置。該方法常用的檢測軟件如表2所示。
·基于
組裝法是先對個體基因組組裝,再比較組裝后的基因組和參考基因組的差異分析結構變異。
表2 SV檢測軟件匯總表
[1]

支持數據僅為研究文章所用數據
相關文章基于納米孔測序數據對Snifffles、cuteSV、pbsv、NanoVar、NanoSV和SVIM等分析軟件進行測評。
利用數據模擬軟件得到含24600個SVs的納米孔測序數據,對已檢測出的結構變異的位置、長度、類型和基因型信息進行軟件表現評估。結果顯示:測序深度超過20x后(10x、20x、30x和50x),以上軟件檢測結構變異檢測數量的增速均有所減緩。其中,cuteSV的綜合表現較為穩定。
表3 SV分析軟件檢測能力測評
[8]

combiSV(6): 整合6個軟件檢測結果
perfect matches代表檢測到SV的類型、基因型、完整的長度和位置均正確
中國人群大規模結構變異的研究中也發現,當測序深度達到15x ,若繼續增加測序深度,結構變異檢測數量將逐漸趨于穩定。

圖5 不同測序深度下結構變異檢測數量
[4-5]
左:HG002在不同深度(8~40x)和軟件下檢測SV的數量;Combine代表兩個軟件交集結果
右:利用sniffles檢測3622個冰島人結構變異的數量;每一個點代表一個個體的測序深度和檢測SV數量
由此可見,納米孔測序檢測結構變異的測序方法和分析方法是多樣化的。而在實際研究應用中,挖掘基因組結構變異硬實力(技術平臺)和軟實力(數據算法)缺一不可,隨著檢測技術的不斷成熟和軟件算法的不斷進步,研究者可以根據自己的研究目的、數據特征和軟件檢測力選擇合適的檢測技術,或者通過不同技術組合和不同算法組合從而達到增效作用。
參考資料:
[1] van Belzen IAEM, Schönhuth A, Kemmeren P, Hehir-Kwa JY. Structural variant detection in cancer genomes: computational challenges and perspectives for precision oncology. NPJ Precis Oncol. 2021. 2;5(1):15.
[2] Eichler EE. Genetic Variation, Comparative Genomics, and the Diagnosis of Disease. N Engl J Med. 2019. 381(1):64-74.
[3] Zhao X, Collins RL, Lee WP, et al. Expectations and blind spots for structural variation detection from long-read assemblies and short-read sequencing technologies.Am J Hum Genet. 2021. 108(5):919-928.
[4] Beyter D, Ingimundardottir H, Oddsson A, et al. Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits. Nat Genet. 2021. 53(6):779-786.
[5] Wu Z, Jiang Z, Li T, et al. Structural variants in the Chinese population and their impact on phenotypes, diseases and population adaptation. Nat Commun. 2021. 12(1): 6501.
[6] Yamaguchi K, Kasajima R, Takane K, et al. Application of targeted nanopore sequencing for the screening and determination of structural variants in patients with Lynch syndrome. J Hum Genet. 2021. 66(11):1053-1060.
[7] Watson CM, Holliday DL, Crinnion LA, Bonthron DT. Long-read nanopore DNA sequencing can resolve complex intragenic duplication/deletion variants, providing information to enable preimplantation genetic diagnosis. Prenat Diagn. 2022. 42(2):226-232
[8] Dierckxsens N, Li T, Vermeesch JR, Xie Z. A benchmark of structural variation detection by long reads through a realistic simulated model. Genome Biol. 2021. 15;22(1):342.
2021年12月,齊碳科技通過5年的自主研發,成功推出國內首臺商業化的納米孔基因測序儀QNome-3841,并宣布首個生產基地竣工,正式開啟納米孔基因測序國產化時代。2022年6月,齊碳科技發布納米孔基因測序儀QNome-3841hex,標志著國產納米孔基因測序儀開始了矩陣化發展,這也為靈活測序場景提供全新的解決方案,將更好地滿足市場應用的多元需求。
齊碳秉承從上游推動行業發展的理念和對前沿技術的探索精神,保持開放、合作的態度,期待和產業同仁攜手共進,探索國產納米孔基因測序技術在多場景中的優勢和廣闊的市場前景,構建納米孔基因測序的生態平臺,共同為中國醫療健康事業的穩健發展貢獻智慧和力量。