自從1977年一代測序被發明以來,測序技術不斷發展。 從一代sanger測序,發展到二代測序,現在已經到了三代全長測序。 其中二代測序相比于一代測序,通過將核酸片段化進行平行大規模測序,大大增加了測序的效率。早期的二代效率集中在全基因組測序和全轉錄組測序,盡管測序的效率有所增加,成本有所降低。 但是測序數據依然非常龐大,為了更進一步的節省成本,提高效率,靶向測序應運而生。
靶向測序定義:將基因組中感興趣的區域或者位點富集出來,然后使用二代測序(NGS)方法去進行測序,包含全外顯子組(基因組蛋白編碼區域),針對感興趣的特定基因定制測序panel等。
靶向捕獲測序背景
1977年 Walter Gilbert和Frederick Sanger發明了第一臺測序儀,使用鏈終止法測序其測定了第一個基因組序列,噬菌體X174,全長5375個堿基。Sanger 測序的發明,標志著基因測序技術正式進入生命科學研究舞臺
1988年Chambehian等人首次提出多重PCR技術,為后續多重PCR擴增子測序打下基礎[1]
2005年Nature Method 上發表了一篇名為《Direct genomic selection》的文章,該文章利用長度為150kb生物素標記的BAC DNA和經過處理的人類基因組DNA進行雜交,通過鏈霉親和磁珠對DNA片段進行捕獲,后續又經過PCR擴增后進行測序。測序結果表明約~50%的序列來自于靶標區域
2008年,安捷倫聯合Broad研究所,將其超長寡核苷酸合成技術和平行測序相結合,在Nature Biotechnology發表文章,奠定安捷倫雜交捕獲測序方法學基礎。
2009年,安捷倫聯合華盛頓大學在Nature上發表文章,使用靶向捕獲測序技術檢測人類外顯子
同年安捷倫推出了世界上第一款商品化人類全外顯子探針產品。
2021 年 4 月,安捷倫宣布首款基于機器學習探針設計方案的全外產品—人全外顯子組 V8 (SureSelect Human All Exon V8) 正式在中國上市,繼續書寫人全外顯子靶向捕獲技術新篇章。
2022年春, Qiagen 基于多重PCR技術全新一代 QIAseq Targeted DNA Pro 在中國正式上市
目前常用的靶向測序用兩種方法:靶向捕獲法和多重PCR法(又稱擴增子測序)
雜交捕獲法
雜交捕獲法是一種把分子雜交和二代測序相結合的靶向測序技術。 該技術需要設計和生產和目的區域互補的探針,通過探針將目的區域的片段捕獲下來,再將不需要的部分進行洗脫。 根據雜交的狀態又可分為固相雜交和液相雜交。固相雜交就是將設計好的探針固相的芯片上探針,通過探針將目標區段捕獲。液相雜交的實驗反應是在液體狀態中完整,探針攜帶生物素,當雜交完成后,通過鏈酶親和磁珠將探針吸附下來(此時探針有攜帶目標區段的和空探針),未被捕獲的片段被洗脫掉,再通過變性將探針和目標片段分開,然后利用磁珠將所有空探針吸附丟棄,完成捕獲。
圖 1 安捷倫雜交捕獲測序流程
多重PCR法
多重PCR靶向測序技術又稱擴增子靶向測序技術,是一種將多重PCR技術與二代測序技術相結合的一種靶向測序技術。 該技術首先利用多重PCR反應,同時擴增多個目標區域序列,得到擴增子產物,然后通過PCR反應或者酶連接反應,將二代測序所需的接頭序列(adapter)引入到擴增子產物的兩側,得到擴增子文庫,然后進行二代測序和生信流程分析,獲取目標區域的序列信息,實現目標區域序列檢測的目的。常見的多重PCR靶向測序舉例:tNGS病原微生物靶向測序,用于分析病原微生物的群落組成和分布,來進行臨床病原微生物的診斷。
圖 2 Qiagen 基于SPE技術的多重PCR靶向測序流程
全基因組 vs 全外顯子 vs 多重PCR
全基因組測序 | 全外顯子測序(雜交捕獲) | Panel( 多重PCR) | |
目標區域大小 | 3 G (human) | 50 M | 10 kb-5 M (variable) |
覆蓋基因組范圍 | 100% | 1.3% | <0.1% (variable) |
文庫構建成本 | 60-150 | ~600 | 100-800 (variable) |
一般測序深度 | 30x | 100x | 500-10000x |
測序數據量 | 90 Gb | 5 Gb | 1 Gb (variable) |
測序成本 | 4500 | 250 | 50 |
數據儲存成本 | Very High | High | Low |
生信分析難度 | High Complexity | Medium Complexity | Low Complexity |
數據評估
目標基因區域捕獲的數據質量主要通過以下指標評價:目標區域覆蓋度、捕獲效率、目標區域覆蓋均一性等[2]。
目標區域覆蓋度:指檢測到的區域相比目標區域的比例,最理想的情況就是感興趣的目標區域都能夠被覆蓋到。但是由于在設計探針的時候會考慮各種因素,如GC含量、序列的特征、序列的拷貝數,序列相似性等問題,為了保證整體的基因捕獲效率,會選擇放棄一小部分區域的捕獲,這個比例約為0-3%。原則上來講,目標覆蓋度越高,探針或者多重PCR產品的性能也就越好。
捕獲效率:落在目標區域的數據占總數據的比例。捕獲效率越高,代表測序數據的利用率越高。另外在設計探針時,需要評估覆蓋位置的序列特征,如果探針有很多落在重復序列區域,或者高拷貝序列區,則探針會結合較多的非目標區域。設計更加特異性的探針能夠有效減少非特異序列的結合,提升捕獲效率。
通常影響捕獲效率的因素有以下幾點[3]:
1.高GC區域 - UTRs 和 啟動子區域通常是非常典型的高CG含量區域,這部分區域往往是低捕獲效率,并且會增加這些區域和其他區域的捕獲差別
2.DNA 質量- 投入的DNA質量較差, 例如FFPE樣本提取的DNA,會產生捕獲偏差,因為這樣樣本中部分區域往往比其他區域碎片更多。如果捕獲不平衡,就會在下游 SNP s和其他形式的分析中產生偏差。建議用安捷倫自動化電泳儀器對核酸樣本進行質控,例如2100生物分析儀,Tapestation分析儀,Fragment analyzer等
3.DNA 投入量 - Low input DNA 在建庫過程中往往需要更多的PCR循環數來或足夠量的預文庫。增加PCR循環數,會造成更多的PCR duplicates, 會降低最終數據的有用信息。隨著技術發展,目前靶向測序所需DNA投入量已由傳統的微克級別下降至ng級別
4.Pseudogenes -會降低覆蓋率的均勻性
5.DNA片段大小 - 建議片段大小應和探針設計大小想匹配以獲得更大的捕獲效率,建議用安捷倫自動化電泳儀器對樣本核酸片段進行檢測,例如2100生物分析儀,Tapestation分析儀,Fragment analyzer等
6.Repeat elements - 會降低reads在外顯子組中分布的均勻性,導致需要更多的測序來檢測新的SNP。
覆蓋均一性:指每個區域的覆蓋深度是不是均勻。要想獲得高均一性覆蓋度的數據,在預文庫構建時,要保證文庫的均一性要好。例如文庫構建時,采用無序列偏差的DNA片段化方法;采用對GC含量偏好性低的擴增酶;減少PCR富集的循環數;如果使用探針雜交捕獲方法,探針設計時要更好的計算探針的結合能力,合理調整探針比例,實驗過程中采用高度優化的雜交緩沖液進行捕獲實驗。