設置重復樣本的重要意義:測序無法消除個體間基因表達水平的差異
瀏覽次數:578 發布日期:2023-4-12
來源:本站 僅供參考,謝絕轉載,否則責任自負
二代測序及基因芯片技術使得過去的十多年涌現出大量關于RNA-seq的研究。但似乎一些研究人員沒有注意到,基因表達的異質性不僅僅是由技術誤差導致的。基因表達是一個相對隨機的過程,同一類型樣本中的不同個體,基因的表達可能會不一樣。一般來說,基因表達的異質性(Var(Expr))可以被分解為以下三個部分:
Var(Expr) = Across Group Variability + Measurement Error + Biological Variability
Across Group Variability即由于不同的處理或不同的細胞類型等導致的表達水平差異,即通常所說的組間差異。例如,腫瘤樣本與正常樣本之間的表達差異。
Measurement Error指實驗或測序過程中的技術誤差。技術誤差會導致一定的基因表達異質性,但其可以通過對同一樣本進行多次實驗/測序(即技術重復)來消除。
Biological Variability指同一分組的不同樣本之間的表達差異。即使排除掉Measurement Error,這種樣本間的表達差異也是存在的,即無法通過測序來消除Biological Variability。
在實驗設計中,如果關注的是組間差異(Across Group Variability),那么Measurement Error和Biological Variability就會成為影響分析結果的因素。
Measurement Error可以通過技術重復來消除,我們下面主要關注一下Biological Variability為何不能通過測序來消除。
以下利用兩個研究的數據,評估了不同測量方法(二代測序和基因芯片)導致的表達水平差異:

說明:
每個點表示一個基因;
橫坐標表示利用基因芯片方法檢測得到的某個基因在不同樣本之間的表達水平的標準差;
縱坐標表示利用二代測序方法檢測得到的某個基因在不同樣本之間的表達水平的標準差;
黑色線表示對表達異質性(s.d.)的最佳線性擬合;
紅色線表示y=x。
高亮的兩個點/三角表示基因COX4NB和RASGRP1。
從上述結果可以看到,兩種技術檢測得到的表達抑制性相差很小。
以下展示了不同樣本的兩個基因(COX4NB和RASGRP1)的標準化(圓:均值歸一化;三角:中心化)后的表達量。上圖表示二代測序,下圖表示基因芯片。

從結果可見,無論使用哪種技術,基因COX4NB在不同樣本中的表達水平都較為一致,基因RASGRP1則異質性較高。
綜合上述兩個結果,Biological Variability是基因的特性,而與檢測方法無關。
Biological Variability對于實驗設計、數據分析影響很大。考慮上述基因COX4NB和RASGRP1,如果檢測到不同處理組之間COX4NB的表達有差異,那么這個差異很可能是真陽性,因為組內異質性很小;但如果檢測到兩組之間RASGRP1表達有差異,如果重復樣本數量不夠,很有可能檢測到的差異是假陽性,因為無法排除是否是Biological Variability導致的。
綜上所述,為了得到更可信的結果,需要足夠的生物學重復。