Data Driven Research: 組織細胞群體的深度解析
——神奇的質譜流式技術
質譜流式是單細胞分析技術的一大突破,目前應用于血液、免疫、干細胞以及腫瘤等諸多研究領域。它創造性地使用了金屬元素做為抗體的標簽,利用ICP質譜實現了單細胞多參數的檢測。金屬標簽具有極低的背景信號以及很好的標簽化學穩定,結合ICP檢測器的超高信號分辨能力,保證了質譜流式可以獲得高質量的數據。由于檢測通道數量已經達到幾十個,質譜流式的數據中包含很大的信息量。
那么利用質譜流式平臺獲得的數據,我們究竟可以從中得到哪些信息呢?有該如何充分利用這些數據結果進行分析,提高單次實驗的效率呢?事實上,不同的數據分析方法賦予了質譜流式不同的功能。這里,本文將就目前常見的一些數據分析方法及結果類型為大家進行簡要的總結概述。
一、系統展示組織亞群構成以及功能、狀態信息——Data Visualization
質譜流式數據包含所有被測細胞方方面面的信息,是地地道道的高維數據;這種數據的復雜性實際上是組織細胞本身異質性的忠實寫照。獲得這些數據后,科研人員首先想了解的其實就是組織的亞群構成情況。雖然數據中已經包含這樣的信息,但是仍然需要經過加工處理才能轉變為直觀、易懂的圖表,這一過程就是數據的可視化。
SPADE是一種常用的數據可視化方法。它首先將表型類似的細胞聚成小群,然后依照各小群的表型相似度進行聚類分析,最后得到一個樹形圖。SPADE樹形圖上每個節點(Node)都是由一群表型相似的細胞構成的,節點相對位置不同也體現了其表型的差異。因此,SPADE樹形圖直觀展示出了組織細胞的亞群構成。
圖一中展示的是不同時期的小鼠黑色素瘤中浸潤的免疫細胞SPADE圖譜,可以明顯的看出單核細胞比例明顯增大。
圖一、小鼠黑色素瘤浸潤淋巴細胞的亞群組成(利用32個表面標志分子進行SPADE分析圖譜,數據來源:Salmon et al., 2016, Immunity 44, 924–938)
降維分析是另一類經常使用的數據處理方法,在盡可能保持信息不丟失的基礎上,將多維信息壓縮到二維;這樣就可以用二維散點圖來展示高維數據的結構了。常見的方法有viSNE、PCA等。
圖二是根據16個胞外標志蛋白表達數據,對外周血白細胞進行viSNE分群結果。可以看出,在viSNE圖譜中,幾個主要免疫亞群各自聚群。同樣,我們也可以以“熱圖”的方式展示不同刺激條件下pSTAT5在各個亞群中的變化情況。(Adeeb H et al, 2015)
圖二、通過16個Marker對人外周血免疫細胞的viSNE分析圖譜(數據來源:Adeeb H. Rahman,Cytometry Part A,Volume 89, Issue 6,2016)
除了SPADE和viSNE以外,數據可視化的方法還有很多,例如PCA、Scaffold Map FLOW-MAP等等;
二、比手工設門更精細的自動分群——Automated population identification
上述方法可以對在已有知識背景的前提下對已知表型的亞群進行直觀數據分析,展示復雜的群體構成。而當關鍵亞群的表型是未知的,則需要一類可以充分挖掘質譜流式數據的自動分群方法。這種計算機自主的亞群分析方法叫做“DensVM”。
小鼠髓系細胞具有復雜的細胞組成,新加坡SIgN的研究人源利用質譜流式對不同組織來源的髓系細胞進行了檢測,圖三其viSNE分析結果。圖中用不同顏色標記的是由計算機自動識別出的28個細胞亞群。B圖中熱圖分析表明,這些亞群都具有不同的蛋白表達模式。很明顯,相比圖中手工識別的亞群(藍色線框),這種計算機自動的分群方法要細致很多。例如,僅僅在Neutrophils(中性粒細胞)的藍色線框內就識別出了5個表型不同的亞群。
圖三、小鼠不同組織中髓系細胞的組成(A viSNE圖譜;B 計算機識別的各個亞群的表型分析;數據來源Nat Immunol. 2014 Dec;15(12))
類似功能的分析方法還有很多,Accense、PhenoGraph等都是在質譜流式中經常使用的亞群分群方法。它們能夠幫助我們識別在生理或病理情況下起到重要作用的細胞亞群、稀有亞群以及未知亞群。
三、精細解析細胞成熟、分化、去編程等動態過程——Cell development modelling
除了可以靜態的分析組織細胞的亞群構成,質譜流式還可以對細胞分化、去編程等復雜的動態變化過程進行精細的分析。
我們以B細胞的在骨髓中的成熟過程為例說明該問題。我們知道,B細胞是在骨髓中發育成熟的,在骨髓樣本中存在從造血干細胞(HSC)到Immature Naïve B之間各分化階段的細胞;一般情況下,這些分化階段沒有絕對的界限,期間也存在大量的過渡狀態的細胞,這就是B分化過程的連續性。
因此理論上講,只要我們能檢測足夠多的骨髓細胞,就可以測得足夠多的中間過渡狀態的細胞,根據細胞表型的漸變我們就可以將這些細胞排列起來。這就是Wanderlust的分析基本思想,它讓我們從單個骨髓樣本獲得細胞分化的動態信息。
圖四、Wanderlust分析展示的人B細胞在骨髓中成熟過程
(數據來源:Sean C. Bendall等,Cell 157, 714–725)
Wanderlust會根據每個細胞排列的位置賦予給細胞一個Wanderlust值,其大小就反映了分化程度:0代表起點(造血干細胞),1代表終點(Immature Naïve B),該數值越小說明細胞越原始;
有了這個工具,我們可以觀察B細胞分化過程中任意一個蛋白的表達變化,這些信息可以幫助我們找到分化過程中一些重要的事件。
對于一些in vitro的實驗體系,我們可以利用更簡單的方法觀察細胞表型的變化過程。只需要將不同時間點的質譜流式數據放在做降維分析,得到的圖譜就反映了細胞表型隨時間的變化。圖五中的Flow-MAP圖譜中反映的是MEF細胞經過體外誘導成iPSC的全過程。顏色代表樣本處理的時間長短,沿著由藍色-黃色-紅色的“時間軸”,我們可以看到MEF的去編程過程中細胞表型的變化過程。
圖五、對MEF細胞的去編程過程的Flow-MAP分析
(數據來源:Eli R. Zunder等,Cell Stem Cell 16, 323–337)
四、量化分析信號通路分子之間的相互作用關系
質譜流式在信號通路的磷酸化蛋白的檢測中表現卓越。一方面,它可以檢測更多地信號通路分子,另一方面,相對于熒光基團,其抗體帶有的金屬標簽穩定性有很大提升。我們知道,信號通路蛋白之間有比較復雜的相互作用關系,質譜流式可以將這種關系進行量化比較。
這里要用到的是一個名為DREVI的分析方法,它可以幫助我們從單細胞數據中提取出兩個信號通路蛋白之間的“函數關系”,并用一系列參數對這種關系進行量化。下圖I,II展示的是在不同的刺激條件下pCD3ζ和pSLP76之間的關系曲線。我們可以很容易看出,在第二種刺激條件下,較低的pCD3ζ水平就可以啟動SLP76磷酸化,同時pSLP76也可以達到更高的水平。
圖六、DREVI分析可以直觀展示不同刺激條件下信號通路狀態的改變
(數據來源:SmitaKrishnaswamy等,Science. 2014 November 28; 346(6213))
五、尋找具有臨床指導意義的Bio-Marker
在比較貼近臨床的研究中,我們往往需要對一系列病人樣本和正常樣本進行比較,找出病人樣本特征。一般情況下,很難從整體蛋白表達水平找到具有統計學意義的差別,因為臨床樣本具有很大的異質性,比較有規律性、代表性的差別往往只存在于少數亞群中。前文提到,質譜流式可以將樣本精細的分成很多亞群,因此它可以很方便的對這些亞群中相關蛋白的表達數據進行對比、相關性等統計學分析。
斯坦福大學的研究人員用質譜流式檢測了多發性骨髓瘤病例和正常人外周血細胞39個蛋白的表達。為了尋找兩組樣本之間存在顯著差異的Bio-Marker,他們引入了Citrus分析。首先通過其中的24個表面Marker聚類分成幾十個亞群,然后通過對比各亞群中14個蛋白的表達,最終發現了圖中所示的兩個B細胞相關亞群(Cluster A 和Cluster B),在這兩個亞群中,CD27在多發性骨髓瘤病人組的表達量要明顯高于正常人。這一差異有希望做為該類疾病的一個BioMarker用于疾病的診斷。
圖七、通過Citrus 分析識別出多發性骨髓瘤的特征性亞群
(數據來源:Leo Hansmann等,Cancer Immunol Res; 3(6) June 2015)
小結:數據驅動的研究方式,不斷降低的技術門檻
可以看出,質譜流式數據分析具有很大的靈活性,研究者可以根據實驗設計以及實驗目的的不同,選擇幾種適合的分析方法結合使用,有效挖掘出需要的信息。這種研究方式也被稱為數據驅動的研究(Data Driven Research)。
經過了幾年的發展,質譜流式數據分析方法已經漸成體系。隨著一些基于云的在線分析系統的出現,數據分析的技術門檻也大大降低。例如Cytobank,可以支持SPADE、viSNE以及Citrus等多種數據分析方法,軟件界面也非常友好,研究人員只需要將數據上傳到服務器,設定少數幾個參數就可以完成這些分析。這也為質譜流式技術的普及創造了有利條件。