久热久草在线_一一高清视频在线观看_在线观看91av_久草免费在线观看视频_国产精品午夜无码A体验区_国产一级高清

English | 中文版 | 手機版 企業登錄 | 個人登錄 | 郵件訂閱
當前位置 > 首頁 > 技術文章 > 主成分分析在生命科學研究中的應用

主成分分析在生命科學研究中的應用

瀏覽次數:10843 發布日期:2009-2-4  來源:本站 僅供參考,謝絕轉載,否則責任自負
主成分分析常常用于基因組全序列表達研究,但是,到底什么是主成分分析?如何將這種方法用于對高維度數據的分析中呢?

       生命科學研究中采用的一些測定方法,對每個樣品所采集的數據的變量要多于所測定的樣品數。例如,DNA芯片及質譜儀可以對上百個樣品中數以千計的mRNAs或蛋白質水平進行測定。諸如此類的高維度測定使得樣品的分析結果很難清晰便捷地進行判斷,也限制了對數據進行簡單分析的應用。

       主成分分析(Principal component analysis, PCA)是一種數學算法,它可以在減少數據維度的同時,保留數據集中絕大多數的變量[1]。PCA通過對主成分進行辨別,找出一個方向,并沿此方向分布的數據為最大值,從而減少數據維度。通過采用這樣的主成分,便可以只選用若干變量而不是上千的變量來對一種樣品進行分析了。這樣,就可以將樣品有關變量繪制成圖,使得樣品間的相似性和相異之處一目了然,對不同樣品是否可以歸為一組,也一清二楚。

       Saal等人 [2] 曾使用基因芯片對105個乳腺腫瘤樣品中的27,648個基因表達情況進行了檢測。本文將采用這組基因表達數據集表明PCA如何只用很少的變量就能完成對樣品的分析,包括基因的表達水平、基因表達模式等。所需實驗數據來自Gene Expression Omnibus database(accession no.GSE5325)。


a 每一點代表一個乳腺癌樣品中兩個基因的表達水平(在a-c, e中雌激素受體陽性ER+的樣品顯示為紅色,黑色代表陰性ER—)。

b PCA分析了兩個主成分PC1和PC2,沿著這兩個主成分數據有最大的分散。

c 樣品數據只用一維顯示,將ER+、ER—和所有樣品的數據都分別記入第一個主成分PC1中。

d 當PCA用于分析樣品所有8534個基因的表達水平時,主成分的變量情況。

e PCA二維圖,用前兩個主成分數據形成的散點圖,兩個基因采用其權重系數作為主成分 (綠點所示)。所示標度適用于樣品;該標度需除以950,才得到基因所對應的標度。

f 圖e中的樣品數據依ERBB2的情況繪制的圖(藍色、ERBB2+、棕色、ERBB2—、綠色、情況未知)。

主成分

       盡管要深入理解PCA的算法需要具備線性代數的知識,但是,其基本原理卻可以通過簡單的幾何圖形進行解釋。為了更加簡單明了的弄清個中原理,不妨假設在這一實驗中,采用的基因芯片只對兩個基因GATA3和XBP1的表達水平進行檢測。這樣可以簡化根據乳腺癌樣品表達譜進行作圖的過程,因為它只包含了兩組數據(圖.1a)。我們將乳腺癌樣品按照雌激素受體陽性或陰性進行分類,本文已選擇了兩個基因,其表達水平與雌激素受體水平相關[3]。

       在PCA中,鑒別出新的變量即主成分——原始變量的線性組合。這項二維基因表達譜研究中所采用的兩個主成分見圖.1b?梢院芮宄目闯觯氐谝粋主成分方向,分布的是樣品最大變量;沿第二個主成分的方向分布的是與第一個主成分無相關的最大變量。

       如果數據已經過標準化,那么每個基因的數據都應該集中在0平均表達水平,主成分是代表標準化后的基因表達數據協方差的特征向量,并根據它們包含變量信息的多少而被排序。每個主成分都可被理解為一個向量,且它們之間互不相關,每個主成分都盡可能的包含了樣品變量的最大差異。這里,用于研究的基因數據在進行PCA前都被進行了標準化,圖.1b中的第一個主成分PC1=0.83×GATA3 + 0.56×XBP1。主成分很好的體現了每個樣品數據本身的特征,有時就是指特征向量。和PCA相關的方法包括獨立成分分析,該方法是用來確認成分之間統計學上互相獨立,而不僅僅是非相關的方法。


減維與圖像化

       我們可以通過把每個變量都集中到第一主成分中的方法從而把上面的二維分析簡化成一維分析(圖.1c)。這種一維的分析方法同樣保留了樣品間激素受體的差異性。將數據轉變成主成分也可以看成是另一種基因表達譜,因此這種標準化后的主成分有時也被稱作特征基因。因此,對于每個很好代表了樣品信息的主成分,PCA都展示了一個基因表達譜。而且,由于數據都是標準化后的,所以樣品都是0平均表達,特征基因也就是樣品協方差的特征向量。

       剛才,我們用兩個基因的數據演示了PCA是如何工作的,但如何分析數千個基因的數據呢?讓我們看看用PCA對105個樣品表達量的研究吧。這105個樣品是用有8534個探針的基因芯片進行分析的。為了讓我們對數據的維度有個概念,我們從每個主成分中所有基因共有變量的比例開始(圖.1d)。注意,盡管前面的幾個主成分比后面的幾個主成分有更多的變量,但是第一個和第二個主成分只含有22%的原始變量,所以還需要63個主成分來囊括其它約90%的原始變量。另一方面,只需104個主成分就可以包含所有的原始變量了,這比起8534個原始變量來說,要少得多。當變量的數目比樣品的數目多時,PCA可以在不損失信息量的情況下將樣品的維度最大程度地減少至樣品數。

       為了檢測包含在前兩個主成分中的變量是否攜帶乳腺癌樣品相關的信息,每一個樣品的數據都被計入這兩個主成分了(圖.1e)。結果我們將所有基因的數目這一維度減少到二維,但仍然保留了足以區分雌激素受體陽性樣品和雌激素受體陰性樣品的信息。我們已經知道雌激素受體對乳腺癌細胞的基因表達有很大的影響[3],但PCA分析并沒有得到兩個分離的結果(圖.1e),這表明用PCA來發現未知的基因是很困難的。除此之外,用基因表達譜可根據是否攜帶有ERBB2基因的拷貝,來對乳腺癌進行分類,但只用前兩個主成分進行分析時不能包含該信息(圖.1f)。這提醒我們PCA是用來分析最大變量的,而不是對樣品進行分類的。同樣需要注意的是高通量技術得來的數據之間的差異可能是由于系統性試驗誤差導致的[5-7],而由此得到的主成分和誤差相關。

由于主成分針對每個基因都具有相應的權重系數,因此我們就可以用權重來直觀地對PCA圖中每個基因進行讀圖[8]。大部分基因都分布在我們上述的二維圖線兩側,但最大權重基因的主成分會超出各自的范圍[9]。二維圖提供了一個方法,即用和基因情況相對應的PCA得到的樣品數據情況來判斷某些樣品中基因群的表達情況。圖.1e是以兩個基因為例所作的分析。


計算生物學中的應用

       PCA的一項明顯的用處是研究高維度的數據集,就象以上提到的那樣。通常,我們使用三維圖象來做研究,樣品數據要不就被計入主成分,象上面例子中的那樣,要不根據它們和主成分的相關性直接繪在圖上[10]。因為在二維或三維圖像化的過程中很多信息不可避免的會被丟失掉,所以在圖像化數據的過程中系統地嘗試幾種主成分的組合就顯得非常重要了。因為主成分間互不相關,所以它們也就代表了樣品數據的不同方面。這也意味著在對樣品數據進行聚類或分類時,PCA可以作為一個非常有用的初步處理工具。然而決定在后續的分析中采用多少主成分,哪些主成分是一個很大的困難,這種困難體現在幾個方面[1]。例如,可以使用一個與目標表型[9]相關的主成分或使用足夠多的主成分來囊括數據中幾乎所有的變量[11]。PCA的結果非常依賴于對數據的預處理和所選擇的變量。因此,檢查PCA的圖也可以發現一些信息,這些信息表明了對數據的預處理的方式的不同和所選擇的變量的不同。

       PCA經常被用來進行數據的奇異值分解(singular value decomposition, SVD)。樣品樣的特征陣列和基因樣的特征基因譜都可以同時經由SVD分析獲得[10,12]。很多超出了減維、分類和聚類的應用都利用由SVD而產生的基因表達圖譜的全球表型。應用還包括辨別出試驗誤差,并過濾掉這些誤差[6]、估計丟失的數據、相關基因及其表達譜、調節子的活性,并可以幫助發現細胞表型的動態結構[7,10,12]。隨著技術的飛速發展,產生了高維度的分子生物學數據,這將在未來的幾年內,給PCA帶來更多可能的應用。

原文檢索:www.nature.com

參考文獻:
[1]Jolliffe, I.T. Principal Component Analysis (Springer, New York, 2002).
[2]Saal, L.H. et al. Proc. Natl. Acad. Sci. USA 104, 7564-7569(2007).
[3]Perou, C.M. et al. Nature 406, 747-752(2000).
[4]Common, P. Signal Process. 36, 287-314(1994).
[5]Coombes, K.R. et al. Nat. Biotechnol. 23, 291-292(2005).
[6]Nielsen, T.O. et al. Lancet 359, 1301-1307(2002).
[7]Li, C.M. & Klevecz, R.R. Proc. Natl. Acad. Sci. USA 103, 16254-16259(2006).
[8]Gabriel, K.R. Biometrika 58, 453-467(1971).
[9]Landgrebe, J. Wurst, W. & Weizi, G. Genome Biol. 3, RESEARCH0019(2002).
[10]Alter, O., Brown, P.O. & Botstein, D. Proc. Natl. Acad. Sci. USA 97, 10101-10106(2000).
[11]Khan, J. et al. Nat. Med. 7, 673-679(2001).
[12]Holter, N.S. et al. Proc. Natl. Acad. Sci. USA 97, 8409-8414(2000).

小詞典:
主成分分析(principal component analysis)
       將多個變量通過線性變換以選出較少個重要變量的一種多元統計分析方法,又稱主分量分析。在實際課題中,為了全面分析問題,往往提出很多與此有關的變量(或因素),因為每個變量都在不同程度上反映這個課題的某些信息。但是,在用統計分析方法研究這個多變量的課題時,變量個數太多就會增加課題的復雜性。人們自然希望變量個數較少而得到的信息較多。在很多情形,變量之間是有一定的相關關系的,當兩個變量之間有一定相關關系時,可以解釋為這兩個變量反映此課題的信息有一定的重疊。主成分分析是對于原先提出的所有變量,建立盡可能少的新變量,使得這些新變量是兩兩不相關的,而且這些新變量在反映課題的信息方面盡可能保持原有的信息。主成分分析首先是由K.皮爾森對非隨機變量引入的,爾后H.霍特林將此方法推廣到隨機向量的情形。信息的大小通常用離差平方和或方差來衡量。

發布者:上海伯豪生物技術有限公司
聯系電話:021-58955370
E-mail:market@shbio.com

用戶名: 密碼: 匿名 快速注冊 忘記密碼
評論只代表網友觀點,不代表本站觀點。 請輸入驗證碼: 8795
Copyright(C) 1998-2025 生物器材網 電話:021-64166852;13621656896 E-mail:info@bio-equip.com
主站蜘蛛池模板: 一区二区三区精品国产 | 韩国少妇激三级做爰 | 黄色片视频在线免费观看 | 国产精品国产一区二区三区四区 | 亚洲AV无码精品久久久久成精品 | 高清日韩a级毛片精品 | 成人在线免费小视频 | 高h大尺度纯肉np快穿 | 在线精品自拍亚洲第一区 | 嘿嘿视频在线观看 | 日本一区二区三区免费乱视频 | 国产欧亚州美日韩综合区 | 国产亚洲AV人片在线观看 | 中文无码人妻影音先锋 | 国产欧美在线播放视频 | babescom欧美熟妇大白屁股 | 日韩精品一区二区三区亚洲综合 | 女女女女擦bbb毛片 国产免费午夜 | 97涩国一产精品久久久久久久 | 亚洲av永久无码精品国产精品 | 国产乱码一区二区三区爽爽爽 | 久热最新| 在线免费看一级片 | 久久久久国产精品人妻AⅤ网址一 | 黑人一区 | 大学生一级毛片全黄 | 毛片一级免费看 | 国产日韩精品一区二区三区春色 | 久久九 | 国产精品99国产精品九九 | 亚洲国产成人porn | japanese国产在线看 | 亚洲狠狠婷婷综合久久蜜芽 | 久久精品无码一区二区无码 | 久久不卡免费视频 | 夜夜操导航 | 成人动漫一区二区 | 最新av在线播放 | 国产精品秘入口A级一区二区 | 羞羞答答tv | 国产精品久久久久久久久久综合 |