生物標志物的重要性早已被公眾、科學界和工業領域所認識。生物標志物可應用于疾病的分型、預測、治療和預后,是臨床應用轉化前期基礎,同時也是早期篩查的重要指標。
但真正被食品藥品監督管理局批準的蛋白質生物標志物數量不多,目前臨床上常規使用的蛋白質生物標志物更少,主要原因是生物標志物開發效率低,包括臨床樣本質量差、疾病的主觀臨床定義和客觀蛋白質檢測結果之間的差距,以及在發現階段所識別的差異蛋白的高錯誤發現率。
在發現階段關注到的絕大多數蛋白都不能成為有效的biomarker,只有少數的陽性候選蛋白具有真正的應用價值。因而開發一種從海量數據中篩選高通量、高靈敏、高準確性且成本合理的潛在生物標志物變得至關重要。
好消息是BIOTREE開發一種集成機器學習算法,將通量蛋白組的檢測數據整合統計學檢驗和線性回歸等特征選擇算法,高效的鑒定和識別驗證率高且分類效果顯著的生物標志物診斷panel,從而達到極.佳的預判效果,為疾病的分型、預測以及治療提供一個強有力的工具。
那么這個集成的機器學習算法的框架結構是怎樣的呢?下面就由小編給大家娓娓道來:
框架結構
整套機器學習算法體系分為5個階段:數據預處理、初篩選、潛在標志物組合、機器學習算法二次篩選、標志物驗證與評價,如下圖所示:
那么每一個階段可以獲得哪些核心的數據呢?
1.數據預處理與單維統計法初篩選
對高通量蛋白組的搜庫定量數據進行格式轉化、數據歸一化等處理,篩選滿足一定蛋白倍數變化(FC), 且雙尾非配對Welch T檢驗小于0.01的差異蛋白。
2.潛在標志物組合
從差異蛋白中隨機選擇不超過一定數量的蛋白組成潛在的標志物組合(CPM),每個蛋白的初始重量值設為1,并設置至少1000種group,作為備選CPM。
3.機器學習算法二次篩選
對于每個候選CPM,按照一定比率隨機生成一個訓練集和一個測試集數據。利用集成的機器學習算法(多種特征選擇算法)對group進行分析并懲罰迭代優化幾種蛋白質的權重值。權重值越大說明該蛋白在區分不同分組樣本中的作用貢獻度越大。
圖2.機器學習算法二次篩選
4.標志物驗證與評價
進行5倍交叉驗證,根據Sn和1-Sp評分繪制ROC,計算AUC值。確定所有候選CPM的AUC值,并根據最高AUC值確定最優的標志物診斷panel,混淆矩陣分析來評估機器學習策略的可靠性。
圖3.標志物診斷panel的ROC曲線圖
圖4. 標志物診斷panel的混淆矩陣
基于以上的層層篩選,關關把控,三高一好(高準確度、高特異性、高陽性率,穩健性好)的臨床隊列樣本標志物診斷panel就閃亮登場啦~
最特別的一點是,小樣本量也能篩選出分類效果好,準確度高的標志物,不僅僅局限于臨床隊列大樣本,讓在醫學領域辛勤耕耘的老師們都有機會在標志物研究領域做些研究啦~
蛋白標志物診斷panel研究應用案例
Ⅰ.口腔癌預后標志物研究
IF:12.121 PMID:30185791 Nat Commun 2018 09 05;9(1)
Oral squamous cell carcinoma-口腔鱗狀細胞癌(OSCC)是頭頸部最常見的惡性腫瘤,其不同區域具有特殊的組織病理學和分子特征因而限制了標準的腫瘤淋巴結轉移預后分類。因此,作者將無淋巴結轉移組(NO,n=14)與由淋巴結轉移組(N+,n=26)的唾液樣本進行蛋白組檢測,并開發一種用于測量肽和蛋白質的預測能力的機器學習的工作流程,應用機器學習策略,評估了多肽和蛋白質的預測能力,篩選區分淋巴結轉移OSCC患者(N+)和無淋巴結轉移OSCC患者的預后標志物。
Ⅱ. 新冠肺炎的生物標志物
IF:22.553 Immunity 2020 11 17;53(5)
2019年冠狀病毒病(COVID-19)的爆發是一場全球公共衛生危機。然而,對于新冠病毒-19的發病機制和生物標志物知之甚少,因此作者收集了來自武漢金銀潭醫院的新冠患者的血液樣本進行TMT標記定量蛋白組檢測并開發了一種機器學習的算法,確定一組可以準確區分/預測新冠肺炎不同癥型的生物標記物組合。并且這些宿主蛋白的變化為COVID-19的發病機制提供了非常有價值的見解。