固話:010-53395839
郵箱:service@qinglianbio.com
網址:www.recrutos.com
地址:北京市海淀區永捷南路2號院1號樓 中關村科學城·鄉創中心
利用R或Python進行數據分析或數據可視化在生物數據的分析中已經應用得越來越廣泛,并為生物學研究解決了大量的問題。但是術業有專攻,在生物學領域深耕的專家學者可能不太熟悉編程技巧,感覺對生信分析一籌莫展,只能找別人幫忙協助分析。那么,有沒有方法可以讓不熟悉編程技巧的專業研究人員也能自己很方便地進行數據分析,并把數據按自己的思路進行可視化展現出來呢?答案是肯定的,具體怎么操作,且聽編者慢慢道來。
下面我們就從蛋白質組raw文件經過MaxQuant搜庫后的結果出發,向您展示如何進行一系列處理后得到差異顯著結果。
數據清理
01
歸一化處理
02
在一個樣本列的末尾輸入“=MEDIAN(該列數據的單元格范圍)”,計算出該樣本的中位數。然后,鼠標按住該單元格的右下方向右拖動到合適的范圍,批量計算出所有樣本的中位數。
在新的列中,用公式“=單元格/中位數所在的單元格”進行歸一化。由于中位數所在的單元格的行數是固定不變的。所以我們在行數前加上一個“$”符號,該符號表示的是鎖定的意思。然后,鼠標按住該單元格的右下方向右拖動到合適的范圍,批量進行歸一化。對同一列的批量操作可以在選中單元格后,將鼠標放置在單元格的右下角變成實心“十”后,雙擊即可對整個列進行操作。
補值
03
補值是對缺失值的一種估算。在無標定量的MaxQuant結果中,由于我們在搜庫時采取了Match between run的方式用一級數據進行定量值的估算,以此依然缺失的數據基本上為定量值很低的結果,我們可以用很低的值進行補值。在此,我們演示用小值的1/2進行補值。
首先,將歸一化后定量結果依然為0的單元格(在歸一化的公式操作中,空值經公式計算后得到0值)替換成空值后,找到小值??梢酝ㄟ^“=MIN(單元格范圍)”公式計算小值,或者選中全部定量列,在下方狀態欄中顯示小值。
然后取小值的1/2進行補值,操作步驟如下:
按“Ctrl + G”調出”定位”,選擇“空值”,點擊“定位”,則把所有空值的單元格都定位上,直接輸入要補的值,填入到當前選中的單元格中,然后按“Ctrl+Enter”即可對所有空值進行補值。
注釋信息的匹配
04
在某些情況下,我們的定量表里可能只有“Accession”信息,但在實際分析中還需要Gene Symbol的信息。我們可以從數據庫中提取所有蛋白對應的Gene Symbol信息表,但需要提取我們的鑒定列表的Gene Symbol則需要用Excel 的VLOOKUP函數進行匹配。
如圖,左側是所有蛋白的Accession和Gene Symbol(也稱Gene Name)的對應關系,右側是我們想要匹配的蛋白列表。用“=VLOOKUP(查找值,數據表,列序數,匹配條件)”。在這里,查找值是D列的第二行(D2);數據表的范圍是A列到B列(A:B);列序數,我們想要匹配的是A,B兩列的第二個(2);匹配條件,我們選擇準確匹配(FALSE),如果希望忽略大小寫可以模糊匹配(TRUE)。完成后,將鼠標放在該單元格右下角,變成實心“十”字后雙擊補全,即可獲得所有蛋白Accession對應的Gene Symbol。
統計檢驗
05
完成了前面的歸一化、補值后,我們需要進行不同分組數據的分析以便獲得差異表達結果。在此,我們采用生物學研究中常用的T-test進行統計檢驗,并計算差異倍數(Fold change,FC)。
計算差異倍數FC(即2組數據平均值的差)。通過函數“=AVERAGE(首組單元格范圍)/AVERAGE(第二組單元格范圍)”,獲得FC值,并補全列,即可得到所有蛋白的FC。
為上下調蛋白著色
06
(2)自動著色
選中“log2(FC)”這列,點擊【開始】--【條件格式】--【突出顯示單元格規則】,選擇大于,數值選擇1,設置為“淺紅填充色深紅色文本”;同樣的操作步驟選擇小于,數值選擇-1,設置為“綠填充色深綠色文本”。
效果如下圖所示:
當然,我們只是演示了一種基礎的數據處理策略,如果需要更復雜的方法,還需要發掘Excel的其它功能,或者采用其它軟件輔助的方法實現。
固話:010-53395839 | |
郵箱:service@qinglianbio.com | |
地址:北京市海淀永捷南路2號院1號樓 中關村科學城·鄉創中心 |