各位看官如果有興趣,就跟著我壹起來理壹理吧。
我壹直有個壹夜暴富的夢想,思來想去,我決定買彩票。概率老師告訴我,這“ 不可能 ”。可是,這個不可能是怎麽定義的?
本著嚴謹的思維,我決定做個科學實驗。假設,我有可能通過買彩票壹夜暴富(零假設),那麽這件事情發生的概率(p值)是多少呢?以雙色球為例,?壹等獎(6+1)中獎概率為:紅球33選6乘以藍球16選1=1/17721088=0.0000056%。概率老師告訴我,如果壹件事情發生的概率很小,那麽我們就認為這件事不可能發生(備擇假設)。
從這件司空見慣的小事,我們可以理出如下思路,怎麽對壹件事情進行預測。首先,我們需要進行壹個零假設,然後,算出這件事發生的概率 p 值,給定壹個閾值,比如0.05,當 p<0.05,我們認為這件事不可能發生,那麽只能是它的對立面備擇假設成立。所以,這個 p 值,其實就是壹個概率。這個分析思路看上去也很簡單,可是問題來了,p 值到底怎麽算?彩票中獎概率當然好算,教科書經典問題,那麽其他的呢?這又引起另壹個讓人頭疼的問題。
我們知道,我們所做的壹切判斷都是基於已有的客觀事實,在科研領域,自然是那壹堆堆的數據,那麽如何從這些數據中做出判斷呢,自然是找規律。怎麽找規律?數據分布給我們指明了道路。讓人頭疼的卡方檢驗,t 檢驗等等壹系列都是由卡方分布,正態分布延伸而來的分析方法。總結壹下,從拿到數據,到最後做出判斷,需要經歷以下過程:
為了更形象的說明這個過程,我引用某知乎作者張自達的壹個t檢驗的例子。
例子
為了更形象的說明這個過程,我引用某知乎作者張自達的壹個 t 檢驗的例子。
假設有壹批均值為10的樣本數據,符合正態分布。我們抽其中10個樣本檢測,想看下這10個樣本能否代表這批樣本數據。下面是我們的分析過程:
第壹步 ,拿到實驗數據,總體樣本均值為10,抽樣樣本量為10;
第二步 ,確定樣本分布為正態分布,作出零假設,認為抽樣樣本可以代表總體樣本;
第三步 ,由於總體樣本均值已知,總方差未知,所以采取t檢驗的方法,用樣本方差代替總方差,抽樣樣本自由度為9,先計算t-檢驗的統計量
根據這個 t 值和自由度,我們可以算出 p 值,見下圖。
p=2 ×0.07417=0.14834
第四步 ,得出結論,以 p<0.05 為閾值,本例中 p>0.05,拒絕原假設,因此,10個抽樣樣本並不能反應總體樣本情況。
看到這裏,可能各位看官又和我壹樣頭大了,慶幸的是,p 值計算已經整合到檢驗方法中,並整合到分析軟件中,實際分析中,這些都是不需要自己算的,我們只需要選擇合適的檢驗方法,甚至合適的分析軟件就可以,我只是為了更形象的說明p值得到過程,所以找到這個比較簡單的例子。
p 值的來龍去脈,我算是大概理清楚了,那麽又為什麽要對 p 值進行校正呢?
以我們常見的差異表達基因來為例,當我們對其中壹個基因進行分析,以 p<0.05 為閾值,我們認為在這個基因上,兩個比較組存在差異,這其中只有不到5%出錯的概率,我們認為這是顯著差異的。但是真正生物分析中,我們不可能只分析壹個基因,對於上萬的基因數,即便是5%的錯誤率,以1000個差異基因為例,也會有50個假陽性的結果,因此,FDR(false discovery rate)被提出來,用以控制假陽性的產生。假陽性的控制方法有很多,所以有 q value,p adjust,那麽多不同的名詞,我會在後面的文章中繼續說明。