第 9 章 統計推斷的概念
- If people do not believe that mathematics is simple, it is only because they do not realize how complicated life is.
- John von Neumann
9.1 人羣與樣本 (population and sample)
討論樣本時,需考慮下面幾個問題:
- 樣本是否具有代表性?
- 人羣被準確定義了嗎?
- 我們感興趣的“人羣”是否可以是無限大 (多) 的?
- 我們研究的樣本,是僅僅用來觀察,亦或是計劃對之進行某種干預呢?
- 我們從所有可能的人羣中抽樣了嗎?
9.2 樣本和統計量 (sample and statistic)
通常我們在進行實驗或觀察時只是獲得了樣本的數據。而希望從樣本數據去推斷 (inference) 總體 (或人羣) 的一些特徵。我們也許只是想用樣本的平均值來估計整體人羣的某個特徵的平均值。不管是何種估計和推斷,都是基於對樣本數據的計算,從樣本中獲得想要推斷總體的統計量 (statistics)。我們用已知樣本去推斷未知總體的過程就叫做估計 (estimate)。這個想要被推斷的總體或人羣的值,被叫做參數 (parameter),常常使用希臘字母來標記。用來估計總體或人羣的,從樣本數據計算得來的統計量,叫做估計量 (estimator)。
所有的統計量,都有樣本分佈 (sampling distributions,意爲重複無限次取樣後獲得的無限次統計量的分佈)。推斷的過程歸納如下:
- 從總體或人羣中抽樣 (樣本量 \(n\))
- 計算這個樣本的合適統計量,從而用於估計它在整體或人羣中的值。
- 我們還需要決定計算獲得的統計量的樣本分佈 (假定會抽樣無數次) 。
- 一旦可以精確地確認樣本分佈,我們就可以定量地計算出使用步驟2中獲得的統計量估計總體或人羣的參數時的準確度。
9.3 估計 Estimation
從樣本的均值,推斷總體或人羣的均值是一種估計。我們的目的是,從已知樣本中計算一個儘可能接近那個未知的總體或人羣參數的值。一個估計量有兩個與生俱來的性質 (properties):1) 偏倚 (bias); 2) 精確度 (precision)。這兩個性質都可以從樣本分佈和估計量獲得。
偏倚: 偏倚簡單說就是樣本分佈的均值,也就是我們從樣本中計算獲得的估計量,和我們想要拿它來估計的總體或人羣的參數之間的差距。(The bias is the difference between the mean of the sampling distribution – the expected or average value of the estimator – and the population parameter being estimated.) 一個小的偏倚,確保了我們從樣本中計算獲得的估計值 (假設我們抽樣無數次,計算無數個樣本估計值) 均勻地分佈在總體或人羣參數的左右兩邊。偏倚本身並不是太大的問題,但是假如樣本量增加,偏倚依然存在 (估計量不一致, inconsistent) ,那常常意味着是抽樣過程出現了問題。例如:
用簡單隨機抽樣法獲得的樣本均值,就是總體或人羣均值的無偏估計 (unbiased estimator)。如果抽樣時由於某些主觀客觀的原因導致較小的樣本很少被抽樣 (抽樣過程出了問題,脫離了簡單隨機抽樣原則) ,那麼此時得到的樣本均值就會是一個過高的估計值 (upward biased estimator)。精確度:估計值的精確度可以通過樣本分佈的方差或標準差來評價 (簡單說是樣本分佈的方差越低,波動越小,精確度越高) 。樣本分佈的標準差被定義爲估計值的標準誤。假如估計量是樣本均值,那麼樣本分佈的標準差 (估計量的標準誤) 和樣本數據之間有如下的關係:
\[\text{true standard error of the mean} = \frac{\text{true standard deviation}}{\sqrt{\text{sample size}}}\]
在一些簡單的情況下,通常估計值的選用不言自明 (例如均值,或者百分比) 。但是在複雜的情況下,我們可能可以有多個不同類型的估計量可以選擇,他們也常常各有利弊,需要我們做出取捨。
9.4 信賴區間 confidence intervals
從樣本中計算估計量獲得的一個估計值,只是一個點估計 (point estimate)。對比之下,信賴區間就是一個對這個點估計的精確度的體現。信賴區間越窄,說明我們對於總體或人羣的參數的可能取值的範圍估計越精確。
信賴區間通常是成對成對的出現的,即有上限和下限。這樣的一對從樣本數據中計算得來的統計量,同樣也是有樣本分佈的。每次我們重新從總體或人羣中抽樣,計算獲得的信賴區間都不同,這些信賴區間就組成了信賴區間的樣本分佈。總體和人羣的參數落在這些信賴區間範圍內的概率,就是我們常說的信賴區間的水平 (\(95\%\)) 。 常用的這個概率值就是 \(95\%, 90\%, 99\%\)。
當從樣本數據計算獲得的估計量的信賴區間很寬,說明了這個收集來的數據提供了很少的參數信息,導致估計變得很不精確。
看到這裏的都是好漢一條啊! 我不知道你暈了麼有,反正我是已經暈了。。。