第 41 章貝葉斯統計入門

A Bayesian statistician is one who, vaguely expecting a horse and catching a glimpse of a donkey, strongly concludes he has seen a mule.

Guernsey McPearson’s Drug Development Dictionary³

The Introduction to Bayesian Statistics lectures were orgainised and taught by Dr. F. Javier Rubio and Professor Karla DiazOrdaz.

本章節之目的：

介紹 (啓發) 貝葉斯推斷 Bayesian inference 的基本概念。並且與概率論 frequentist inference 推斷實例作比較。
介紹共軛分佈的概念 conjugate distributions。用單一參數家族 (single parameter family) ，特別是二項分佈的圖形來描述共軛分佈；用方差已知的正態分佈均值來描述共軛分佈。
介紹貝葉斯預測分佈 Bayesian prediction distribution。

推薦書目：

“Principles of Statistical Inference” by D.R. Cox (D. R. Cox 2006)
“Bayesian Data Analysis” by Gelman, Carlin, Stern, Dunson, Vehtari, and Rubin (Gelman et al. 2013), website for the book
“Bayesian Biostatistics” by Vehtari and Rubin (Lesaffre and Lawson 2012)

貝葉斯統計推斷，提供了不同於概率論推斷的另一種考察和解決問題的思路。所有的思考，都源於貝葉斯定理 Bayes’ Theorem (Section 2)。起源於英國統計學家托馬斯貝葉斯 (Thomas Bayes) 死後被好友 Richard Price 整理發表的論文: “An essay towards solving a problem in the doctrine of chances.”

概率論推斷與貝葉斯推斷的中心都圍繞似然 likelihood (Section 12) 的概念。然而二者對似然提供的信息之理解和解釋完全不同。即在對於觀察數據提供的信息的理解，和如何應用已有信息來影響未來決策（或提供預測）的問題上常常被認爲是統計學中形成鮮明對比的兩種哲學理念。過去幾個世紀二者之間孰優孰劣的爭論相當激烈。但是，從實際應用的角度來看，我們目前更關心哪種思維能更加實用地描述和模擬真實世界。幸運地是，多數情況下，二者的差距不大。所以無法簡單地從一個實驗或者一次爭論中得出誰更出色的結論。現在的統計學家們通常不再如同信仰之爭那樣的互相水火不容，而是從實用性角度來判斷一些實際情況下，採用哪種思想能使計算過程更加簡便或者計算結果更加接近真實情況。

請思考如下的問題：什麼是概率？ What is probability?

概率論思想下的定義：某事件在多次重複觀察實驗結果中發生次數所佔的比例。
The probability of an event is the limit of its relative frequency in a large number of trials.”
貝葉斯思想下的定義：概率是你相信某事件會發生的可能性。
Probability is a measure of the degree of belief about an event.

41.1 概率論推斷的複習

思考不同場景：

場景 A：假如我們在監測一個製造鐵絲的工廠，需要測量該工廠生產的鐵絲的強度。
場景 B：假如我們正在進行一個大型隊列研究，該研究是關於心臟病和與之相關的某個危險因子的評價。數據來源是家庭醫生的診療數據庫。
場景 C：假如一名警察凌晨三點在空無一人的街頭巡邏時，突然聽見防盜自動警鈴的報警聲。他立刻循聲望去，對面街上的珠寶店玻璃碎了一地。一個戴着巴拉克拉瓦頭套的人正揹着一個大包從破碎玻璃窗中爬出。該警察毫不猶豫地判定該人就是劫匪，立刻將其逮捕。

在這些場景下，請用概率論思想思考如下幾個問題：

事件是什麼？
如何解讀總體參數？
如何使用參數進行概率推斷？
用經典概率論時，有什麼缺點嗎？

場景 A：
1. 事件：該工廠製造的鐵絲，長期以來的強度大小是多少。
2. 總體參數：鐵絲的真實強度，或者與鐵絲強度相關的特性。
3. 概率推斷：我們進行鐵絲的強度實驗，即從該工廠已經生產的鐵絲中大量抽取樣本逐一進行強度檢測。用相應的概率模型來模擬抽取的樣本數據，並且使用極大似然估計找到最能體現抽樣數據的參數估計，然後對獲得的極大似然估計進行95%信賴區間的計算。然後如果我們重複這樣相同的實驗無數次，那麼我們計算的所有的信賴區間中，有95%包含了真實的鐵絲強度大小。
4. 在鐵絲強度測量的場景中，經典概率論顯得十分自然，因爲我們真的可以重複這樣的實驗很多很多次以獲得想要的參數的精確估計。
場景 B：
1. 事件：由於我們用的是整個隊列研究的數據。所以從概率論的角度來看，本事件就是假定我們可以在人數無限多的人羣中重複同樣的隊列研究。
2. 總體參數：我們感興趣的心臟病相關危險因子，在抽取該隊列作爲樣本的人羣中的真實值大小。
3. 概率推斷：我們用泊松分佈的概率模型來模擬人羣中從開始觀察時起，至心臟病發病這段時間內和該危險因子之間的關係大小。然後用傳統的極大似然估計法計算獲得 HR, OR 等值來表示危險因素和心臟病的關係。
4. 缺點：實際情況是，經費時間和人力資源的限制下，我們無法“重複相同的隊列研究”。而且該對列本身可能就是十分獨特的，比如只有男性，或者有年齡限制，或者其他的特性使隊列本身在理論上就是不可能被重複的。所以，在這樣的場景下，用經典的概率論思想作統計推斷常常會被認爲是不自然不妥當的。
場景 C：
1. 事件：警察無數次在同樣的時間同樣的地點巡邏時，聽見防盜自動警鈴的報警聲，他看見頭戴巴拉克拉瓦頭套的人從破碎的玻璃窗中爬出……
2. 總體參數：在無數次上面描述的場景時，發生盜竊案的真實概率。
3. 概率推斷：使用某種可以描述該事件（巡邏時。。。發生盜竊案的概率）的數學模型，我們用極大似然估計來計算發生盜竊案概率的估計和95%信賴區間，然後警察同志再來決定是否要去抓眼前這個頭戴巴拉克拉瓦頭套的人。
4. 缺點：經典概率論在如此場景下很明顯是完全不適用的。
  1) 這裏經典概率論思維下的概率實際上無法準確定義，充其量是一種發生盜竊案可能性的估計。
  2) 在如此場景下，警察會根據已經觀察到的現象（已知信息），來判斷一場盜竊案發生的概率是多少。

通過上面不同場景的下的思考，應該能看到傳統概率論中始終假設我們可以重複相同的實驗多次，然後從長遠來估測相關事件發生的概率。許多場景下，即使事件概率能被準確定義，我們是很難知道我們關心的參數的分佈的，從而導致我們常常要用到漸進法估算 (asymptotic approximation)。

41.2 貝葉斯概率推理/逆概率 Bayesian reasoning/inverse probability

首先，不得不承認的一個事實是，所有的概率都是條件概率。

要麼是根據已知的信息。
要麼是一般性大家都接受的某種假設條件。

其次，概率，並不是“長遠”地重複觀察獲得的事件發生頻率。相反地，概率的大小取決與你自己和你感興趣的話題（事件）。思考下列例子：

明天會下雨嗎？
阿森納下一場比賽會贏還是會輸？
你的期末考試能不能過？

41.2.1 演繹推理 deductive reasoning 和三段論 weak syllogisms

數學要用到邏輯，假設我們用 \(A,B,C\) 標記不同的事件。

如果 \(A\Rightarrow B\) (事件 A 可以推導出事件 B)
那麼當我們知道“事件 B 爲真”時，雖然B不一定能倒推回 A，但是我們會相信事件 A 很可能發生了。

例如，A 表示“正在下雨”這件事，B 表示 “天上有烏雲”。那麼從邏輯學上來說，\(A\Rightarrow B\) 。然而有烏雲本身不一定會下雨。但是會讓我們覺得下雨的可能性增加了。

再來思考警察巡邏的例子。A 表示 “在珠寶店正在發生盜竊案”，B 表示 “一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出”。也是一樣的道理。

所以警察薯熟在做判斷的時候，需要判斷 Pr(A|B)。他需要如下的信息：

珠寶店發生盜竊案的前提下，有個人從碎玻璃窗中爬出來的概率。
該警察薯熟正處於的環境（半夜三點無人的街頭，等場景）

所以，看到這裏是不是覺得貝葉斯使用的是我們的“常識”在思考決斷問題？因爲我們的先驗概率 (prior) 至關重要。這是我們的背景知識和解釋參數似然（推斷）的依據。

41.2.2 如何給可能性定量 Quantifying plausibility

進行可能性定量之前，R.T. Cox 制定了如下的規則(R. T. Cox 1946)：

\(\text{plausibility}(A)\) 是一個有邊界的實數；
傳遞性，transitivity：如果
- \(\text{plaus}(C)>\text{plaus}(B)\) and
- \(\text{plaus}(B)>\text{plaus}(A)\) then
- \(\text{plaus}(C)>\text{plaus}(A)\)
一致性，consistency：事件 \(A\) 發生的可能性只取決於所有與 \(A\) 直接相關的信息，而不包括那些推理到與 \(A\) 相關信息之前的信息。
The plausibility of proposition \(A\) depends only on the relevant information on \(A\) and not on the path of reasoning followed to arrive at \(A\).

R.T. Cox 證明了他提出的這些規則可以完全適用於所有的可能性計算，而且可能性 (plausibility) 的這些規則和概率 (probability) 的微積分計算完全一致。

所以利用上面的可能性規則，我們可以對條件概率進行更深層次的定義：

\[\text{Pr}(A|B)=\frac{\text{Pr}(B|A)\text{Pr}(A)}{\text{Pr}(B)}\propto \text{Pr}(B|A)\text{Pr}(A)\]

用文字表述爲：

事後概率 \(\propto\) 似然 \(\times\) 先驗概率

其中：

事後概率，posterior probability：\(B\) 發生的條件下, \(A\) 發生的概率；
\(\propto\) ：與…成正比；
似然，likelihood：\(A\) 發生的條件下，\(B\) 發生的概率；
先驗概率，prior probability：事件 \(A\) 發生的概率。

這就是貝葉斯定理。這個定理也告訴我們爲什麼貝葉斯論證在18，19世紀時被叫做“逆概率推理, inverse probability reasoning”。因爲似然 (\(A\) 發生的條件下，\(B\) 發生的概率) 在與先驗概率相乘以後，概率發生了逆轉–事後概率 (\(B\) 發生的條件下, \(A\) 發生的概率)。

回頭再來看之前的珠寶店盜竊案：

事件 \(A\)：珠寶店正在發生盜竊案；
事件 \(B\)：一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出。

所以：

\(\text{Pr}(A)=\) 珠寶店發生盜竊案的概率 – 先驗概率 (prior probability);
\(\text{Pr}(B|A)=\) 當珠寶店發生盜竊案時，觀察到“一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出”事件的可能性 – 似然 (likelihood);
\(\text{Pr}(A|B)\) 當觀察到“一個頭戴巴拉克拉瓦頭套的人正在從玻璃窗中爬出”事件時，倒推珠寶店發生了盜竊案的概率 – 事後概率 (posterior probability)。

用例子來解釋貝葉斯推理之後你會發現，其實貝葉斯思想也是純粹的概率理論。與經典概率論不同的是，我們沒有必要認爲某些事件發生的概率需要被重複實驗驗證。貝葉斯對整個世界的理解源於我們每個人自己認爲的事件發生概率 (personalisitic probability)，或者叫信念度（degree of belief）。

41.3 貝葉斯推理的統計學實現

在經典概率論中，概率分佈的標記 \(f_X(x;\theta)\) 的涵義爲：對於一個隨機變量 \(X\)，它在我們假設的某種固定的真實（上帝才知道是多少的）參數 \(\theta\) 的分佈框架下，不斷重複相同的實驗之後獲得的概率分佈。

在貝葉斯統計推理中，一切都被看作是一個服從概率分佈的隨機變量。利用貝葉斯定理，我們將先驗隨機概率分佈 (prior probability distribution)，和觀察數據作條件概率 (condition on the observed data)，從而獲得事後概率分佈 (posterior probability distribution)。

41.3.1 醫學診斷測試 diagnostic testing

貝葉斯推理最常用的實例是在診斷測試中，即當一個人拿着陽性的檢驗報告結果來找你，你如何判斷這個人有多大的概率真的患有該疾病。

用 \(D\) 標記患病， \(\bar{D}\) 標記不患病；\(T\) 標記檢查結果爲陽性，\(\bar{T}\) 標記檢查結果爲陰性。那麼，陽性檢查結果時，真的患病的概率 \(\text{Pr}(D|T)\)：

\[ \begin{aligned} \text{Pr}(D|T) &= \frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T)}\\ &=\frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})} \end{aligned} \]

其中分母的轉換用到了 Law of Total Probability (L.T.P):

\[ \begin{aligned} \text{Pr}(T) &= \text{Pr}(T \cap D) + \text{Pr}(T \cap \bar{D}) \\ &= \text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D}) \end{aligned} \]

所以說，貝葉斯定理在這裏告訴我們，要計算 \(\text{Pr}(D|T)\) 我們只需要下列幾個信息：

患病率： \(\text{Pr}(D)\)
檢測手段的敏感度 (sensitivity)： \(\text{Pr}(T|D)\)
檢測手段的 1 - 特異度 (specificity)： \(\text{Pr}(T|\bar{D})=1-\text{Pr}(\bar{T}|\bar{D})\)

41.3.2 HIV 檢查時的應用

假設人羣中患病率爲 \(1/1000\)，所用的 HIV 檢測手段的敏感度爲 \(0.99\)，特異度爲 \(0.98\)。試計算該檢測HIV手段的事後概率（即拿到陽性結果時，患病的概率 \(\text{Pr}(D|T)\)）。

解

令 \(D=\text{HIV positive}, \bar{D}=\text{HIV negative}\\ T=\text{test postive}, \bar{T}=\text{test negative}\)

\[ \begin{aligned} \text{Pr}(D|T) &= \frac{\text{Pr}(T|D)\text{Pr}(D)}{\text{Pr}(T|D)\text{Pr}(D)+\text{Pr}(T|\bar{D})\text{Pr}(\bar{D})} \\ &= \frac{0.99\times0.001}{0.99\times0.001+(1-0.98)\times0.999} \\ &= 0.0472 \end{aligned} \]

如果特異度能達到 \(0.99\)

如果特異度能達到 \(0.999\)

可見，對於像 HIV 這樣人羣中患病率較爲罕見的疾病，其檢驗手段的敏感度，特異度都要達到極高才能讓檢驗結果可靠，即拿到陽性結果的人的確患有該疾病。其中當敏感度爲 \(0.99\)，特異度爲 \(0.999\) 時，才能讓這樣的檢驗手段達到接近一半的可靠程度 (即只有接近一半的陽性結果是真陽性)。

注意本例爲貝葉斯理論的特例，即我們使用的是一個固定的先驗概率 (prior) 和似然 (likelihood)。一般情況下，先驗概率和似然會有自己的概率分佈 (probability distribution)，而很少會是一個固定的值，其相應的事後概率 (posterior) 也擁有概率分佈，並且使用它本身的均值和方差來描述。

41.3.3 離散概率分佈實例：遺傳學分析

這裏輔助我們理解的實例來自經典書目 BDA (Gelman et al. 2013) 第一章節 1.4 小節 P8-9。這一實例同樣可以讓我們清晰的理解先驗概率，似然，和後驗概率。

已知血友病（Hemophilia）是一種遺傳性疾病。它是X-染色體隱性疾病。也就是說，當性別為男性時，攜帶該缺陷基因意味著必然會發病，因為男性只有一條X染色體。相反，女性則需要兩條X染色體同時攜帶該缺陷基因才會發病。而且女性患有血友病的話，是很致命的，意味著患有血友病的女性長到成年並育有子女的概率極為罕見。

41.3.3.1 先驗概率 Prior distribution

假如來了一名女性就醫者進行遺傳諮詢，她訴說她的一個同父同母的親兄弟是血友病患者。那麼，我們可以推論該女性的母親應該是一位血友病基因攜帶者。且該女性告訴我們她的父親不是血友病患者，故她本人是否攜帶血友病缺陷基因本身是取決於她的母親，也就是各有 50% 概率。所以，總結目前已知的信息，該女性關心的問題，她本人是不是攜帶者只有兩個答案：是攜帶者 \(\text{Pr}(\theta =1) = 0.5\)，不是攜帶者 \(\text{Pr}(\theta = 0) = 0.5\)。

41.3.3.2 似然 likelihood

假如該女性又告訴我們，她已經育有兩個男孩，他們不是同卵雙胞胎，而且兩個男孩都不是血友病患者，也就是說，我們獲得了兩個觀察數據 \[ y_1 = 0; y_2 = 0 \]

那麼我們可根據這個數據計算下列的似然函數：

\[ \begin{aligned} \text{Pr}(y_1 = 0, y_2 = 0 | \theta = 1) & = 0.5 \times 0.5 = 0.25 \\ \text{Pr}(y_1 = 0, y_2 = 0 | \theta = 0) & = 1 \times 1 = 1 \end{aligned} \]

第一行似然函數是說，如果該女性本身是攜帶者，那麼不再遺傳給兩個男孩的概率分別都是 \(0.5\)。
第二行似然函數是說，如果該女性本身不是攜帶者，那麼本身兩個男孩不患有血友病的概率就都是 \(1\)。

41.3.3.3 事後概率 Posterior distribution

下面我們可以利用貝葉斯定理，把先驗概率結合數據給出的似然，計算我們希望獲得的事後概率，也就是在已知上述條件下，該女性是血友病缺陷基因攜帶者的概率 \(\text{Pr}(\theta = 1| y_1, y_2)\)：

\[ \begin{aligned} \text{Pr}(\theta | y_1, y_2) & = \frac{p(y_1, y_2|\theta = 1)\text{Pr}(\theta = 1)}{p(y_1, y_2|\theta = 1)\text{Pr}(\theta = 1) + p(y_1, y_2|\theta = 0)\text{Pr}(\theta = 0)} \\ & = \frac{0.25 \times 0.5}{(0.25 \times 0.5) + 1 \times 0.5} = \frac{0.125}{0.625} = 0.20 \end{aligned} \]

其實我們不用計算可能也能猜出來，因為當一個女性生下無血友病的男孩成為事實時，她本人是血友病缺陷基因攜帶者的概率（在我們腦海裡推算中）會變小。那麼貝葉斯定理是把這個變小的過程直接呈現給我們看。從原先的一半一半的概率，現在在知道了該女性生下兩名健康的男嬰之後，同樣事件的概率下降到了 \(0.2\)。

這個計算過程同樣可以使用先驗比值 (prior odds) 和後驗/事後比值 (posterior odds) 之間的關係來推理。從已知的背景看，該女性是攜帶者的先驗比值是：

\[ \text{Prior odds} = \frac{\text{Pr}(\theta =1) = 0.5}{\text{Pr}(\theta =0) = 0.5} = 1 \]

根據已知兩個健康男嬰的數據計算的似然比是：

\[ \text{Likelihood ratio} = \frac{\text{Pr}(y_1 = 0, y_2 = 0 | \theta = 1)}{\text{Pr}(y_1 = 0, y_2 = 0 | \theta = 0)} = \frac{0.25}{1} = 0.25 \]

於是，事後比值的結果顯而易見就是：

\[ \text{Posterior odds} = \text{Prior odds} \times \text{Likelihood ratio} = 1 \times 0.25 = 0.25 \]

然後我們再把比值和概率之間進行數學轉換，獲得事後概率：

\[ \frac{\text{Pr}(\theta | y_1, y_2)}{1 - \text{Pr}(\theta | y_1, y_2)} = 0.25 \\ \rightarrow \text{Pr}(\theta | y_1, y_2) = 0.2 \]

41.3.3.4 更新我們的認知：

如果該女性下次再來諮詢時，生下了第三名健康男嬰。也就是 \(y_3 =0\)，我們取得了新的數據。此時我們更新該女性是血友病缺陷基因攜帶者的概率最簡便的方法是，直接使用上面計算過的 \(\text{Pr}(\theta | y_1, y_2) = 0.2\)，作為此時的先驗概率 (prior)：

\[ \text{Pr}(\theta | y_1, y_2, y_3) = \frac{0.5 \times 0.2}{0.5 \times 0.2 + 1 \times 0.8} = 0.111 \]

類似地，如果該女性第三胎生下的是一名患有血友病的男嬰，那麼相應地，該女性是攜帶者的概率會被更新為 100%：

\[ \text{Pr}(\theta | y_1, y_2, y_3) = \frac{0.5 \times 0.2}{0.5 \times 0.2 + 0 \times 0.8} = 1 \]

41.3.4 說點小歷史

圖 41.1: Sir Ronald Fisher

Ronald Aylmer Fisher (1890-1962) 推動了統計學在20世紀前半頁的重大發展。他鞏固了概率論統計學堅實的基礎，並且積極提倡這一套理論(Fisher 1922)。但是 Fisher 本人對於統計學的“統計學意義, level of significance” 的認識卻是隨着時間和他年齡的變化而變化的：

表 40.1: Fisher’s interpretation of ‘level of significance’ and the Neyman-Pearson interpretation
早期 Fisher (1935)	晚期 Fisher (1956)	Neyman and Pearson
統計學有意義的水平（傳統上使用 \(\alpha=5\%\)），必須在實施統計檢驗之前就被決定。因此，統計學意義的水平是相應統計學檢驗本身的性質之一。 Thus, the level of significance is a property of the test.	統計學意義的水平，應該被精確計算並且在報告中明確 \(p\) 值的大小，故統計學意義的水平本身是在實施了統計檢驗之後計算的。它應該是屬於觀察數據的固有性質。 Here the level of significance is a property of the data.	\(\alpha\) 和 \(\beta\) 作爲統計檢驗的第一類錯誤和第二類錯誤指標，應該在實施統計檢驗之前被決定。所以 \(\alpha, \beta\) 是屬於統計檢驗的性質。 Yet, to determine \(\alpha, \beta\) no convention is required, but rather a cost-benefit estimation of the severity of the two kinds of error.

隨着马尔科夫蒙特卡洛 (Markov-Chain Monte Carlo, MCMC) 法的廣泛應用，貝葉斯統計學在事後概率計算上（計算量超大的）棘手問題，得到了解決。

41.4 Practical Intro-to-Bayes 01

從經典概率論的角度，準確定義 \(95\%\) 信賴區間。思考，在貝葉斯統計理論中，它會如何被定義。

解

概率論：

對於一個總體參數 \(\theta\) 來說，\(95\%\) 信賴區間是一個從觀察數據中計算得到的數值區間。如果重複相同的實驗無數次，我們從無數個觀察數據中計算這個區間，那麼這些無數多的信賴區間 (confidence interval, CI) 裏有 \(95\%\) 包含了總體參數 \(\theta\)。

貝葉斯：

對於一組觀察數據，它可以計算獲得可信區間 (credible interval, CI)。如果使用 \(L, U\) 分別表示下限和上限的值，\(\theta\) 表示參數，\(x\) 表示觀察數據，\(\pi(\theta|x)\) 表示事後概率分佈的密度方程， posterior distribution。那麼有：

\[\text{Pr}(\theta \in (L,U)) = \int_L^U\pi(\theta|x)\text{d}\theta = 95\%\]

即，在貝葉斯理論下，95% 可信區間就是這一個區間包含了參數的概率是95%。

證明貝葉斯定理。
1. 並且用二項分佈隨機變量的例子來證明：
  \(\text{posterior odds} = \text{prior odds}\times\text{likelihood ratio}\)
2. 用前面提到的 HIV 的案例來說明這個公式的實際應用。

解

參照上面的標記法：

\(\theta\) 表示參數
\(x\) 表示觀察數據
\(\pi(\theta|x)\) 表示事後概率分佈的密度方程， posterior distribution
\(f(\theta,x)\) 表示參數和數據的聯合分佈， joint distribution
\(f(x)\) 表示先驗概率分佈的密度方程， prior distribution

\[ \begin{aligned} \pi(\theta|x) &= \frac{f(\theta, x)}{f(x)} \\ &=\frac{f(\theta, x)}{f(x)}\cdot\frac{1/\pi(\theta)}{1/\pi(\theta)} \\ &=\frac{\frac{f(\theta,x)}{\pi(\theta)}}{\frac{f(x)}{\pi(\theta)}} \end{aligned} \]

其中分子部分 \(\frac{f(\theta,x)}{\pi(\theta)}\) 就是條件概率 \(f(x|\theta)\)。

分母的 \(f(x)\) 部分 \[ \begin{aligned} f(x) &= \int f(x,\theta) \text{d}\theta \\ &= \int \frac{f(x,\theta)}{\pi(\theta)} \cdot \pi(\theta) \text{d}\theta \\ &= \int f(x|\theta) \cdot \pi(\theta) \text{d}\theta \end{aligned} \]

所以，

\[\pi(\theta|x)=\frac{f(x|\theta)\pi(\theta)}{\int f(x|\theta) \cdot \pi(\theta) \text{d}\theta}\]

用二項分佈隨機變量 (\(\theta=1, 0\)) 來證明：\(\text{posterior odds} = \text{prior odds}\times\text{likelihood ratio}\)

解

假設 \(\theta\) 是一個二項分佈的隨機變量，那麼 \(f(\theta|x)=\text{Pr}(\theta |x)\)。

\[ \begin{aligned} \text{posterior odds} &= \frac{\text{Pr}(\theta=1|x)}{\text{Pr}(\theta=0|x)} \\ &= \frac{\frac{\text{Pr}(x|\theta=1)\text{Pr}(\theta=1)}{\text{Pr}(x)}}{\frac{\text{Pr}(x|\theta=0)\text{Pr}(\theta=0)}{\text{Pr}(x)}}\\ &=\frac{\text{Pr}(\theta=1)}{\text{Pr}(\theta=0)}\cdot\frac{\text{Pr}(x|\theta=1)}{\text{Pr}(x|\theta=0)} \\ &=\text{prior odds}\times\text{likelihood ratio} \end{aligned} \]

用前面提到的 HIV 案例來驗證：

HIV的患病率爲 \(1/1000\)，所以 \(\text{prior odds}=1:999\)，似然比 \(\text{likelihood ratio}=0.99:(1-0.98)\)。所以就有：

\[ \begin{aligned} \text{posterior odds} &=\text{prior odds}\times\text{likelihood ratio} \\ &= \frac{1}{999}\times\frac{0.99}{1-0.98} \\ &= \frac{0.99}{19.98} \\ &= \frac{1}{20.18182} \end{aligned} \]

所以事後概率（陽性結果患病的概率）爲 \(1/(1+20.18182)=0.0472\)。

史密斯先生有2個孩子，其中之一是男孩。另一個孩子是女孩的概率是多少？如下前提默認成立：
1. 男女比例爲: 50-50。
2. 這個家庭中沒有對男孩或者女孩的偏好。
3. 這兩個孩子不是同胞雙胞胎。

一個家庭有兩個孩子的性別組合的所有可能性：

第一個孩子性別	第二個孩子性別
男孩	男孩
男孩	女孩
女孩	男孩
女孩	女孩

所以根據已知條件，其中之一是男孩，所以最後一種情況：“兩個女孩” 是不可能的。故另一孩子是女孩的概率就是 \(\frac{2}{3}\)。

如果用貝葉斯理論來正式計算的話：

\[ \begin{aligned} & \text{Pr (1 girl in family of 2 | family does not have 2 girls)} \\ &= \frac{\text{Pr(family doesn't have 2 girls|1 girl in a family of 2)}\times \\ \text{Pr(1 girl in a family of 2 )}}{\sum_{j=0,1,2}\text{Pr(family doesn't have 2 girls|j girl in a family of 2)}\times\\\text{Pr(j girl in a family of 2)}} \\ &= \frac{1\times\frac{1}{2}}{1\times\frac{1}{4}+1\times\frac{1}{2}+0\times\frac{1}{4}} \\ &= \frac{\frac{1}{2}}{\frac{3}{4}}=\frac{2}{3} \end{aligned} \]

也是一樣的結論。

下表是全國普查以後得出的家庭有兩個孩子，且至少一個是男孩的數據分佈：

第一個孩子性別	第二個孩子性別	家庭數量
男孩	男孩	657
男孩	女孩	591
女孩	男孩	610
女孩	女孩	0

求同樣的概率問題：

解

另一個孩子是女孩的概率是：\(\frac{610+591}{610+591+657}=0.646\)

References

Cox, D. R. 2006. Principles of Statistical Inference. Cambridge University Press. https://books.google.co.jp/books?id=nRgtGZXi2KkC.

Cox, R. T. 1946. “Probability, Frequency and Reasonable Expectation.” American Journal of Physics 14 (1): 1–13. https://doi.org/10.1119/1.1990764.

Fisher, R. A. 1922. “On the Mathematical Foundations of Theoretical Statistics.” Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character 222: 309–68. http://www.jstor.org/stable/91208.

Gelman, A., J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari, and D. B. Rubin. 2013. Bayesian Data Analysis, Third Edition. Chapman & Hall/CRC Texts in Statistical Science. Taylor & Francis. https://books.google.co.uk/books?id=ZXL6AQAAQBAJ.

Lesaffre, E., and A. B. Lawson. 2012. Bayesian Biostatistics. Statistics in Practice. Wiley. https://books.google.co.uk/books?id=WV7KVjEQnJMC.

http://www.senns.demon.co.uk/wdict.html ↩︎

第 41 章 貝葉斯統計入門