你會用概率論來賭博嗎？

2017-10-08 3 min read statistics, study abroad

轉眼我已經進入課程的第二週了，總體來說，我們一半的時間都在電腦房練習 Stata 的數據清理和簡單的描述統計 (descriptive statistics)。從我個人的經驗來說，數據分析的過程，其實一大半的時間是消耗在 data cleaning 上的，即使手頭拿到了所謂的乾淨的數據，到真正要分析的時候就會發現一大堆的問題在裏面，需要重新整理，重新添加標記以使之變得更加讓人類可以讀懂。電腦是機器，他是不管你的數據是否乾淨的。只要你放了數據進去，邏輯還可以，沒有編程上的語法錯誤，它總歸會出來一些報告和結果的。如果就這麼直接用的話，大部分的人就會掉進陷阱。畢竟數據不光會說出事實真相，更多的情況下還會把真相給掩蓋住了。

我的其餘大部分時間都用在了複習高等數學的微積分上了。感覺好似回到了高中時代。其實大學的時候線性代數得分還是接近滿分的。後來多年不用，生疏了。剛打開複習的書的時候，許多微分積分的規則都已經忘記。通過這一週的辛苦練習，終於是找回了一點狀態。如果你也想有空的時候複習以下高中數學知識，這本書可以推薦給你：

Quick Calculus: Short Manual of Self-instruction

上面這本書的內容可以一邊閱讀，一邊練習。實在是複習的一本好書。我花了一週的課餘時間，從頭到尾把裏面的習題和解答全部完成。收穫很大。感覺年輕時的數學思維又開始在大腦裏復甦了。一身輕鬆。

下面想介紹一下上週學習的概率的基礎問題。

首先是最基礎的三個概率的公理：

對於任意事件 \(A\)，它發生的概率 \(P(A)\) 滿足這樣的不等式： \(0 \leqslant P(A) \leqslant 1\)
\(P(\Omega)=1\) , \(\Omega\) 是全樣本空間 (total sample space)
對於互斥（相互獨立）的事件 \(A_1, A_2, \dots, A_n\) 有如下的等式關係： \(P(A_1\cup A_2 \cup \cdots \cup A_n)=P(A_1)+P(A_2)+\cdots+P(A_n)\)

你是不是覺得上面三條公理都是廢話。不用擔心，我也是這麼覺得的。因爲所有人都認同的道理，才能成爲公理 (axiom)，因爲它們是不需要證明的自然而然形成的人人都接受的觀念。(axiom: a saying that is widely accepted on its own merits; its truth is assumed to be self-evident)

然而，正是這樣顯而易見的道理，確是拿來建築理論的基石，千萬不能小看了他們。例如，我們看下面這個看似也應該成爲公理的公式，你能證明嗎：

\(P(A_1\cup A_2) = P(A_1) + P(A_2) - P(A_1 \cap A_2)\)

證明：

先考慮 \(A_1 \cup A_2\) 是什麼（拆分成三個互斥事件）

\(A_1 \cup A_2 = (A_1\cap \bar{A_2})\cup(\bar{A_1}\cap A_2)\cup(A_1\cap A_2)\)

運用上面的公理2 3

\(\therefore P(A_1 \cup A_2) = P(A_1\cap \bar{A_2}) + P(\bar{A_1}\cap A_2) + P(A_1\cap A_2) \;\;\;\;\;\;(1)\)

再考慮 \(A_1=(A_1\cap A_2)\cup(A_1\cap\bar{A_2})\) 繼續拆分成兩個互斥事件

\(\therefore P(A_1)=P(A_1\cap A_2)+P(A_1\cap\bar{A_2})\) 整理一下：

\(P(A_1\cap\bar{A_2})=P(A_1)-P(A_1\cap A_2)\)

同理可得: \(P(\bar{A_1}\cap A_2)=P(A_2)-P(A_1\cap A_2)\)

代入上面第(1)式可得：

\(P(A_1 \cup A_2) =P(A_1)-P(A_1\cap A_2)\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;+P(A_2)-P(A_1\cap A_2)\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;+P(A_1\cap A_2)\\ \;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;\;=P(A_1) + P(A_2) - P(A_1 \cap A_2)\)

條件概率 Conditional probability

\(P(A|S)=\frac{P(A\cap S)}{P(S)}\)
\(P(A\cap S) = P(A|S)P(S)\)

獨立 (independence) 的定義

兩個事件定義爲互爲獨立時 (\(A\) and \(B\) are said to be independent if and only if) \[P(A\cap B)=P(A)P(B)\]
因爲從條件概率的概念我們已知
\(P(A\cap B) = P(A|B)P(B)\)
所以\(P(A|B)=P(A)\) 即：事件 \(B\) 無法提供事件 \(A\) 的任何有效訊息 (\(A, B\) 互相獨立)

賭博問題

終於來到本次話題的重點了。我要扣題了哦。語文老師快在此加分。

假設你在一個電視遊戲節目。有上圖一樣的三扇門。其中一扇門後面有一輛保時捷，另兩扇門後面則是(味道奇特的)山羊。遊戲規則是主持人會讓你先選擇其中一扇門（先不打開你選的這扇門）。主持人隨後打開另外兩扇門中的一扇沒有保時捷的門。主持人問你，你要堅持選擇之前選中的那扇門，還是要改變主意換一扇門去猜是否可以猜中保時捷。請問，堅持選擇之前選中的門猜中保時捷的概率高，還是主持人打開一扇門以後改變主意猜中保時捷的概率更高呢？

答案明天揭曉。

probability inference