「統計解析のための線形代数」復習筆記5
- 2017-02-15 updated.
數據的種類和尺度
表1. 20歳の若者9名のデータ | |||||||||||||
性別 | 健康状態 | 体温 | 身長 | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
男 | 女 | 極良 | 良好 | 普通 | 不良 | 極悪 | °C | cm | |||||
1 | 1 | 0 | 1 | 0 | 0 | 0 | 0 | 36.9 | 155 | ||||
2 | 0 | 1 | 0 | 1 | 0 | 0 | 0 | 36.5 | 190 | ||||
3 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 36.7 | 165 | ||||
4 | 0 | 1 | 0 | 0 | 0 | 0 | 1 | 39 | 155 | ||||
5 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 38.1 | 167 | ||||
6 | 1 | 0 | 0 | 0 | 0 | 1 | 0 | 36.2 | 180 | ||||
7 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 36.6 | 178 | ||||
8 | 0 | 1 | 0 | 0 | 1 | 0 | 0 | 36.7 | 170 | ||||
9 | 0 | 1 | 1 | 0 | 0 | 0 | 0 | 36.5 | 166 |
- 數據按照尺度類型分4種:
- 定性數據:(qualitative data/categorical data)
- 名義尺度 (nominal scale):
如番號,性別等,僅用於識別或者區分對象。 - 順序尺度 (ordinal scale):
如表1中的健康狀態,既具有名義尺度的性質,也具有順序(順位,前後,程度等)意義。
- 名義尺度 (nominal scale):
- 定量數據:(quantitative data)
- 間隔尺度 (interval scale):
又稱區間尺度,距離尺度。如體溫等數值之間的差具有意義,可以設定原點(零)的尺度。 - 比例尺度 (ratio scale)
如身高(身長),不同人的身高差有意義,同時原點(零)又無意義。(身高爲零的人是不存在的)
- 間隔尺度 (interval scale):
- 定性數據:(qualitative data/categorical data)
- 樣本與總體(標本/サンプルと母集団):
- 表格1 中,
(1) 全國20歲的年輕人全體的性別,健康狀態,體溫,身高的數據
(2) 任意抽選數名(此處爲9名)年輕人的性別,健康狀態,體溫,身高的數據。
(1) 稱爲總體(population), (2) 稱爲樣本(sample) - 一般的,我們稱問卷調查的對象個人爲個體(subject, individual),人數爲樣本量(size),我們也常常假設總體有無窮大。在多元變量分析中,如果我們稱數據,通常只能是指樣本數據。我們在統計分析中,一般是通過樣本去推測總體的狀況或者利用一些樣本的參數(parameter)來描述總體,去進行檢驗等。
- 表格1 中,
- 變量(variable):
- 表1 中變量有“性別”,“健康狀態”,“體溫”,“身長”四個。
- 進一步的,性別又細分了“男”,“女”,健康狀態又分爲“極好”,“良好”,“普通”,“不良”,“極差”五個小項目,這些小項目整個可以視爲一個變量,也可以視爲單獨的變量,如果視爲單獨變量,表1 中就共有9個變量。
- 性別,健康狀態的各個變量中,我們看到表1 中的數據只有1或者0,這樣的變量稱爲啞變量(dummy variable,ダミー変量)。
- 特別地,我們可以稱性別和健康狀態的變量爲項目(item),稱底下的小項目爲分類(category)。我們又稱以這樣有項目,下面有分類的變量爲項目分類型數據(item-categorical data)。
- 多元變量分析,顧名思義,指的是對一個具有一個以上變量的數據進行統計學分析的過程。
- 單變量數據
- 將數據進行總結,分析提取特徵的過程,稱爲概括統計(summary statistics)。
下表中爲樣本量 \(n\) 的單變量數據,我們看看該數據可以有哪些概括統計
個体の番号 | 変量 \(s\) |
---|---|
\(1\) | \(x_1\) |
\(2\) | \(x_2\) |
\(\vdots\) | \(\vdots\) |
\(i\) | \(i\) |
\(\vdots\) | \(\vdots\) |
\(n\) | \(n\) |
樣本平均值(mean): \(\bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{1}{n}\sum\limits_{i=1}^nx_i\)
樣本範圍(range): \(R=\max(x_i) - \min(x_i)\)
樣本平方和(偏差平方和,Sum of Squares):
\(SS=(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\\ \;\;\;\;\:=\sum\limits_{i=1}^{n}(x_i-\bar{x})^2\\ \;\;\;\;\:=\sum\limits_{i=1}^n(x_i^2-2\bar{x}x_i+\bar{x}^2)\\ \;\;\;\;\:=\sum\limits_{i=1}^nx_i^2-2\bar{x}\sum\limits_{i=1}^nx_i+\sum\limits_{i=1}^{n}\bar{x}^2\\ \;\;\;\;\:=\sum\limits_{i=1}^nx_i^2-2\cdot\frac{\sum\limits_{i=1}^nx_i}{n}\cdot\sum\limits_{i=1}^nx_i+n\cdot(\frac{\sum\limits_{i=1}^nx_i}{n})^2\\ \;\;\;\;\:=\sum\limits_{i=1}^nx_i^2-\frac{1}{n}(\sum\limits_{i=1}^nx_i)^2\)樣本方差(variance, 分散):\(s^2=\frac{SS}{n}\)
樣本標準差(standard deviation, S.D., 標準偏差): \(s=\sqrt{s^2}\)
無偏樣本方差(unbiased sample variance, 不偏標本分散):\(u^2=\frac{SS}{n-1}\)
無偏樣本標準差平方根(不偏標本分散平方根): \(u=\sqrt{u^2}\)
通在多元變量分析中,常常利用的思想是將變動(variability)或者是波動(dispersion)最大化,最小化。此處說的變動和波動是指上面提到的無偏樣本方差。