「統計解析のための線形代数」復習筆記5

  • 2017-02-15 updated.

數據的種類和尺度

表1. 20歳の若者9名のデータ
  性別   健康状態   体温   身長
    極良 良好 普通 不良 極悪   °C   cm
1   1 0   1 0 0 0 0   36.9   155
2   0 1   0 1 0 0 0   36.5   190
3   1 0   0 0 0 1 0   36.7   165
4   0 1   0 0 0 0 1   39   155
5   0 1   0 0 1 0 0   38.1   167
6   1 0   0 0 0 1 0   36.2   180
7   1 0   0 0 0 0 1   36.6   178
8   0 1   0 0 1 0 0   36.7   170
9   0 1   1 0 0 0 0   36.5   166
  1. 數據按照尺度類型分4種:
    • 定性數據:(qualitative data/categorical data)
      • 名義尺度 (nominal scale):
        如番號,性別等,僅用於識別或者區分對象。
      • 順序尺度 (ordinal scale):
        如表1中的健康狀態,既具有名義尺度的性質,也具有順序(順位,前後,程度等)意義。
    • 定量數據:(quantitative data)
      • 間隔尺度 (interval scale):
        又稱區間尺度,距離尺度。如體溫等數值之間的差具有意義,可以設定原點(零)的尺度。
      • 比例尺度 (ratio scale)
        如身高(身長),不同人的身高差有意義,同時原點(零)又無意義。(身高爲零的人是不存在的)
  2. 樣本與總體(標本/サンプルと母集団):
    • 表格1 中,
      (1) 全國20歲的年輕人全體的性別,健康狀態,體溫,身高的數據
      (2) 任意抽選數名(此處爲9名)年輕人的性別,健康狀態,體溫,身高的數據。
      (1) 稱爲總體(population), (2) 稱爲樣本(sample)
    • 一般的,我們稱問卷調查的對象個人爲個體(subject, individual),人數爲樣本量(size),我們也常常假設總體有無窮大。在多元變量分析中,如果我們稱數據,通常只能是指樣本數據。我們在統計分析中,一般是通過樣本去推測總體的狀況或者利用一些樣本的參數(parameter)來描述總體,去進行檢驗等。
  3. 變量(variable):
    • 表1 中變量有“性別”,“健康狀態”,“體溫”,“身長”四個。
    • 進一步的,性別又細分了“男”,“女”,健康狀態又分爲“極好”,“良好”,“普通”,“不良”,“極差”五個小項目,這些小項目整個可以視爲一個變量,也可以視爲單獨的變量,如果視爲單獨變量,表1 中就共有9個變量。
    • 性別,健康狀態的各個變量中,我們看到表1 中的數據只有1或者0,這樣的變量稱爲啞變量(dummy variable,ダミー変量)
    • 特別地,我們可以稱性別和健康狀態的變量爲項目(item),稱底下的小項目爲分類(category)。我們又稱以這樣有項目,下面有分類的變量爲項目分類型數據(item-categorical data)
    • 多元變量分析,顧名思義,指的是對一個具有一個以上變量的數據進行統計學分析的過程。
  4. 單變量數據
    • 將數據進行總結,分析提取特徵的過程,稱爲概括統計(summary statistics)

下表中爲樣本量 \(n\) 的單變量數據,我們看看該數據可以有哪些概括統計

個体の番号 変量 \(s\)
\(1\) \(x_1\)
\(2\) \(x_2\)
\(\vdots\) \(\vdots\)
\(i\) \(i\)
\(\vdots\) \(\vdots\)
\(n\) \(n\)
  • 樣本平均值(mean)\(\bar{x}=\frac{x_1+x_2+\cdots+x_n}{n}=\frac{1}{n}\sum\limits_{i=1}^nx_i\)

  • 樣本範圍(range)\(R=\max(x_i) - \min(x_i)\)

  • 樣本平方和(偏差平方和,Sum of Squares):
    \(SS=(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2\\ \;\;\;\;\:=\sum\limits_{i=1}^{n}(x_i-\bar{x})^2\\ \;\;\;\;\:=\sum\limits_{i=1}^n(x_i^2-2\bar{x}x_i+\bar{x}^2)\\ \;\;\;\;\:=\sum\limits_{i=1}^nx_i^2-2\bar{x}\sum\limits_{i=1}^nx_i+\sum\limits_{i=1}^{n}\bar{x}^2\\ \;\;\;\;\:=\sum\limits_{i=1}^nx_i^2-2\cdot\frac{\sum\limits_{i=1}^nx_i}{n}\cdot\sum\limits_{i=1}^nx_i+n\cdot(\frac{\sum\limits_{i=1}^nx_i}{n})^2\\ \;\;\;\;\:=\sum\limits_{i=1}^nx_i^2-\frac{1}{n}(\sum\limits_{i=1}^nx_i)^2\)

  • 樣本方差(variance, 分散)\(s^2=\frac{SS}{n}\)

  • 樣本標準差(standard deviation, S.D., 標準偏差)\(s=\sqrt{s^2}\)

  • 無偏樣本方差(unbiased sample variance, 不偏標本分散)\(u^2=\frac{SS}{n-1}\)

  • 無偏樣本標準差平方根(不偏標本分散平方根)\(u=\sqrt{u^2}\)

  • 通在多元變量分析中,常常利用的思想是將變動(variability)或者是波動(dispersion)最大化,最小化。此處說的變動和波動是指上面提到的無偏樣本方差。

Avatar
王 超辰 - Chaochen Wang
Real World Evidence Scientist

All models are wrong, but some are useful.

comments powered by Disqus

Related