公衆衛生学・疫学演習

本日の内容




  • 統計学の基本
    • データの種類と要約のまとめ
    • 推定・検定
    • 信頼区間の理解
    • t 検定と\( \chi^2 \)検定




  • 臨床・疫学研究

    • 診断検査法の研究
      • 感度・特異度・検査後確率
      • ROC曲線
    • 生存時間解析
    • メタアナリシス
  • RとEZRでデータ解析の実現

記述統計学の復習

質的変数–数字で測れない

  • カテゴリへ分類できる変数
    • 順序ない
      • 例:性別(男・女); 人種(黒人・白人・黄色人種)
    • 順序ある
      • 例:1年生・2年生; 満足度(悪い・普通・良い)
  • 表を作る
    • 2重分割表

量的変数–数字で測れる

  • 原点0がある
    • 例:身長(cm); 体重(kg); 年齢(歳)
  • 原点0がない
    • 例:気温\( ^{\circ}C \); 日付(2010-1-1)
  • 要約統計量を求める

要約統計量のまとめ

  1. 中心を表す量:

    • 平均値 (mean);中央値(median);最頻値(mode)

      実演: library(ShinyIntroStats) -> intro_stats_shinyapps() [3]

  2. バラツキを表す量:

    • 標準偏差(sd);四分位範囲(IQR)
  3. 中央値四分位範囲のペア

    • 外れ値の影響を受けにくい
  4. 平均値標準偏差

    • 外れ値がない場合に使う

推定と検定


  • 推測統計学
    • 一部の標本(サンプル, sample)から母集団(population)について調べる(推測, inference).
  • 身長の例:
    測定値(観測値) \( = \) 真の身長 \( + \) 測定誤差:(モデル)
    • 180 \( = \) 179.8 \( + \) 0.2
    • 165 \( = \) 164.5 \( + \) 0.5
    • 170 \( = \) 169.7 \( + \) 0.3
    • X \( = \) \( \alpha \) \( + \) \( \epsilon \)


  • クラス全員の身長を測って(観測値),このデータを使って,日本大学生の身長予測モデルを作る:
    • クラス全員の平均身長を日本大学生の平均身長として見積もる(推定する)
    • クラス全員の平均身長と報告された日本大学生の平均身長と違いがあるかを検定する(test)
    • 作った予測モデルを使って,ほかの大学から来た学生の身長を予想する: 予測
    • その予測には,\( \alpha \)がぴったり一致することはない,普通誤差があるため区間推定が必要.\( \longrightarrow \) 95%信頼区間

95% 信頼区間 身長測定の例: