公衆衛生に関するレクチャーを受けました。それで新たに学んだこと、よくわからなくて後で調べたことなどをメモ的に書いていきます。
Population(母集団)とSample(サンプル)の違い
変数の種類
- Countinuous variables (連続変数):年齢、慎重、体重
- Dichotomous (binary) variables (二値変数):生存/死亡、ある疾患がある/なし
- Nomical/categorical variables (カテゴリー変数):人種
- Ordinal variables (順序変数):軽症・中等症・重症
- Count variables (カウント変数):病変の数
- Time to event variables (ある時点からあるできごと=イベントが発生するまでの期間):疾患発症までの時間、死亡までの時間
データ解析のための基礎知識
特に μ(平均)= 0, σ2(分散)= 1 のとき 標準正規分布と呼ばれる。±2標準偏差(SD)の間に95%の値が入る。
推定のいろいろ
点推定(point estimation)と区間推定(interval estimation)がある。例えば、しばしばある「母集団の平均」を求めたい場合は点推定となる。
Type 1&2 error
検定の具体例:MS(多発性硬化症)再発患者と進行中患者ではサイトカイン分泌が異なるのではないか?
- アウトカム:サイトカイン分泌(連続変数)
- Explanatory variable (説明変数):MS患者群 (再発vs進行中) (二値変数)
- 再発患者と進行中患者を集める。
→各グループのサイトカイン分泌量の平均を求める。
→これが統計的に有意か検証する。 - 帰無仮説H0:再発群のサイトカイン分泌平均と進行群のサイトカイン分泌平均は等しい。
- 対立仮説HA:再発群のサイトカイン分泌平均と進行群のサイトカイン分泌平均は等しくない。
- T検定を利用
- t=1.12, p=0.28
- H0棄却失敗(p>0.05)
- 再発MS患者のサイトカイン分泌量と進行MS患者のサイトカイン分泌には統計的有意差があるとはいえない。
- われわれの仮説を検証するもう1つの方法:95%信頼区間
2群の平均の差を求めてみると…6.9
→95%信頼区間は-5.8-19.6 0を含んでいる。
→2群の平均の差は95%の確率で-5.8-19.6の間に収まるということ。0を含んでているということは統計的に2者に有意な差があるとはいえないことを示している。