公衆衛生に関するレクチャーを受けました。それで新たに学んだこと、よくわからなくて後で調べたことなどをメモ的に書いていきます。
この回は難しかったのできちんとまとめられるか不安ですが・・・がんばってやっていきます。
「回帰」とは?~線形回帰~
ある数値と数値の間の関係を数式などで表すこと。1つの数値をもとに、もう片方の数値を予測したいときなどに使う。
たとえば、
- 気温が高い日はアイスが売れやすいのではないか?
と考え、毎日気温とアイスの売り上げを記録したとする。この2つの関係を数式で表そうなどと考えるのが回帰。たとえば、
- (アイス売り上げ個数)=Ax(気温)+B
といった数式を作れば、天気予報を基に売れるアイスの個数を予測できるため、どのくらいの量作ればいいか分かる。このように式に当てはめるなどして、2者の関係を見出すのが回帰。このとき(アイスの売り上げ個数)が目的変数、(気温)が説明変数となる。
次に上記の式を見ていると、ほかの要因も関係しているではないか?と思い始めたとする。たとえば湿度や雨量なども関係しているのでは?などと考え始めたとする。
- (アイス売り上げ個数)=Ax(気温)+Bx(湿度)+Cx(降水確率)+D
そうすると上記のような式になる。最初の式は説明変数が1つなので単回帰分析、次の式は重回帰分析となる。
ちなみに上記の式では省いたが、実際には、2つの変数の関係が完全に直線になったり、完璧にある数式の上に乗ることはありえず、誤差が生じるため、式は
- (アイス売り上げ個数)=Ax(気温)+B+誤差
- (アイス売り上げ個数)=Ax(気温)+Bx(湿度)+Cx(降水確率)+D+誤差
のようになる。
ロジスティック回帰
医療分野では「ロジスティック回帰」分析というのがしばしば用いられる。なぜかというと、「生存」または「死亡」、「手術する」か「手術しない」か、ある病気が感知する確率、などといったように0~1までしか値をとらないときがしばしばあり、このようなときには上記の単回帰分析は使えないため(式を見てみれば分かるが、回帰式が一次関数直線の場合、1より値が大きくなってしまい得る)、代わりにこのようなときに使えるのがロジスティック回帰だからである。
ロジスティック回帰分析の手順
1. 対立仮説と帰無仮説を設定する
2. 説明変数と応答変数の散布図を表示する
3. ロジスティック回帰式を求める
4. ロジスティック回帰モデルの当てはまり具合を評価する
5. 回帰係数の有意性を検定する
6. 推定結果の意味を解釈する
出典:ロジスティック回帰分析
http://www.ner.takushoku-u.ac.jp/masano/class_material/waseda/keiryo/16_logit.html
回帰分析におけるp値の意味は
P<0.05のとき、帰無仮説「回帰係数=0」を棄却していることになる。
(ちなみに対立仮説は「回帰係数≠0」)
「回帰係数=0」とは「関係がない」ということを意味する。
(線形回帰で出した例で言うと、回帰係数=0のとき、(アイス売り上げ個数)=Ax(気温)+Bx(湿度)+Cx(降水確率)+D+誤差のA,B,C...などが0になる。)
つまり、
P<0.05のとき、帰無仮説「回帰係数=0」を棄却→関係がある!(その変数はアウトカムに影響を与える因子である)
ということになる。