勉強したことのメモです。
- アウトカムとして生存or死亡など2値データを扱うとき
→ロジスティック回帰 - アウトカムとして入院日数などの連続量を扱うとき
→線形回帰 - ROC曲線を作成するとき、曲線の下の面積をArea under curve=AUCといい、判別能の高さを示す。
- 複数のAUCのうちどれがより適切か、判別能が高いかを判定する方法がDelong法。例えば、ある疾患で入院中の患者の90日後死亡率を予測したいとき
①年齢、性別、人種、敗血症の有無、手術の有無、新規バイオマーカーA
②年齢、性別、人種、敗血症の有無、手術の有無
どちらの方が優れているかを調べたりするときに用いる。
※Stataを用いると結果は「Prob > chi2= 0.0000」のようにあらわされ、「Prob > chi2」がp値に相当する。上記の場合p<0.05ということになり、有意差ありとなる。 - ロジスティック回帰モデルの適合度を示す検定として、Hosmer-Lemeshow検定がある。
- 統計モデルがどの程度適合しているかを表す指標として、AICやBICなどがある。
いずれも値が小さい方がよいモデルとされている。
例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしまうため、同種のデータには合わなくなる(過適合問題、Overfitting)。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる[2]。
出典:Wikipedia
- 交互作用:Effect modification
分かりやすいページがありました↓