こりんの基礎医学研究日記

都内の医大を2014年に卒業。現在は大学院で基礎研究中。日々の研究の中で疑問に思ったことや勉強したことなどを主に自分のための備忘録として書いていきいます。ときどき臨床の話や趣味の話も。必ずしも学術論文等が元となっていない内容もありますので、情報の二次利用の際はご注意ください。

回帰分析に関するTips

勉強したことのメモです。

 

  • アウトカムとして生存or死亡など2値データを扱うとき
    →ロジスティック回帰
  • アウトカムとして入院日数などの連続量を扱うとき
    →線形回帰
  • ROC曲線を作成するとき、曲線の下の面積をArea under curve=AUCといい、判別能の高さを示す。
  • 複数のAUCのうちどれがより適切か、判別能が高いかを判定する方法がDelong法。例えば、ある疾患で入院中の患者の90日後死亡率を予測したいとき
    ①年齢、性別、人種、敗血症の有無、手術の有無、新規バイオマーカーA
    ②年齢、性別、人種、敗血症の有無、手術の有無
    どちらの方が優れているかを調べたりするときに用いる。
    ※Stataを用いると結果は「Prob > chi2= 0.0000」のようにあらわされ、「Prob > chi2」がp値に相当する。上記の場合p<0.05ということになり、有意差ありとなる。
  • ロジスティック回帰モデルの適合度を示す検定として、Hosmer-Lemeshow検定がある。
  • 統計モデルがどの程度適合しているかを表す指標として、AICBICなどがある。
    いずれも値が小さい方がよいモデルとされている。

例えば、ある測定データを統計的に説明するモデルを作成することを考える。この場合、パラメータの数や次数を増やせば増やすほど、その測定データとの適合度を高めることができる。しかし、その反面、ノイズなどの偶発的な(測定対象の構造と無関係な)変動にも無理にあわせてしまうため、同種のデータには合わなくなる(過適合問題、Overfitting)。この問題を避けるには、モデル化のパラメータ数を抑える必要があるが、実際にどの数に抑えるかは難しい問題である。AICは、この問題に一つの解を与える。具体的にはAIC最小のモデルを選択すれば、多くの場合、良いモデルが選択できる[2]

出典:Wikipedia