医療統計に関する大学院講義のメモです。
医療統計の実際:ディオバン事件の問題点
Jikei Heart Study
Mochizuki et al. Lancet 2007; 369: 1431-9 →のちに撤回
3000人程度の高血圧患者をディオバン群とほかの降圧薬群に分けて効果を検証。1次エンドポイントは、心血管死亡+心血管合併症(脳卒中、TIAによる入院、心筋梗塞、心不全による入院、狭心症による入院)とした。
→心血管死亡をメインのエンドポイントしているわけだが、死亡はそれほど多くは起きないので、他のイベントもエンドポイントに含めている。(=複合エンドポイント)
Mochizukiらの発表によるとハザート比0.61であり、有意にイベント発生率がディオバンによって抑えられるという結果であった。
しかし結果を詳しく見てみると、差が出ているのは入院の有無などソフトエンドポイントのみであり、死亡のようなハードエンドポイントに関しては、有意差は出ておらず。
捏造云々の前に、本試験の問題点は、
「ソフトエンドポイントをオープン試験で評価している」
という点。
ソフトエンドポイントとは?
→例えば死亡するかしないかは誰が見ても評価が分かれることはない。血圧が140を超えているか超えていないかといったこともヒトによって見解が分かれることはない。このような誰が評価しても変わらない、客観的評価に基づいているエンドポイントをハードエンドポイントという。一方、入院するかしないか、は医師によって評価が分かれる場合がある。つまり、同じ状態の患者であっても医師によって入院させる場合とさせない場合が出てきてしまう。このように人によって評価に違いが出るエンドポイントをソフトエンドポイントという。
この試験は盲検化されておらず(オープン試験)、例えばディオバン群を意図的に入院させないようにするといったことが可能になってしまう。
つまり捏造問題がなくとも、研究デザインにそもそも問題があったといえる。
もう1つ日本で行われた大規模研究の例を紹介。
MEGA Study
Nakamura et al. Lancet 2006; 368:1155–1163.
脂質異常症治療薬であるプラバスタチン(メバロチン)の冠動脈イベント発生の抑制効果を検証。
• 無作為化・オープンラベル・エンドポイント盲検化(PROBE)試験
• PROBE:Prospective Randomized Open-labeled Blinded Endpoints
冠動脈イベント歴のない脂質異常症患者約8000人を対象に食事療法単独群と食事療法+プラバスタチン併用群に分け、心血管イベント発生率を評価。
心筋梗塞発生率、狭心症発生率、心原性突然死、心血管インターベンションの複合を1次エンドポイントとした。
また、ディオバンの時と異なり、評価者は盲検化されている。
ディオバンと似たデザインではあるが、比較的客観性の高いエンドポイントを設定している。
→この結果、複合エンドポイントでは有意差を示した。
→メバロチンで心血管イベントを抑制できるとこのTrialから示唆される。
統計学の意味
「ばらつき」が意味のあるものか?ないものか?に分解して理解しようと試みる。
誤差的ばらつきを小さくする(=Precisionをあげる)にはサンプルサイズを大きくすることが重要だが、サンプルサイズを大きくしたからと言ってバイアスは減らない(Accuracy)は上がらない。
バイアスを少なくする=Accuracyをあげるには研究デザインの工夫が必要であり、最強の方法がランダム化である。統計解析でも制御が可能。
誤差的なばらつきを評価するために最も一般的な方法が標準偏差。
標準偏差は、単位に依存しているので、標準偏差を平均で割り単位をなくした変動係数というものもある。
ところで統計とは
実際の集団の特徴を分析する方法。
しかし集団全員ではなく一部の分析だけで全体をだいたい把握することが統計を用いれば可能に。
しかし、例えば「ある病院の特定の疾患を持った患者を対象に予後因子を検討する」「ある薬剤の有害事象を評価するためのケース・コントロール研究を行う」などの場合、母集団で何?ランダムサンプリングされているの?
→このような場合も統計を用いる。このような場面に対処するために 「仮想的無限母集団」と「仮想的ランダムサンプリング」という概念が出てきた。
上記の例でいうと、「ある病院の特定の疾患を持った患者を対象に予後因子を検討する」に関して母集団を考えるとすると、「同時代に生きる同疾患を有する患者全体」が仮想母集団となる。
これって科学的なの?という疑問がついて回る。このような背景があるので、各所で臨床研究を繰り返すと異なった結果が出てしまうのも当然である。
多くのStudyで最初に示されているTable1は、ターゲット集団の特徴を示している。
→研究デザインを組む際には一般化可能性(=外的妥当性)よりも内的妥当性の確保が重要。
ランダムサンプリングは必ずしも必要ではない
①比較の妥当性 Comparison Validity
② 追跡の妥当性 Follow-Up Validity
③ 測定の妥当性 Measurement Validity
④ 解析の妥当性 Specification Validity
※追跡の妥当性というのは、例えばどれだけ脱落があるか?といったことに関する評価。例えば重傷者はTrialから離脱する確率が増加する。脱落率がランダムなら問題ないが、例えば女性より男性の方が脱落しやすい、などとなると結果に影響が出る。