コックス回帰 - 定義 - サイエンス・ハブ

導入

コックス回帰(比例ハザードモデル) – 英国の統計学者デイビッドコックスにちなんで名付けられた – は、統計における生存モデルの一種です。生存モデルでは、イベントが発生するまでの経過時間を研究します。歴史的に、コックスモデルでは、この出来事は個人の死であり、それが私たちが一般に生存と死について話す理由です。長年にわたり、このモデルの使用は他の状況にも拡張されており、そのためイベントはどのような性質のものでもなり得ます。病気の再発や、逆に治癒などです。統計的な観点から見ると、イベントの性質はもちろん重要ではないため、それに応じて係数を解釈する必要があります。

縦断的研究の場合、多くの場合、長期間にわたって個人を追跡することは不可能であり、イベントは必ずしも集団全体で観察されるわけではありません。その場合、打ち切られたデータについて話します(en) 。コックスのようなモデルの利点は、これらのデータが「完全」ではない場合でも考慮に入れることができることです。

理論

Cox モデルは、瞬間死亡リスク関数λ (ハザード関数、故障率、信頼性率、死亡率、ハザード率などの名前も見つかります) を時間tおよび共変量の関数として表します。

$$ {X_1,\cdots ,X_n} $$

。すると、次のようになります。

より正式には、個人にとっての関数は、

$$ {\lambda\left(t,X_1,\cdots ,X_n\right)} $$

t の直前に自分が生きていることがわかっている時点での死亡の瞬間的リスクに相当します。

$$ {\lambda_0\left(t\right)} $$

をベーシスリスクといいます。これは、すべての共変量がゼロの場合の瞬間的な死亡リスクに相当します。

いくつかの点に注意してください。

式は 2 つの部分に分けることができます。最初の部分 (
$$ {\lambda_0\left(t\right)} $$
) は 2 番目の (
$$ {exp\left(\Sigma_{i=1}^{n}\beta_i X_i\right)} $$
) 共変量のみに依存します (Cox モデルは時間に依存する共変量にも拡張できます。対応するサブセクションを参照)。
Cox モデルはセミパラメトリックであると言われます。確かに、関数を推定しようとしているわけではありません。
$$ {\lambda_0\left(t\right)} $$
、実際、これは特定の時点ではすべての個人にとって同じです。私たちにとって重要なのは、異なる危険因子にさらされた 2 人の個人の瞬間的な死亡リスクの比率です。
Cox モデルの重要な仮定は、比例リスクという式から導かれます。この概念を理解するために、単一の共変量、たとえば k 番目だけが異なる 2 人の個人j ₁とj _{2 を}考えてみましょう。この共変量はj ₁に対して 0、 j ₂に対して 1 の価値があると想像できます。

それから、私たちは、何であれ、次のようにします。

したがって、関係は時間とは独立しています。言い換えれば、時間 t が何であれ、個人j _{2 は}個人j ₂の死亡リスクのe x p (β _k )倍の瞬間的な死亡リスクを抱えます。

比例ハザード仮説

これは Cox モデルの強い仮定であるため、最初にそれが満たされていることを検証する必要があります。次に、共変量ごとに、その効果が時間に依存しないかをテストします。この効果は一定でなければなりません。つまり、有益な場合もあれば、有害な場合もあれば、単にゼロになる場合もあります。比例ハザードの仮定が満たされているかどうかを確認するには、さまざまな方法があります。たとえば、_共変量に対する比例リスクの仮説を確認したい場合は、グラフィカルな手法に頼ることができます。

$$ {\log\left[-\log\left[S\left(t\right)\right]\right]} $$

2 つの層(つまり、 X _k = 0の個人_と.そうであれば、仮説は検証されたと考えるかもしれません。

ただし、統計的なテストはあります。その中で、シェーンフェルド残差検定:死亡日t _iごとに、死亡した個人の特徴間の差異を計算します (同点の場合は、各個人および死亡時刻ごとに残差を計算し、合計します)残差）と、時刻t _iで死亡する危険性がある個人の特性の加重平均。これにより、次のようになります。

と：

R _{i j} : 時刻t _iにおける残差
X _{i j} : 時刻t _iにおける個々の死亡者の共変量 j の値
$$ {\bar X_{ij}\left(t_i\right)} $$
: 時間t _iでリスクにさらされている個人間の共変量 j の加重平均

実際には残差を分散で割った標準化残差を使用します。

比例ハザードの仮定が正しい場合、残差は時間の経過とともに同じように分布するはずです。検定統計量に加えて、残差と時間をプロットするのが一般的です。

一般に、この仮定はほとんどの共変量について検証されます。そうでない場合、解決策の 1 つは、比例リスク仮説を満たさない共変量を層別化することです。

係数の推定値

の見積もり

$$ {\beta_k | k=1\cdots n} $$

最尤法を使用して行われます。サンプルの尤度は、実際にはこのサンプルが観察される確率であるため、直感的にはこの確率を最大化したいと考えます。

そこで、次の表記法を使用して独立したデータのサンプルを取得してみましょう。

X _{i は}i 番目の人の共変量の列ベクトル(これは時間にも依存する可能性があります)
β係数β _iの列ベクトル
$$ {t_i | i=1\cdots m} $$
死の回
d _i時刻t _iにおける死亡者数
D _i時刻t _iにおけるすべての死亡者数
r _i同時に死亡するリスクがある人の数
$$ {t_i^-} $$
私_は、時に死亡の危険にさらされているすべての人に
$$ {t_i^-} $$

時刻t _iで被験者k が死亡する確率は次のとおりです。

時間t _iで、 D _iに属するすべての個人の可能性が次のように書き込まれます。

最後に、(部分的な) コックス尤度関数は次のように記述できます。

したがって、次のように方程式を解くことが問題になります。

$$ {L\left(\beta\right)} $$

は最大です。関数 L が最大値に達する値V がサンプル尤度です。

係数の解釈

共変量X _{k を}考えてみましょう。これは 2 つの値を取ることができます。個人が治療 A を受けた場合は 0、治療B を受けた場合は 1 です。治療変数を取る個人がロジスティックまたは線形モデルと完全に同一であることを基準として考えてみましょう。回帰) の場合、係数β _{k は}治療 A と比較した治療 B に関連する相対リスク(ここでは死亡の瞬間的リスク) になります。言い換えれば、治療 B を受けている個人は死亡の瞬間的リスクを持っています。 $$ {exp\left(\beta_k\right)} $$

治療Aを受けている人の倍

コックス回帰 – 定義

導入

理論

比例ハザード仮説

係数の推定値

係数の解釈

参考資料

コックス回帰 – 定義・関連動画