導入

ロジスティック回帰は、観測ファイルから、一連の連続変数および/またはバイナリ説明変数からカテゴリカル変数 (ほとんどの場合バイナリ) によって取得される値を予測できるモデルを作成することを目的とした統計手法です。

ロジスティック回帰は多くの分野で広く使用されています。すべてではありませんが、以下を引用できます。

たとえば医学では、健康な被験者と比較して病気の被験者のグループを特徴付ける要因を見つけることが可能になります。
保険の分野では、特定のリスクに対する保険契約に敏感な顧客の一部をターゲットにすることが可能になります。
銀行部門では、融資を受ける際にリスクグループを検出します。
計量経済学において、離散変数を説明すること。たとえば、選挙における投票意向。

ロジスティック回帰の成功は、特に、得られた結果を深く解釈できる多数のツールに依存します。

既知の回帰手法、特に線形回帰と比較すると、ロジスティック回帰は、説明される変数がカテゴリカルであるという事実によって本質的に区別されます。

カテゴリ変数の予測方法として、ロジスティック回帰は、機械学習(決定木、ニューラルネットワークなど) で提案されている教師あり手法、または探索統計における予測判別分析に完全に匹敵します。特に、解決すべき予測問題に最適なモデルを選択するために、それらを競争させることが可能です。

評価、仮定、推定

評価

以下では、 Y は予測される変数 (説明変数)、 X = ( X ₁ , X ₂ ,…, X _J ) は予測変数 (説明変数) であることに注意してください。

バイナリロジスティック回帰のコンテキストでは、変数Y は2 つの可能なモダリティ{1,0}を取ります。変数X _{j は}連続またはバイナリのみです。

推定を実行するために、サイズnのサンプルΩ が必要です。 Yのモダリティ1 (または0 ) に対応する観測値n ₁ (または_n 0 ) に注目します。

P ( Y = 1) (それぞれP ( Y = 0) ) は、 Y = 1 (それぞれY = 0 ) である事前確率です。簡単にするために、 p (1) (またはp (0) ) と書きます。

p ( X / 1) (それぞれp ( X / 0) ) は、 Yが取得する値を知っているXの条件付き分布です。

最後に、 Xが取得する値を知ってYのモダリティ1 (それぞれ0 ) を取得する事後確率は、 p (1 / X ) (それぞれp (0 / X ) ) で表されます。

基本的な仮説

ロジスティック回帰は次の基本的な仮定に基づいています。

膨大なクラスの分布がこの仕様を満たします。たとえば、線形判別分析ですでに見られる多重正規分布だけでなく、他の分布、特に説明変数がブール (0/1) である分布も含まれます。

再び判別分析と比較すると、モデル化されるのは条件付き密度p ( X / 1)およびp ( X / 0)ではなく、これらの密度の比です。仮説によって導入された制限はそれほど強力ではありません。

ロジットモデル

上記の仕様は別の方法で記述することもできます。 p (1 / X )の項LOGITによって次の式を指定します。

説明される変数と一連の説明変数の間の依存関係を示したいので、これはまさに「回帰」です。
確率法則はロジスティック法則からモデル化されているため、これは「ロジスティック」回帰です。

実際、上記の方程式を変形すると、次のようになります。

注: 式の等価性

私たちは 2 つの異なる表現から出発して、ロジスティックモデルに到達しました。ここで、係数a _jとb _jの間の一致が観察されます。もう一度LOGITに乗ってみましょう

留意すべき点は、

$$ { \begin{cases} b_0 = \ln \frac{p(1)}{p(0)}+a_0 \\ b_j = a_j &, j \ge 1 \end{cases} } $$

推定 – 最尤の原則

データファイルから、LOGIT 関数の係数b _jを推定する必要があります。可能な組み合わせごとに存在することは非常にまれです。

$$ {X_j,\ (j=1,…,J)} $$

たとえこれらの変数がすべてバイナリであっても、確率P (1 / X )およびP (0 / X )の信頼できる推定値を得るのに十分な観測値が得られます。通常の最小二乗法は除きます。解決策には、可能性を最大化するという別のアプローチが必要です。

個人ωがグループに属する確率は、尤度への寄与としても見ることができ、次のように説明できます。

サンプルΩの尤度は次のように記述されます。

設定

$$ {\hat b_j (j=0,…,J)} $$

この量を最大化するものは、ロジスティック回帰の最尤推定量です。

実際の見積もり

実際には、ソフトウェアは近似手順を使用して、上記の最大化の満足のいく解を取得します。これは、厳密に同一の係数が常に提供されるわけではない理由も説明しています。結果は、使用されたアルゴリズムと計算の構成時に採用された精度によって異なります。

以下で注意することは、

$$ {\beta\,} $$

推定されるパラメータのベクトル。最もよく知られている手順は、反復勾配法である Newton-Raphson 法です (最適化アルゴリズムを参照)。これは次の関係に基づいています。

$$ {\beta^{i}\,} $$
ステップの一般的な解決策です
$$ {i\,} $$
。
$$ {\beta^{0}=(0,…,0)\,} $$
可能な初期化です。
$$ {\frac{\partial L}{\partial \beta}\,} $$
尤度の一次偏導関数のベクトルです。
$$ {\frac{\partial^2 L}{\partial \beta \partial \beta’}\,} $$
尤度の二次偏導関数の行列です。
連続する 2 つの解ベクトルの差が無視できるほど小さい場合、反復は中断されます。

ヘッセ行列と呼ばれるこの最後の行列は、その逆行列が次の共分散分散行列の推定を表すため、興味深いものです。

$$ {\beta\,} $$

。これは、係数の重要性を評価するためにさまざまな仮説検定で使用されます。

マトリックス形式では次のようになります。

$$ { \overrightarrow{\beta_{i+1}}=\overrightarrow{\beta_{i}}+\left(^{t}XWX\right)^{-1}{}^{t}X\left(\overrightarrow{y}-\overrightarrow{p}\right) } $$

ロジスティック回帰 – 定義

導入

評価、仮定、推定

評価

基本的な仮説

ロジットモデル

推定 – 最尤の原則

実際の見積もり

評価

参考資料

ロジスティック回帰 – 定義・関連動画