モデル
モデルは、関数関係 Y = F(X) を通じて、説明される 1 つ以上の変数 Y を説明変数 X にリンクします。
- 物理モデルは、理論によって裏付けられた説明モデルです。
- 対照的に、統計モデルは、関係するメカニズムについての事前知識がなくても、利用可能なデータから導出される経験的モデルです。ただし、物理方程式は (データの前処理中に) 統合できます。

仮定されたモデル
以前のモデルでは、係数のみが「データ駆動」であり、モデルの多項式構造はユーザーによって (問題の専門知識に従って) 課せられ、ユーザーは次のことを演繹的に仮定します。
- モデルのタイプ: 線形または多項式、および多項式の次数、
- モデルに入力される変数。
2 つの説明変数を持つ多項式モデルの例:

重回帰
最もよく使われる統計モデルです。
p 個の変数のn 個の観測値( i = 1,…, n ) があります。回帰式が書かれています
または
- ε i はモデル誤差です。
- a 0 、 a 1 、…、 a pは、推定されるモデルの係数です。
観測値からの係数a jとモデルの誤差の計算は、よく理解されている問題です (「重線形回帰」を参照)。
さらにデリケートなのは、モデルに入力する変数の選択です。適用しても適用しなくても構いません。

モデルが仮定されていない
それとは対照的に、「非仮定化」モデルは、数学的構造と係数の両方において完全に「データ駆動型」です。
説明変数の選択には、モデルに関する事前の知識は必要ありません。説明変数の選択は、次のような非常に大きな変数セットの間で行われます。
- 単純な説明変数: A、B、C、… (対象分野の専門家によって提案され、その数p はnより大きくなる可能性があります);
- これらの変数の「相互作用」または「結合」、たとえば「A*B」(中心換算変数の外積)だけでなく、「A と B」、「A または B」、「 A」などの「論理相互作用」も含まれます。 「B が平均的」、「B が強い場合は A」、「B が平均的である場合は A」、「B が弱い場合は A」など。 ;
- これらの変数の関数: たとえば、cos(A)、減衰または増幅された正弦関数、非正弦周期関数、しきい値効果など。
選択は、次の原則に従って回帰係数を計算する前に行われます。
- 私たちは、応答と最もよく相関する要因、つまり「相互作用」、または関数を探します。それが見つかったら、前の相関では説明されなかった残基と最もよく相関する因子、つまり相互作用を探します。等この方法は、要因に相関がある場合に、同じ影響を二度カウントしないようにし、重要度を下げることによって順序付けすることを目的としています。
見つかったリストは重要度の降順に分類されており、未知数 ( n ) を超える用語を含めることはできません。モデル内に 1 つの項だけを保持する場合、それがリストの最初になければなりません。 2 つだけ保持する場合は、それらが最初の 2 つになります。
実際、リスト内の各用語は、前の用語では説明されなかった剰余を「説明」するため、最後の用語はおそらく「ノイズ」のみを説明します。どの停止基準を選択する必要がありますか?
モデルに保持される項の数は、たとえば、予測の標準誤差SEP (予測の標準誤差) を最小化する項の数、またはフィッシャーの F を最大化する項の数にすることができます。この項の数は、ユーザーが物理的な考慮事項に基づいて選択することもできます。
- 例: 候補となる「説明変数」のセットが {A,B,C,D,E,F,G} であり、得られたモデルが次であると仮定します。
- Y = 定数 + aA + b.(「E と G」) + c.(「D と F の平均」)
- 私たちはそれに気づきます
- * 変数 B と C は無関係なので、モデルには表示されません
- *変数A は単純な項として表示されます。
- * 一方では変数 E と G、他方では D と F は「論理的な相互作用」としてのみ現れます。
この「倹約的な」モデル、つまり少数の項 (ここでは 3 つ) で構成され、5 つの変数が含まれており、多項式モデルよりも物理的現実によく忠実です。実際、「同時に強い E と G」を意味する接続詞「E と G」は、EG 型の多項式項よりも物理的現実 (例: 化学における触媒作用) で頻繁に遭遇します。

