導入
データ分析において、相関図法は、相関行列を、「顕著な」相関関係を実線(正の相関)または点線(負の相関)で表す図に置き換える手法です。
この考え方は、特にゲノムマッピングで使用されるガウス グラフィカル モデルにも現れています。しかし、相関関係の図像は、変数のガウス分布の有無についていかなる仮定も行わず、相関係数の幾何学的な側面のみに基づいているという点で、より一般的です。

歴史的
相関関係の図像の最初のアイデアは 1975 年に遡ります。最初に海洋地球化学に適用され、1981 年には州論文の主題となり、1982 年にはカイエ・ド・データ分析誌の記事の主題となりました。 、約 15 年間にわたって航空宇宙産業の多くの分野でこの手法が適用されてきたことは、逆説的に、企業が屋上から自分たちのソリューションを大声で叫ぶことを望まなかったために、この手法が長期間維持されてきた相対的な機密性を説明しています。 1997 年に相関関係の図像に基づいたソフトウェアを配布する最初の会社が設立され、特定の大学でそのソフトウェアが教えられて以来、参考文献は、特に医療および天体物理学(質量分析) 分野で広く拡大しました。
このプレゼンテーションは教育目的であり、参照で引用された文書からインスピレーションを得ています。
注目のリンクを厳選
小さな例で説明してみましょう。3 年生レベルの数学のテスト中に、体重、年齢、出席状況がわかっている 6 年生から最終学年までの 8 人の生徒が次の成績を獲得しました。
| 瞳 | 重さ | 年 | 出席 | 注記 |
|---|---|---|---|---|
| e1 | 52 | 12 | 12 | 5 |
| e2 | 59 | 12.5 | 9 | 5 |
| e3 | 55 | 13 | 15 | 9 |
| e4 | 58 | 14.5 | 5 | 5 |
| e5 | 66 | 15.5 | 11 | 13.5 |
| e6 | 62 | 16 | 15 | 18 |
| e7 | 63 | 17 | 12 | 18 |
| e8 | 69 | 18 | 9 | 18 |
| 重さ | 年 | 出席 | 注記 | |
| 重さ | 1 | |||
| 年 | 0.885 | 1 | ||
| 出席 | -0.160 | -0.059 | 1 | |
| 注記 | 0.774 | 0.893 | 0.383 | 1 |
4 つの変数を紙上にランダムに配置し、それらの相関が絶対値のしきい値0.3 を超えるたびに、そのうちの 2 つの間に線を引きます。

この図を考慮すると、比較的強い相関関係(体重、成績) = 0.774 は、体重が出席率よりも成績に与える影響が大きいことを示唆しています。しかしその一方で、相関関係は(体重、年齢) = 0.885、 (年齢、学年) = 0.893 となります。
これら 3 つの「全体相関」係数から、「偏相関」公式は次のようになります。一定年齢での相関 (体重、スコア) : = -0.08
一定の年齢では、学年と体重の相関関係は急激に低下しています(わずかにマイナスですらあります)。つまり、体重はグレードに影響しません。これは驚くべきことではありません。体重とグレードの間のリンクを消去してみましょう。

結局のところ、リンクは追跡されず、
- 相関の合計が絶対値でしきい値よりも低いため、
- それは、絶対値で、または全体の相関と反対の符号を持つ、しきい値を下回る部分相関が少なくとも 1 つあるためです。
他の偏相関の値から確認できるように、ここでは他のリンクを削除する必要はありません。
- 常時出席時の相関 (体重、成績) : = 0.92
- 一定スコアでの相関 (年齢、体重) : = 0.68
- 常時出席時の相関 (年齢、体重) : = 0.89
- 一定体重での相関 (年齢、学年) : = 0.71
- 一定の成績での相関 (出席率、体重) : = -0.78
- 一定年齢での相関 (出席率、体重) : = -0.23
- 一定体重での相関 (出席率、成績) : = 0.81
- 一定年齢での相関 (出席率、成績) : = 0.97
- 一定体重での相関 (出席率、年齢) : = 0.18
- 一定の学年での相関 (出席率、年齢) : = -0.97
変数の数は m = 4 であるため、 m.(m-1)/2 = 6 個の異なる変数のペアがあり、各ペアに対して(m-2) = 2 つの偏相関係数が存在します。
ここで、相関の図像とガウス グラフィック モデルの重要な違いを強調しましょう。
相関関係の図像は(m-2).m.(m-1)/2 = 12 個の偏相関係数に基づいており、それぞれが1 つの変数に関連して計算されるため、それぞれの効果を混合する必要がないことがわかりました。彼ら。反対に、ガウス グラフィック モデルは、 (m-2) 個の他の変数に関するm.(m-1)/2 = 6 個の偏相関係数のみに基づいています。したがって、多数の三角関係を集計し、一種の平均(他のすべての変数に対する変数の各ペアの部分相関行列) を保持します。 2 つの変数間の関係を説明または反論する特定の変数の強調表示が失われます。
したがって、相関関係の図像により、使用される情報の量と質の両方を向上させることができます。
