ヴィオラ・アンド・ジョーンズ法について詳しく解説

導入

ヴィオラおよびジョーンズ法は、2001 年にポールヴィオラとマイケルジョーンズによって提案された、デジタル画像内のオブジェクトを検出する方法です。これは、デジタル画像内のオブジェクトをリアルタイムで効果的に検出する最初の方法の 1 つです。

これは教師あり学習方法であり、通常、分類器をトレーニングするには多数の例 (数百から数千) が必要です。彼女は、その後コンピュータービジョンの多くの研究者によって取り上げられたいくつかの概念、つまり積分画像の概念と、ブーストされた分類器のカスケードとして構築された分類方法を導入しました。この方法はもともと顔を検出するために提案されましたが、他の種類のオブジェクトの検出にも使用できます。

歴史的

この方法は、2001 年 7 月 13 日の IJCV カンファレンスで初めて発表されました。 2001 年 12 月の CVPR では、それほど詳細ではないバージョンも著者によって公開されました。

この方法は、Papageorgiou らの研究に触発されています。特性 (コンピュータビジョン)に関しては、 Haar ウェーブレットに近い特性のアイデアを採用しています。この方法は、AdaBoost による特徴選択のアイデアを採用することにより、コンテンツベースの画像検索という別の分野における Paul Viola と Kinh Tieu の以前の研究にも影響を受けています。

この方法は急速に顔検出の標準的な方法となりつつあり、最も効果的な方法の 1 つとして認識されています。ヴィオラとジョーンズの研究は、人工視覚において最も使用され引用される作品の 1 つとなりました。

方法の説明

ヴィオラとジョーンズの方法は、外観ベースのアプローチであり、重なり合う長方形領域内の多数の特徴を計算することによって画像全体をスキャンすることが含まれます。その特徴は、使用される特性が非常にシンプルであるにもかかわらず、非常に多数であるという事実にあります。この方法の最初の貢献は、これらの特性の迅速な計算を可能にする積分画像の導入です。 2 番目の重要な貢献は、特性を分類子として解釈することにより、ブースティングによるこれらの特性の選択を提案することです。最後に、この方法は、ブーストされた分類器をカスケードで結合するアーキテクチャを提案します。これにより、検出時間の明確な向上が可能になります。

これは教師あり学習方法であり、多数の肯定的な例 (対象のオブジェクト、つまり顔) と否定的な例から分類器を学習する段階と、検出フェーズでのこの分類器の適用という 2 つの段階に分かれています。

特徴

意味

ヴィオラとジョーンズが使用する4種類の特性

Viola と Jones は、ピクセル値を直接操作するのではなく、多くの機能を使用する方が効率的かつ高速であると提案しています。これらは準 Haar 特徴であり、長方形領域で計算されたピクセルの合計の差です。この図は、Viola と Jones によって提案された 4 つの特性タイプを示しています。白色ピクセルの合計から灰色ピクセルの合計が減算されます。その名前は、Papageorgiou らが特性として提案した Haar ウェーブレットとの類似性に由来しています。 、そしてヴィオラとジョーンズはそこからインスピレーションを受けています。

画像上のこれらの特性を効率的に計算するために、著者らは「積分画像」と呼ぶ迅速な方法も提案しています。これは、元の画像と同じサイズの画像の形式で表現され、その各点に、この点の上と左にあるピクセルの合計が含まれます。より正式には、積分画像i i は次のように画像iから定義されます。

$$ {ii(x,y) = \sum_{x’ \le x,y’ \le y} i(x’,y’)} $$

この表現のおかげで、2 つの長方形ゾーンによって形成される特性は、積分画像へのわずか 6 回のアクセスで計算できるため、特性のサイズに関係なく一定時間で計算できます。

計算

特徴は、小さな検出ウィンドウ内のすべての位置とスケールで計算されます。通常のサイズは 24×24 または 20×15 です。これにより、ウィンドウごとに非常に多くの特徴が生成されます。Viola と Jones は、サイズ 24×24 のウィンドウの例を挙げ、45396 の特徴を生成します。

検出中は、この検出ウィンドウの位置を一定の水平および垂直ステップで変更することによって画像全体をスキャンします (元の方法では 1ピクセルのステップが使用されます)。ウィンドウサイズも連続的に増加し、Viola と Jones はウィンドウが画像全体を占めるまで 1.25 のステップを使用します。

ブースティングによる特徴選択

ヴィオラとジョーンズの方法の 2 番目の重要な要素は、最適な特徴を選択するためのブースティング方法の使用です。ブースティングは、「弱い」分類器の重み付けされた組み合わせから「強い」分類器を構築することからなる原則です。つまり、偶然よりわずかに優れています。ヴィオラとジョーンズは、特徴を弱分類器に識別し、単一の特徴のみを使用する弱分類器を構築することによってこの原則を適応させます。次に、分類子はペア (特性、しきい値) にまとめられます。

実際に使用されるブースティングアルゴリズムは、AdaBoost の修正バージョンであり、「強力な」分類器の選択とトレーニングの両方を実行するために使用されます。使用される弱分類器は多くの場合、決定木です。一般的なケースはツリーの深さが 1 の場合で、これにより分類操作が単純なしきい値処理に減ります。

より正確には、アルゴリズムは指定された回数の反復で反復されます。各反復で、アルゴリズムは最終的な強分類器の構築に使用される特徴を選択します。この選択は、すべての特徴の弱分類器を学習し、トレーニングセットで誤差が最も低いものを選択することによって行われます。このアルゴリズムは、トレーニングセット全体にわたる確率分布も維持し、分類結果に基づいて反復ごとに再評価されます。特に、分類が難しい例はより重視されます。 AdaBoost によって構築された最終的な「強力な」分類器は、選択した分類器の加重合計です。

ヴィオラ・アンド・ジョーンズ法について詳しく解説

導入

歴史的

方法の説明

特徴

意味

計算

ブースティングによる特徴選択

分類器のカスケード

参考資料

ヴィオラ・アンド・ジョーンズ法について詳しく解説・関連動画