ディープウェブについて詳しく解説

ディープ Webまたはインビジブル Web (英語ではDeep Web ) は、オンラインでアクセスできる Web の一部ですが、従来の一般的な検索エンジンではインデックス付けされません。ディープウェブという用語は、シャローウェブと対比されます。

オンラインでアクセスできない Web 部分を指すダーク Web ^{[ 1 ]}とは区別する必要があります。ディープ Web は、不透明な Web の特殊なケースです (インデックス可能ですが、インデックスは作成されません)。

深いリソース

Web クローラーは、検索エンジンが Web をクロールするために使用するプログラムです。新しいページを発見するために、これらのロボットはハイパーリンクをたどります。深いリソースとは、検索エンジンでは簡単にアクセスできないリソースです。

ディープ Web リソースは、次の 1 つ以上のカテゴリに分類できます。

動的コンテンツ: フォームに入力されたデータに応じてコンテンツが生成される動的ページ。
無関係なコンテンツ: 他のページからリンクされていないため、Web クローラーによって検出できないページ。このコンテンツは、バックリンクのないページ (またはインリンク) として知られています。
アクセス制限のあるコンテンツ: 登録が必要なサイトや、ページへのアクセスが制限されているサイト (例: ロボット除外標準を使用)。これにより、検索エンジンがサイトをクロールしてキャッシュされたコピーを作成できなくなります。
スクリプトの内容: JavaScriptや Flash などのプログラムの実行によって生成されるリンクを通じてのみアクセスできるページ。
インデックス不可能なコンテンツ: インデックス作成ロボットでサポートされていないデータ形式のドキュメント。

深層ウェブのサイズ

BrightPlanet 社が 2001 年 7 月に実施した調査^{[ 2 ]}では、ディープ Web には、検索エンジンによってインデックス付けされた Web の 500 倍のリソースが含まれている可能性があると推定されています。これらのリソースは、量が多いことに加えて、多くの場合、非常に高品質であることがわかります。

不透明なウェブ

Web の非常に重要な部分は理論的にはインデックス付け可能ですが、実際にはエンジンによってインデックス付けされるわけではないことに注意してください。一部の著者^{[ 3 ]}は、この場合 (ディープウェブではないがインデックスは付けられていない) を不透明なウェブ (不透明なウェブ) またはほぼ可視的なウェブ (ほぼ可視的なウェブ) と呼んでいます。

したがって、深層ウェブと不透明ウェブは 2 つの異なるカテゴリです。どちらもインターネットユーザーがオンラインでアクセスでき、どちらもエンジンによってインデックスが作成されません。両者の違いは、不透明な Web にインデックスが作成される可能性があることです。

エンジンのアルゴリズム (ページランクなど) が似ているため、インデックス付けされた領域が検索エンジン間で部分的に重複していることがわかります。インデックス作成ロボットの物質的リソースは、重要な物質的リソースにもかかわらず、(巨大な) ウェブに含まれる理論的に見えるすべてのリンクをたどることができません。

ドイツの研究者チームは、大量のページを含むサイトに直面したときのインデックス作成ロボットの動作を研究しました。彼らは、2,147,483,647 ページ (2 ³¹ – 1) からなるWeb サイトを作成しました。この Web サイトはバイナリツリーなので、非常に奥が深いです (一部のページに移動するのに多くのクリックが必要です)。彼らは 1年間、何もせずにこのサイトをオンラインに放置しました。結果は、このサイトのインデックス付けされたページ数は、最良の場合でも 0.0049% を超えないことを示しています。

特定のサイトのインデックスに登録するページの量に関するこの問題を解決するために、 Googleエンジンは2005 年にサイトマッププロトコルを導入しました。このプロトコルにより、サイトマップファイルがロボットに提供されるため、インデックス作成の効率が向上します。このファイルは、Web サイト管理者によってサイトのルートに配置されます。

ディープウェブ: インデックスが作成されない理由

サイトには動的ページがますます増えています。ナビゲーションハイパーリンクはオンデマンドで生成され、訪問ごとに異なります。
特定のページにアクセスするには、検索条件フォームに適切に入力する必要がある場合があります。データベースを運用しているサイトがこれに該当します。
一部のサイトでは、実際のコンテンツにアクセスする前に認証が必要です。これは、テラバイト規模のデータを構成する有料アーカイブ (オンライン新聞、気象データベースなど) を含むサイトの場合に当てはまります。
Web ページのデザインによっては、インデックス付けが困難になる場合があります。特に、従来のbody要素の代わりに HTMLフレームセット要素を含めることができます。

ただし、ロボットは関連するリクエストを発行することがほとんどできません。したがって、インデックス作成の訪問は、静的 URL をクリックしてアクセスできるページのみに限定されます。

目に見えない Web は、検索エンジンが理解できないデータ形式を使用するリソースでも構成されます。これは PDF 形式でも昔から当てはまります。現在、すべての主要なエンジン (Google、 Yahoo!、 MSN、 Exaleadなど) は、この形式を使用してドキュメントのインデックスを作成できます。一方で、フラッシュページは依然としてインデックス作成ロボットによって解釈できません。
ロボットが理解できない Javascript を使用してページをリンクすると、インデックス作成が妨げられることがよくあります。

ウェブサイト管理者の意向により、ロボットがアクセスできないページがございます。 Web サイトのルートに配置された小さなファイル ( robots.txt ) を使用すると、サイトのすべてまたは一部を「正直な」ロボットに対してブロックし、インターネットユーザーがサイトにアクセスできるようにすることができます。これらのページは、ディープ Web のカテゴリ、つまりプライベート Web に関連するカテゴリに分類されることがあります。

深層ウェブに属するデータベースの例

国立気候データセンター (370,000 GByte)
NASA基地（220,000GByte）

注記と参考資料

↑ (in)英語圏ウィキペディアのダークウェブの記事を参照
↑ 「The Deep Web: Surfaceing Hidden Value」、Michael K. Bergman、The Journal of Electronic Publishing、2001 年 8 月、第 7巻、第 1 号
↑ Chris Sherman と Gary Price による『The Invisible Web』 。 2001 年 9 月