検索エンジンについて詳しく解説

検索エンジンは、任意の単語に関連付けられたリソース (Web ページ、Usenet フォーラム、画像、ビデオなど) を検索できるソフトウェアです。
一部の Web サイトでは、主な機能として検索エンジンを提供しています。サイト自体は検索エンジンと呼ばれます(Dailymotion、YouTube、Google Video などはビデオ検索エンジンです)。

スパイダー、クローラー、またはエージェントとも呼ばれる「ロボット」で構成された Web 検索ツール。定期的にサイトを自動的に閲覧し (ディレクトリと区別される人間の介入なし)、新しいアドレス (URL) を検出します。アクセスした各ページにあるハイパーテキストリンク (ページを相互に接続するリンク) をたどります。識別された各ページはデータベース内でインデックス付けされ、インターネットユーザーはキーワードを使用してアクセスできます。

誤解のため、検索エンジンを次のように呼ぶこともあります。

Web サイトのディレクトリを提供する Web サイト: この場合、興味深いと思われる Web サイトをリストして分類するのは人間であり、インデックス作成ロボットではありません。たとえば、Voilà やYahoo!などが挙げられます。、など。 ;
パーソナルコンピュータにインストールされているソフトウェア: これらは、PC に保存されているファイル間の検索と Web サイト間の検索を組み合わせた、いわゆるデスクトップエンジンです。たとえば、 Googleデスクトップや Copernic デスクトップサーチなどが挙げられます。

また、メタ検索エンジン、つまり、同じ検索が複数の検索エンジンで同時に開始される (結果が結合されてインターネットユーザーに表示される) ウェブサイトも見つかります。Mamma、 Kartoo 、Seek.fr などが挙げられます。
最近では、インターネットユーザーが配置したタグ(またはラベル) に基づいたフォークソノミーシステムを使用するディレクトリもあります。

機能している

検索エンジンの動作は、主に 3 つの段階に分かれています。

探索またはクロール: Web は、インデックス付けロボットによって体系的に探索され、見つかったすべてのハイパーリンクを再帰的にたどり、興味深いと思われるリソースを取得します。クロールは、Webディレクトリページなどの重要なリソースから開始されます。
取得したリソースのインデックス付けは、各リソースに対応する重要と考えられる (事実上すべての) 単語を抽出することで構成されます。抽出された単語は、巨大な逆引き辞典のように、より正確には作品の用語索引のように編成されたデータベースに記録され、重要な用語が作品のどの章に含まれているかをすぐに見つけることができます。意味のない用語はストップワードと呼ばれます。
検索は、結果を返すエンジンのクエリ部分に対応します。通常、秘密のアルゴリズムが適用されて一致に可変の重みが与えられるため、関連性が想定される順に検索結果が表示されます。このアルゴリズムでは通常、キーワードのコンテキスト(タイトル、段落、ハイパーリンクなど) とリソース (関連リソース、サイトの人気など) が考慮されます。

検索エンジンの最適化

検索エンジンを最適化するために、Web マスターは Web ページの HTML ヘッダー (head) にメタ要素 (メタタグ) を挿入します。この情報により、Web サイトでの情報検索を最適化できます。

資金調達

検索を主なサービスとするサイトは、テクノロジーと広告の販売によって資金を賄っています。

広告ファイナンスは、訪問者が検索した単語に対応する広告を提示することで構成されます。広告主はキーワードを購入します。たとえば、旅行代理店がこの地域に特化している場合は、「休暇」、「ホテル」、「ビーチ」、または「カンヌ」、「アンティーブ」、「ニース」などのキーワードを購入できます。この購入により、いわゆる「自然参照」とは区別される、いわゆる「有料 SEO」参照を取得できるようになります。

検索エンジンは、別個の挿入として、または検索結果の一部として、という 2 つの方法で広告を表示できます。訪問者にとって、別個の折り込み広告は古典的な広告のように見えます。一方、結果への統合は結果の関連性を損なう形で行われ、エンジンの知覚品質に悪影響を与える可能性があります。その結果、すべてのエンジンが結果で掲載順位を販売するわけではありません。

検索エンジンは経済問題を構成します。主要検索エンジンであるグーグルの株式市場価値は、2008年1月時点で1650億ユーロだった。

転用テクニック

経済的利害の重要性により、検索エンジンをハイジャックして「自然な」参照やスパムデクシングを取得する不正な手法が生み出されました。

最も一般的なスパムデクシング手法は次の 3 つです。

– クローキング。インターネットユーザーに表示されるページとは異なるページを検索エンジンが提供できるようにする技術です。

– ズルニズム。SEO の独占権を獲得するための新語主義の作成です。

– ミラーサイト。Web サイトの正確なコピーですが、別のアドレスにあります。

スパムデクシング技術は、一時的または最終的な「ブラックリスト」を作成する検索エンジン発行者によって追求されています。しかし、ズルニズムは依然として検出不可能であり、自由な過剰参照のみを目的として構築された偽の新造語から真の新造語を識別する能力を備えたソフトウェアは存在しない。

2006 年、ISCパリのフランソワ・カザルス教授は、新造語「zurtouij」に基づいたリファレンスコンテストを企画しました。この技術はズルニズムによって改良されました。

私たちは、スパムデキシング (不正流用) と SEO (検索エンジン最適化) を区別します。 SEO テクニックは専門会社によって販売されています。

技術営業

大規模な組織 (企業、行政) は通常、大規模なイントラネット内に多数の IT リソースを保有しています。これらのリソースはインターネットからアクセスできないため、Web 検索エンジンではカバーされません。したがって、リソースを検索したい場合は、独自のエンジンをインストールする必要があります。したがって、これらは検索エンジン開発者にとっての市場を構成します。

また、公開 Web サイトがサービスを拡張するために検索エンジンのサービスを使用することもあります。このように、Web ディレクトリのスペシャリストである Yahoo! は、2004 年に独自の検索エンジン Yahoo Search Technology を立ち上げるまで、数年間にわたって Google テクノロジーを検索に使用していました。その基礎となっているのは、検索エンジンの創設会社であり、買収したAltavista 、Inkomi、Overture です。 Yahoo!による。

セマンティックウェブへの進化

コンテンツ制作者がメタデータや分類法 (オントロジー) を使用してデータベースにインデックスを付ける限り、検索エンジンは意味論的な分析に適応する必要があります。全文検索と比較すると、セマンティック Web 検索ははるかに効率的です。

セマンティック検索エンジンの例をいくつか示します。

INRIAで開発されたCORESE
KartOOと氏子
Lingway KM は、特殊な検索エンジンの開発を可能にする多言語の言語およびセマンティックプラットフォームです。
シネクアCS by シネクア
ズーム、Aceticより
ペルティム

主な検索エンジン

Comscore が 2007 年 8 月に実施した調査によれば、次のとおりです^{[ 1 ]} 。

(Wikia) (オープンソース検索エンジン)
(Google) (インターネット上の 610 億件の検索の約 60%)
(Yahoo) (85 億検索、または全体の 14%)
Sharelook 検索エンジンなどは Lycos に統合されています
勢いを増している「中国の Google」 Baidu (33 億リクエスト、全体の 5.4%)、
Live Search 、 Microsoftの検索エンジン (21 億検索、3.4%)
Naver、NHN グループの韓国の検索エンジン (20 億検索)。

eBay コマースサイト (13億検索)。