スパム対策 - 定義 - サイエンス・ハブ

導入

アンチスパム(アンチスパム、アンチスパム、アンチスパム) は、スパム (迷惑広告電子メール) に対抗するための一連のシステムおよび技術的および法的手段です。

スパム対策ソリューションの関連性

2000年頃、スパムは無害であるように見えたかもしれません。実際、ほとんどのスパマー (またはスパマー) は、あらゆる種類の製品 (医薬品、偽の卒業証書、海賊版ソフトウェア、ポルノ素材など) を宣伝するためにこの方法を使用しました。しかし、インターネットを通過するスパムの量は増え続けており (メッセージの 75% 以上)、個人の経済的安全が危険にさらされるフィッシングなど、より邪悪なタイプのスパムが出現しているため、この迷惑行為から身を守ることが非常に重要になります。

スパム対策方法

多くの場合、スパム対策ソリューションは、使用、実装、コストの点で異なりますが、本質的には同じ技術を使用してスパムと正規のメールを区別します。これらの技術は、メッセージングを保護するインターネットサービスプロバイダーのレベルで、または適切なツール (スパム対策フィルター) を使用するユーザーのレベルで実装できます。多くの場合、フィルターは電子メールを受信する MTA (メール転送エージェント) のレベルで実装されます。

これらの技術は、予防的 (スパムであることを示すためにメールにマークを付ける) または治療的 (ブロックしたり、非難されたメッセージを送信者に返す) のいずれかです。後者には、受信者が受け取りたい文字を制御できなければならないため、欠点があります。さらに、メッセージを再送信すると、ネットワークがさらに占有されて状況がさらに悪化する可能性があり、スパムの作成者が実際のアドレスを偽装しているか、第三者のアドレス (まったく無実の) をメッセージのアドレスとして使用している可能性が高くなります。戻る。さらに、この方法では、スパム発信者に対して、ターゲットのアドレスが実際にアクティブであることが示されるため、メールの送信量が増加することがよくあります。

スパムに対抗するためのいくつかの技術が可能であり、組み合わせることができます:統計分析 (ベイジアン法)、キーワードまたは作成者によるフィルタリング、ホワイトリスト (特定の場所での公開を許可された人またはマシンの指定)、ブラックリスト (人またはマシンの指定)特定の場所での公開が禁止されているもの）、スパムとの戦いに特化したサーバーへのリアルタイムの問い合わせ。

新しいタイプのスパムはこれらの防御を回避できるため、ウイルス対策と同様に、これらの対抗技術も常に適応する必要があります。

これらのツールは、エンベロープフィルタリングとコンテンツフィルタリングの 2 つのグループに分類できます。電子メールのヘッダーは、電子メールの基本情報 (送信者、受信者、カーボンコピー、目に見えないカーボンコピー、送信日、送信元サーバー、件名) を構成します。メッセージのコンテンツはメッセージそのものです: テキスト、画像、HTML コードなど。

エンベロープフィルタリング

エンベロープフィルタリングの効率率は約50%です。このタイプのフィルタリングは、スパムを区別するのに十分な情報が含まれるメッセージヘッダーにのみ適用されます。メールの内容には焦点を当てていません。

この手法には、電子メールの本文が送信される前に電子メールをブロックできるという利点があり、SMTP ゲートウェイ上のトラフィックが大幅に削減されます (メッセージの本文はヘッダーが受信されて受け入れられた後に送信されるため)。さらに、このタイプのフィルタリングにおける誤検知率はほぼゼロです。エンベロープフィルタが電子メールをスパムとして識別した場合、それが誤ることはほとんどありません。

コンテンツフィルタリング

コンテンツフィルターはメッセージの内容を分析し、エンベロープフィルターを通過したスパムを検出します。コンテンツフィルタリングは、エンベロープフィルタリングよりも少し機密性が高くなります。結局のところ、メッセージを通じて伝達される情報は主観的なものであり、コンテンツフィルタによればスパムのように見えるものは、完全に正当な電子メールである可能性があります (これは誤検知と呼ばれます)。その逆も真です (偽陰性)。コンテンツフィルタリングは、いくつかの層で開発できます。たとえば、フィルターでは、ウイルス対策ソフトウェア、必要に応じてアーカイブファイルを分析するアンアーカイバー、ベイジアンアナライザー (以下を参照) などを使用できます。

コンテンツフィルターの例: SpamAssassin。

ベイジアンフィルタリング

ベイジアンスパムフィルタリング (数学者トーマスベイズによる) は、大量のスパムと正規の電子メールに基づいて、電子メールが正規かどうかを判断するシステムです。適切に機能するためには、スパム(スパム) とハム(正規の電子メール) のコーパスには、理想的には数千の「サンプル」が含まれている必要があります。

識別されるメッセージは、電子メール (スパムかどうか) のコーパス全体と比較される部分に分割され、2 つのカテゴリ内の異なる部分の頻度が決定されます。統計式を使用して、メッセージがスパムであるかどうかの確率を計算します。確率が十分に高い場合、ベイジアンシステムはメッセージをスパムとして分類します。そうでなければ、彼はそれを見逃します。確率のしきい値はシステム管理者が定義できます。その目的は、最も効果的なしきい値を見つけることです。

ベイジアン手法は、特にLotus Notesなどの他の自動メール分類にも使用されます。

キーワードまたはアドレスによるフィルタリング

この方法は、事前に確立された語彙ルールに従ってメールを拒否または分類することに基づいており、禁止単語として定義されているため、非常に限定的です。「セックス」、「バイアグラ」、「お金」など、スパムによく出現する特定のキーワードは、これらのルールを作成する基礎として機能する可能性があります。同様に、特定の送信者、特定のドメイン、さらには国全体からのすべてのメッセージをブロックすることもできます。

この方法ではエラーが発生する可能性が高く、スパマーが使用する単語 (「vi@gr@」、「s3x」など) を偽装している場合にはあまり効果的ではありません。したがって、合理的な表現を使用するのが適切です。

正規表現によるフィルタリング

正規表現(コンピューティングでは「正規表現」と呼ばれることが多い) は、文字列がパターンと一致するかどうかを確認するために文字列に適用できるパターンです (例: 「数字の後に 3 文字が続き、その後に d ‘ スペースが続き、その後、数字」は次のように書くことができます: /^[0-9]{1}[A-Za-z]{3} [0-9]{1}$/)。正規表現を使用して「機密性の高い」単語のバリエーションを検索すると、スパムを発見する可能性が高くなります。たとえば、スパマーが「viiaaagraa」という単語を使用してキーワードフィルターを無効にしようとした場合、正規表現 /^vi+a+gra+$/i (「v」の後に 1 つ以上の「i 」が続き、その後に 1 つまたは複数の ‘i ‘ が続きます)大文字と小文字に関係なく、さらに「a」、その後に「g」、「r」、および 1 つ以上の「a」を入力すると、単語を検索できます。明らかに、この例は非常に単純ですが、複雑な正規表現を使用すると、より微妙で洗練された表現やバリエーションを検出できます。

正規表現の使用の制限は、誤検知を引き起こすスカンソープの問題で示されています。

ウイルスと添付ファイルのスキャン

電子メールには添付ファイルが含まれることが多く、これらにはウイルスが含まれている可能性があります。したがって、メッセージを分類するプロセスではウイルス対策ソフトウェアを使用することが重要です。多くの場合、コンテンツフィルターにはフィルターが組み込まれています。たとえば、SpamAssassin とClamAV が一緒に使用されることは珍しいことではありません。

写真

画像は、コンテンツフィルターが直面する大きな問題の 1 つです。実際、画像が正規のものであるかどうかを判断することは事実上不可能です (多くの場合、スパマーはテキストを偽装するために画像を使用します)。画像から電子メールが正当なものであるかどうかを判断する 1 つの手法は、電子メール内の画像の数を調べ、画像がメッセージ内でどのように配置されているかを確認することです。これは、メッセージの性質を示す良い指標となる可能性があります。さらに、イメージのチェックサムを生成し、インターネット上で入手可能な他のチェックサム(RBL に似たもの) と比較することができます。これにより、システムは画像がすでにスパムに使用されているかどうかを確認し、それに応じて電子メールを分類できるようになります。

送信側サーバーのフィルタリング

このタイプのフィルタリングを使用すると、電子メールアドレス、ドメイン、またはサーバーを禁止できます。したがって、ブラックリスト上の項目からのメッセージはすべて、スパム対策システムによってブロックされます。これらのリスト項目は、経験に基づいてスパムの最も一般的な送信元を判断できるシステム管理者によって定義されることがよくあります。この手法には、用語の純粋な意味でのスパムだけに限定されないという特徴があり、システム管理者が有害であると判断した場合には、正規の電子メールのソースもブロックできます。明らかに、このタイプのフィルタリングは非常に主観的であり、リストを作成する人の善意と勤勉さに依存します。

「リアルタイムブラックホールリスト」

リアルタイムブラックホールリスト(RBL) には、主要なスパマーとして知られているサーバーのリストを提供し、主要なスパマーをリストすることが義務付けられています。これは実際には、大規模な一般化されたブラックリストです。使用原理は単純です。フィルターは電子メールを受信すると、送信サーバーが RBL に含まれているかどうかを確認します。その場合、電子メールはスパムとして分類されます。

フィルターがサーバーソースとして使用する RBL は、通常、システム管理者によって決定されます。したがって、一部の RBL が他の RBL よりも効果的であることが知られているため、この方法には議論の余地があります。したがって、その選択はスパム対策システムの有効性に直接影響します。さらに、一部の RBL はリストへのサーバーの追加に関して他の RBL よりも緩いルールを設けており、状況はさらに複雑になっています。この問題を解決するには、複数の RBL を参照し、ソースが 2 つのリストに存在する場合にのみブロックします。

SPF (「送信者ポリシーフレームワーク」)

SPF ( Sender Policy Framework ) は、ドメインの DNS ゾーンに依存して機能します。ドメインの所有者は、このドメインの DNS ゾーンに、どのマシンがそのドメインへの電子メールの送信を許可されているか、または許可されていないかを示す TXT タイプのレコードを追加します。したがって、mail.domainea.com が、domainea.com への電子メールの送信を許可された唯一のサーバーである場合、これは TXT レコードに指定されます。正しく動作するには、スパムフィルターで SPF サポートを有効にする必要があります。システムは、電子メールを送信するサーバーが承認されたサーバーのリストに含まれていることを確認します。それ以外の場合はスパムです。

SMTP の整合性

電子メールが SMTP プロトコルを通過するため、このプロトコル用に多数の標準 (RFC2821) が定義されていますが、スパマーはこれらの標準を遵守していないことがよくあります。たとえば、電子メールを送信するサーバー名は完全修飾 (FQDN) (例: mail.domain.com) であることが望ましいですが、スパム発信者が常に従うとは限らないルールです。同様に、一部のスパマーは、メッセージが既知のサーバー (127.0.0.1 など) から送信されたものであるとフィルターに信じ込ませ、送信サーバーを偽装します。優れたフィルターはこれらの盗難を検出できます。別の例: 一部のスパムメールはプレゼンテーションバナー (HELO) を発行しませんが、SMTP 標準ではこれが必要です。これらのテストは、どのルールがメールサーバーに関連するかを決定するフィルタとシステム管理者の裁量に任されています。 SMTP 整合性ルールは、スパマーにとってパフォーマンスの阻害要因 (送信速度が低下する) として機能するため、多くの場合非常に効果的です。ただし、スパマーはできるだけ効率的にすることに関心があるため、これらのルールを無視することが非常に利益をもたらす可能性があります。

MX レコードの優先順位

ドメインの DNS ゾーンを定義する場合、MX ( Mail EXchanger ) レコードを定義できます。これにより、どのサーバーが当該ドメインの電子メールの管理を担当するかを指定できます。複数の MX レコードを定義できるため、1 つが失敗した場合でも、別のレコードが引き継ぐことができます。各レコードは、優先度を示す番号 (10、20、30、100、200 など) に関連付けられています。 MTA は、最も優先度の高いサーバー (番号が最も小さいサーバー) にメールを送信する必要があります。実際、最も高い優先順位を持つサーバーが最も多くリクエストされるのは、まったく普通のことです。したがって、多くの場合、最も安全なのは彼です (他の人は安全性が低いことがよくあります)。スパマーはこの状況をすぐに発見し、最も低い優先順位 (最高の番号) のサーバーにスパムが送信されることは珍しくありません。これらのサーバーは保護が不十分であることが多いため、スパムが通過する可能性が高くなります。この問題に対処するには、すべての MX を同じ方法で保護することを強くお勧めします。さらに、最上位の MX でダミーサーバーを指定することにより、スパマーを阻止することも可能です。具体的には、このサーバーはすべての接続を拒否する可能性があるため、サーバーに到達するスパムの試みはすべて阻止されます。

グレーリスト化

グレイリストは、特に効果的なスパム対策テクノロジーを説明するために使用される用語であり、この原則に従って動作します。RFC 2821 で定義された標準に従って、電子メール受信サーバー (この場合は電子メールを受信するサーバー) が電子メールフィルターがアクティブになっている場合）メッセージの受信を処理できない場合（たとえば、メッセージが利用できない場合）、エラーコード 421 を返す必要があります。このエラーコードは、メッセージを送信するサーバーに、少し待ってからもう一度送信するように指示します。後で。この遅延は、メッセージを送信するサーバー (またはメール転送エージェント: Mail Transfer Agent ) の構成で定義されます。合法的な MTA はこのルールを尊重します。非正規の MTA (スパマーによって使用される) は、効率が低下するため、これを行いません。したがって、MTA は、現在の電子メールの再送信を待たずに電子メールの送信を続けます (次の受信者に進みます)。

そのため、電子メールセキュリティの専門家は、この特殊性を利用する方法、つまりグレーリストを検討しました。これはデータベースと連動します。データベース内の各レコードは、電子メールを送信するサーバーのIP アドレス、送信者の電子メールアドレス、受信者の電子メールアドレスで構成されるトリプルを構成し、一意のキーを形成します。トリプレットのサーバーへの最初の接続の日付もデータベースに保存されます。メッセージが受信者の電子メールサーバーで受信されると、受信者はそのデータベースでトリプルの存在を確認します。

トリプルがデータベースにない場合は、現在の日付を付けて追加します。その後、エラーコード 421 を返し、サーバーにメッセージを再送信する必要があることを伝えます。
トリプルがすでにデータベースに存在する場合、サーバーは現在の日付とデータベースに保存されている日付 (最初の接続の日付) との間の遅延をチェックします。遅延が事前定義された遅延 (たとえば、5 分) 以上の場合、メッセージは受け入れられます。それ以外の場合、サーバーはエラー番号 421 を返します。

一定時間 (これもレコードで定義されています) が経過すると、レコードは非アクティブになり、サーバーは 421 を再送信する必要があります (おそらくレコードは破棄されます)。したがって、送信側 MTA が 421 を受信すると、それが正当なものであれば、メッセージを再送信する前に待機します。それ以外の場合は、待機せずに再送信します。

この技術により、2003 年に提案された時点では99%程度の非常に高い効率を達成することができました。これは、スパム発信者の大多数が、電子メールを待つよりも電子メールを犠牲にしてパフォーマンスを低下させることを好むためです。現在、スパマーがスパムを配布するために Web メール (実際のメールサーバー) を使用することが増えているため、効率は低下しています (約 80 ～ 90%)。

この方法には予期しない副作用もあります。電子メールを使用して拡散するワームを除去するのに比較的効果的です。これは、レート制限、RBL、レピュテーションリストなど、いわゆる「プロトコル」フィルタリング手法に共通する品質です。

この手法には、実装が非常に簡単であるという利点もあります。ただし、システム管理者は、電子メール受信の遅延を (たとえ 1 回だけであっても) 受け入れるかどうかを自問する必要があります。

ヒューリスティックフィルタリング

ヒューリスティックフィルタリングは、メッセージの内容をテストします (たとえば、メッセージの残りの部分と比較して、HTML コード、画像、ポルノへの参照、簡単な金銭の取得がどのくらいの割合で含まれているか、件名は空かどうか、メッセージは識別子( Message-ID ) にはドル記号が含まれています (スパムソフトウェアでよく使用されます)。各テストでは、いくつかのポイントが与えられます (合計が低いほど優れており、メッセージがスパムとみなされにくくなります)。ポイントしきい値は任意であり、システム管理者によって定義されます。システム管理者は、偽陽性と偽陰性の数の間で最適なバランスを与えるスコアを見つける必要があります。

キャプチャ

キャプチャベースの方法では、電子メールの送信者は、画像の形式で表示される単語、つまりキャプチャをコピーすることで、自分の「人間性」を証明する必要があります。スパム送信ロボットはこの単語をコピーすることができませんが、人間は非常に簡単にコピーすることができ、通信相手に手紙を書くことが完全に許可されます。

キャプチャベースのソリューションを配布している企業は、「スパムを 100% 排除するソリューション」を宣言しています。

このソリューションの利点については、インターネット標準の開発と定義を担当する公的組織によって異議が唱えられています。 ASRG (スパムに関する IRTF ワーキンググループ – インターネット調査タスクフォース) は、高レベルの迷惑行為に対して中程度の有効性を割り当てており、この方法にはいわゆる「チャレンジレスポンス」方法と同じ欠点があると考えています。 W3C コンソーシアム (WWW 標準定義団体) および米国盲人協会は、視覚障害を持つ人々のアクセシビリティの問題を提起しています。

フランスでは、障害のある人の平等な権利と機会、参加と市民権に関する 2005 年 2 月 11 日法律第 2005-102 号により、国、地方自治体、公共施設に依存するすべてのオンライン公共通信サービスのアクセシビリティが要件とされています。彼ら。したがって、General Administration Accessibility Framework は、グラフィックキャプチャに関して、「その使用につながる問題が他の方法 (自動スパム検出、ヒューリスティックテスト) で解決できないかどうかを検討する必要がある」と示しており、該当する場合には、 WCAG2.0 アクセシビリティ標準の適用における代替案。

メールを有料にする

電子メールの送信に価格を設定します。これは、正規の郵便物には象徴的ですが、大量の郵便物には抵抗感があります（メール 1 通あたり 2 ユーロセントですが、これは送信者にとってはラジオ広告と同じ程度のコストですが、場所によってははるかにターゲットを絞ることができます）。アドレスは収集されました）。また、20ユーロセントでは控除額を設定する必要があり、そうしないと、予算が限られている個人向けに郵便を送信するアクセスが薄れ始めている。ある国会議員は最近、欧州連合への資金提供のために電子メールに課税（0.005セント）することを検討した。

節度

インターネットおよび Usenet のフォーラム、およびメーリングリストでは、モデレーションがよく使用されます。信頼できる人 (「モデレーター」) は、公開が提案されたメッセージを読み、場合によってはそれらの配布を拒否します (モデレーションには事前性があります)。または、この人はすでに投稿されたメッセージを読み、無関係と思われるメッセージを削除します (ポストモデレーション)。この方法には多大な人的リソースが必要であり、さらにモデレーターが（検閲で）過剰に非難されることが多いため、ロボットによるモデレーション（一般に「ロボットモデレーション」と呼ばれます）も行われています。この記事がたとえ記事であっても、誰でもロボットを介してメッセージを公開できます。興味のないメッセージ (実際にスパムを構成する場合でも) ですが、タイトルに特定の単語が含まれているなど、誰もが知っている単純な基準を満たした場合にのみ、ロボットはメッセージを通過させます。この保護は、数十のフォーラムに同じメッセージを自動的に送信し、特定のフォーラムの特定の要件に準拠したメッセージを生成するようにプログラムされていないロボットに対して特に効果的です。

RPD (「反復パターン検出」)

RPD テクノロジー (フランス語で「反復パターン検出」または「反復署名検出」) は、電子メールの内容ではなく、インターネットネットワーク全体での電子メールの伝播速度に基づくテクノロジーです。世界中にサーバーが設置されているため、同じ電子メールが Web 上で送信された回数を一元的にチェックすることで、その電子メールがスパムであるかどうかを迅速に判断することができます。たとえば、同じ電子メールが同時に 100,000 部送信された場合、それは必然的にスパムになります。

このテクノロジーは、100万件に 1 件の誤検知に対して 98% 以上のスパム捕捉率を実現します。

スパム対策 – 定義

導入

スパム対策ソリューションの関連性