事業継続計画 (IT) - 定義 - サイエンス・ハブ

導入

IT では、「事業復旧計画」とも呼ばれる事業継続計画は、IT システムに影響を与える大規模な災害の後に活動を再開することを目的としています。これは、データ損失を最小限に抑えながら、アクティビティをできるだけ早く再開するためです。この計画は、企業のITセキュリティポリシーの重要なポイントの 1 つです。

継続性計画を実装するための手順

リスクと影響の分析

継続計画を企業の要件に真に適合させるには、リスク分析と影響分析に基づいている必要があります。

リスク分析は、 IT の脅威を特定することから始まります。脅威は人間に由来するもの（意図的な攻撃や不手際）、または「自然」に由来するものがあります。社内でも社外でも構いません。次に、特定された脅威から生じるリスクを推測します。私たちはこれらのリスクの考えられる影響を測定します。最後に、重大な影響を与えるものに焦点を当てたリスク軽減策を実施することを決定します。たとえば、機器の故障によりすべてが麻痺してしまうリスクがある場合には、冗長機器を設置します。実施されるリスク軽減策はリスクのレベルを低下させますが、それをキャンセルするわけではありません。常に残留リスクが残りますが、これは継続計画または他の手段（保険、またはリスクの受け入れ）によってカバーされます。

影響分析は、顕在化したリスクの影響を評価し、一般にその影響が企業の重要なプロセス (したがって会社の存続) を危険にさらすため、許容できない場合を判断することで構成されます。影響分析は災害に基づいて行われます。極端な、ありそうもない災害（建物の全壊など）も考慮し、長期にわたる経済的、人的、法的影響などを判断します。許容可能な最大の衝撃に達するまで中断されません。したがって、影響分析の主な結果は時間データです。これは、各企業プロセスの中断の最大許容期間です。各プロセスが依存する IT リソース (ネットワーク、サーバー、PC など) を考慮することで、これらの各リソースが利用できなくなる最大時間、つまり、IT リソースが使用できなくなるまでの最大時間を推定できます。運用が再開されました

リスク分析の成功は、技術者、ユーザー、マネージャーなど、情報システム内のすべての関係者が関与する集団的な行動の結果です。

セキュリティ戦略の選択

情報システムのサービスの継続性を確保するには、いくつかの方法があります。技術的なもの (ツールの選択、アクセス保護とデータのバックアップの方法) もあれば、ユーザーの個人的な行動 (使用後のコンピュータステーションのシャットダウン、情報転送機能の合理的な使用、セキュリティ対策の尊重)、集団的なルールに基づいたものもあります。知識 (防火、敷地へのアクセスのセキュリティ、社内IT組織の知識)、そしてサービスプロバイダーと締結された契約 (プログラムのコピー、緊急機器の提供、トラブルシューティング支援) に関する知識も増えています。

この方法は、予防的(中断を回避する) と治療的(災害後に継続性を回復する) に区別されます。予防方法が好まれることが多いですが、100% 信頼できるシステムはないため、治療方法の説明は必須です。

予防措置

インフラストラクチャやアプリケーションのホスティングの一環として、MARKESS International が 2008 年に調査した組織の 50% 以上が、ビジネスアプリケーションとその基盤となる IT および通信インフラストラクチャのサービスの継続性を確保するために、次のソリューションが必要であると述べました。

データのバックアップと復元 (組織の 2/3 以上);
危機発生時に取るべき行動の計画 (64%);
データの保存とアーカイブ(57%);

次に、引用の多い順に、レプリケーション、ミラーリング、マルチサイトバックアップまたは別のリモートサイトでのソリューション (49%)、バックアップネットワークへの切り替え(47%)、ビジネス継続性を保証する手順と戦略の分析 (47%) となっています。 )、帯域幅管理 (45%)、物理的および論理的セキュリティ (42%)…

データのバックアップ

データの保存には定期的なバックアップコピーが必要です。これらのバックアップコピーは、火災、水害、盗難などが発生した場合に、バックアップするデータとともに消失してしまうため、コンピュータ機器の隣や同じ部屋に保管しないことが重要です。バックアップがハードウェアとともに失われる可能性がある場合、バックアップコピーを別の異なる遠隔地に保管する必要がある場合があります。

影響分析により、災害後の最大リソース復旧時間 (RTO 目標復旧時間) と最大データ損失 (目標復旧時点) の観点から表現された要件が提供されました。戦略では、これらの要件が確実に遵守されるようにする必要があります。

緊急システム

これには、コンピュータ、周辺機器、オペレーティングシステム、特定のプログラムなど、利用不能を制限したいコンピュータシステムと同等のコンピュータシステムを用意することが含まれます。解決策の 1 つは、障害のあるシステムを引き継ぐことができる機能するシステムを含むバックアップサイトを作成して維持することです。緊急システムが運用現場に設置されるか、地理的に異なる場所に設置されるかに応じて、現場緊急支援または遠隔緊急支援について説明します。

災害復旧の問題に対応するために、私たちは非ローカライズされたサイト、つまり数百メートルから数百キロ離れたユーザーから物理的に離れたサイトをますます頻繁に使用しています。サイトが遠ければ遠いほど、災害による影響を受けるリスクが低くなります。生産現場を襲う災害。しかし、あるサイトから別のサイトにデータを転送できる帯域幅は一般に高価であり、効率が低下するリスクがあるため、このソリューションはさらに高価になります。しかし、長距離ネットワークの一般化と伝送コストの低下により、距離の概念の制限が緩和されています。サイトのコストやオペレーターの能力 (緊急支援を迅速に開始し、ユーザーにアクセスを提供する能力) は別の要素です。選択可能な引数。

緊急現場 (現場または遠隔地) は、次のタイプに従って分類されます。

クリーンルーム(特別なアクセス手順によって保護され、通常は電気的にバックアップされた機械室)。拡張すると、内部にオペレーターがいない、完全に遠隔制御されるクリーンルームの暗室のことを指します。
ホットサイト:すべてのサーバーおよびその他のシステムの電源が入っており、最新の状態で、相互接続され、構成され、バックアップデータが提供され、すぐに動作できるバックアップサイト。また、サイトには、いつでもすべてのスタッフに対応し、比較的短期間 (数時間) で活動を再開できるようにするためのすべてのインフラストラクチャも提供する必要があります。このようなサイトは、会社の IT 機能 (冗長性について話します) をほぼ 2 倍にすることに相当するため、多大な予算負担が生じます。
コールドサイト: 平常時は別の用途に使用できる緊急サイト (例: 体育館)。サーバーやその他のシステムは保存されますが、インストールや接続などは行われません。災害時には、サイトを稼働させるために大規模な作業を行う必要があり、復旧に長い時間 (数日) がかかります。ただし、アクティベーション期間外の運用コストは低いか、ゼロですらあります。
ウォームサイト：中間の緊急サイト。一般に、データがテープ上にあるものの、データシステムにインポートされていないマシンがインストールされている (本番サイトからの更新が遅れている) ことがわかります。

複数の拠点に分散したシステム（オーバーフローによる故障リスクの低減）や、サーバー等を輸送するトラックに相当する移動緊急拠点の利用も可能で、複数拠点のバックアップシステムだけで済みます。障害が複数のサイトに同時に影響する可能性は低いと考えています。

保証された回復時間が短いほど、戦略のコストは高くなります。したがって、コストと回復速度の最適なバランスが得られる戦略を選択する必要があります。

一方、高可用性の問題については、よりローカルな方法で冗長性も使用します。

サーバーベイへの電源供給を倍増
RAIDテクノロジーを使用したディスク冗長性
負荷分散(リクエストの分散) またはハートビートシステムによるサーバーの冗長化 (サーバーは、対応するサーバーが実行されているかどうかをネットワーク上で定期的に問い合わせます。他のサーバーが応答しない場合は、バックアップサーバーが引き継ぎます)。

また、通常は実稼働サイトの近く (10 キロメートル未満) にある 2 番目の高可用性サイトを使用して、実稼働サイトを光ファイバーで接続し、2 つのサイトからのデータをほぼ同期または非同期で同期することもできます。使用されているテクノロジー、技術的なニーズ、制約について。

適切な情報と適切な役割分担

IT システムの自動化とセキュリティの程度に関係なく、人間のコンポーネントは依然として重要な要素です。障害のリスクを制限するために、IS (IT サービス) のアクターは、システムに対して最もリスクの少ない動作を採用し、場合によっては技術的なアクションの実行方法を知っている必要があります。

ユーザーにとっては、これは
- コンピュータの使用基準を尊重すること。IS 管理者が参照するアプリケーションのみを使用し、不必要な通信 (大量のダウンロード、不必要なデータ交換、不必要な接続の維持) でネットワークに過負荷をかけないこと、アクセスコードの機密性を尊重すること。
- 故障の症状を認識する方法 (アクセスの遮断と異常に長い応答時間などを区別する方法) を知り、それらをできるだけ早く報告する方法を知りたい。
IS オペレーターにとって、アーキテクチャ(ISマッピング) と運用 (可能であればリアルタイム) に関してシステムに関する最高の知識を持ち、定期的にバックアップを作成し、それらが使用可能であることを確認することが重要です。
責任者にとって、故障が発生した場合に実行されるアクションの分野全体をカバーするには、内部成果と外部サービスのどちらを選択するかが問題になります (たとえば、故障した場合にバックアップマシンを用意しても意味がありません)。オペレーティングシステムの更新は規定していません）、サービスプロバイダーとの契約の締結、IS 運営者とユーザー間の関係の整理、フィードバックを含む緊急訓練の決定と実施。

治療法

災害の深刻度や障害が発生したシステムの重要度に応じて、復旧措置は異なります。

データ復旧

この仮説では、データのみが失われました。バックアップの使用が必要であり、その方法を簡素化するには、最後のバックアップセットを再実装することです。これは、引き継がれるデータが明確に特定されており、再実装の方法とツールがアクセス可能で既知である場合には、短期間 (数時間) で実行できます。

アプリケーションの再起動

障害しきい値が高くなると、1 つ以上のアプリケーションが使用できなくなります。問題のアプリケーションが使用可能になっている間、バックアップサイトの使用が可能です。

マシンの再起動

一時的: 緊急サイトの使用
決定的: 通常のオペレーティングマシンのトラブルシューティングを行った後、データを失わず、可能であればユーザーの接続を切断しないように、ユーザーをそのマシンに戻します。

事業継続計画 (IT) – 定義

導入