MITRE ATT&CK評価の解釈方法
企業にとって最大の課題のひとつは、適切なツールを導入によるセキュリティチームの強化です。 実際には、多くの企業がツールに関する間違った情報や複雑さのため、効果の無いツールを購入してしまったり、既存のツールから期待された効果を得ることができずに苦労しています。 ガートナーなどが製品ガイダンスを提供していますが、往々にしてハイレベル過ぎて、現実世界のベンチマークに基づくものでもなかったりします。
MITRE(マイター)は、セキュリティツールの詳細な分析結果を企業に提供するため、MITRE ATT&CKフレームワークを用いてEDRベンダを評価し公平なベンチマーク結果を公開するプログラムを2017年[1]に開始しました。最初の評価結果は2018年に公開され、製品やサービスから得られるテレメトリー、アラート、インターフェース、アウトプットの種類について、優れた要覧を提供しました。
この評価は、実在する脅威グループである「APT3」の手法をベースにしており、サイバーキルチェーンの主要な領域をカバーする検知ケースを提供しています。しかし、現実の環境でこれらのツールがどれほど効果的であるかという視点は考慮されておらず、「対応」についてもカバーされていません。したがって、この評価は有用な出発点ではありますが、EDR製品の1つの側面だけを評価しているということを忘れてはなりません。
この記事では、MITREテストの方法論を詳しく検証し、それを現実の問題と対照させて、評価結果を活用するための有用なヒントを提供します。
EDR製品の評価
MITRE評価のラウンド1は、基本的にはテレメトリーと検知を主要な評価基準として使用しており、(リアルな環境では無く)コントロールされた環境下でのEDRツールの検知機能に重点を置いた評価となっています。そのアウトプットは一連のテストケースとその結果のリストで、主に特異性の検知とその情報を受け取るまでの時間に焦点を当てています。このような簡略化されたアプローチをとることは、検知のような複雑な問題領域をより管理しやすくするのに役立ちます。しかし、この場合問題を簡素化し過ぎてはいけないのでしょうか?
多くの場合、「検知」の世界では、問題となる「悪いもの」を見つけるのではなく、正規のアクティビティを除外することで、より効果的に異常なアクティビティを見つけられるようにします。外部からのノイズがない、隔離された環境でテストして何かを「検知」できたとしても、現実の世界ではノイズによって隠されてしまい、「検知」できない可能性があります。MITREは、このことについては制限事項として明確に注意していますが、結果だけを確認する際には忘れられがちです。
製品以外の分野では、テストにはツールやプロセス/ワークフローを活用する人のような重要な領域も欠けており、これらはツールそのものよりも重要である場合が多いです。そのため、MITRE評価を出発点として使用し、その制限を理解し、加えて独自の評価を行う、総合的なアプローチをとることをお勧めします。
例えば:
- 現実世界でのフーォルスポジティブ(誤検知)率はどのようなものか?
- 検知のノイズを減らしたり、正規のアクティビティに似た特定のアクティビティを見つけたりできるようサポートする機能は備わっているか?
- 脅威ハンティングをベースにした検知から調査、タイムライン作成、対応までの実際のエンドツーエンドの調査を行う事は可能か?
- マシンからフォレンジックデータを取得するために、対応のためのタスクを起動できるか?
- ネットワークから攻撃者を封じ込め、対抗できるか?
- 自社の検知チームは、技術的にツールを使いこなすことができ、24時間365日稼働できるか?
- マネージドサービスの恩恵を受けることはできるか? その場合、高度な攻撃を検知できることを実証できるか?
既存の結果から何を学ぶことができるでしょうか? そして、それらをどのように解釈すべきでしょうか?
各ベンダーの評価結果は約100種類のテストケースから構成されており、それぞれに詳細、テクニックID、検知タイプおよび検知メモが関連付けられています。最初に注意すべき点は、これらは技術的な結果を元にした純粋に技術的な評価であり、ハイレベルのスコアリングメカニズムを持っていないため、技術チームのメンバー(または外部の関係者)に助けを求める必要があるかもしれないことです。以下に評価結果の例を示します:
テスト結果には高度な技術的詳細が含まれますが、わかりやすいスコアとしては提供されません
この表で最も重要なフィールドは、ベンダの実際の動作を説明する「検知タイプ」と「検知メモ」です。これらは、ベンダが関連するテレメトリーをログに記録したかどうか、アクティビティに関連するアラート/検知があったかどうかの基本的なサマリーを提供しています。
次のセクションでは、「テレメトリー」と「検知」の両方の重要性を評価する方法について説明します。
テレメトリーの測定方法
あらゆる検知において最も重要なことは、最初に分析のためのデータを用意することです。ほとんどのEDRプロバイダは、攻撃者の多数の操作をカバーするプロセスデータ、ファイルデータ、ネットワーク接続とサービス、レジストリまたは永続化データなどのテレメトリーをリアルタイムに収集します。しかし、ここで気を付けるべき重要な要素は何でしょうか?
収集されたデータ – テストケースを見ると、ほとんどの製品がほぼすべてのテストケースのテレメトリーを適正に収集していることがわかります。多くの製品が検知できなかった領域の1つは、アクターがPowerShellロギングを無効にしたEmpireセクションでした。このアクティビティを検知したのは、一部の製品だけです。MITREに拘らなければ、メモリのアノマリやWMIのデータに関連するデータおよび.NETアクティビティのデータを収集して最先端の攻撃を検知できる、より進んだ製品を見つけることができます。
タイミング – 応答時間は重要であり、MITREの結果は、エンドポイントからデータ/アラートが返されるまでにかかる時間の基準を提供します。MITERは、応答までに約30分以上かかったものに「遅延」タグを割り当てます。データ処理の高速化自体は良いことですが、現実世界の侵害では、ほとんどの場合、検出して封じ込めるために数分から数時間(業界平均では数か月から数年)かかります。そのため、応答時間よりも、実際に攻撃を検出できるかどうか、そして攻撃を封じ込めるまでの時間のほうを重視することをお勧めします。
品質 – MITREの評価は、製品が特定のテストケースにおいて基本的なデータを収集しているかどうかを確認するためには役立ちます。しかし、調査のために必要なコンテキストがその製品から得られるかどうかまでは確認できません。これは、現実世界から隔離された製品テストは現実世界の問題を反映しない、という問題に戻ります。たとえば、プロセスイベントには通常、実行されたプロセスへのパスが含まれますが、そこにハッシュ、証明書情報、親プロセス、および子プロセスも表示されるでしょうか? これらはMITREが測定するものではありません。
リテンション(保持) – MITERの評価の微妙な点の1つは、テストと評価が連続して実行されるため、リテンションは考慮されないということです。EDRのデータセットは非常に大きくなる可能性があり、それを長時間保存するためにはコストがかかり、技術的にも困難になるため、現実の世界ではリテンションは大きな問題となります。ビジネスにとっては、各データセットが保存される期間を明確にすることが重要であり、それは、財務状況、規制の順守、および運用に影響を与える可能性があります。たとえば、組織内に24時間年中無休のチームが存在せず、週末に何かが発生した場合、データは月曜日までに無くなっている可能性があります。
検知タイプとは
アラートを自動処理することで、チームは検知範囲を拡張し、既知の指標を検知する際の信頼性を高めることができます。検知はMITRE評価の重要なコンポーネントであり、アラートをエンリッチメント、一般的な行動(General Behavior)、または具体的な行動(Specific Behavior)に分類することによって検知品質を付加します。一般に指標は具体的なほうが良いとされ、それは生成されるアラートが少なくなるからです。
検知とアラートは検知のためのアプローチのコンポーネントに過ぎず、次の理由で単一のアプローチとして信頼できるものではないことを覚えておいてください:
- 静的な検知ルールは回避できる
攻撃者は絶えず革新を続けており、セキュリティ製品による検知を回避してきた長い歴史があります。さまざまな形式の難読化を使用したり、既存のツールでは悪意のあるものとして識別できない、これまでに無かったテクニックを使用したりしています。検知ルールは、回避される可能性があると考えてください。 - アラートには誤検知が発生しやすい
アラートを処理する際の最大の問題の1つは、誤検知です。1日に数百回または数千回発生するアラームと、大きな赤い警告灯が鳴り響くような信頼性の高いアラームとでは、大きな違いがあります。攻撃の見落としは別問題ですが、アラートの精度はチームの効率に影響を与え、アラート疲れにつながる可能性があります。残念ながら、検知精度はMITER評価のラウンド1では評価されませんし、実際に企業規模のネットワークで効果的に測定することは非常に困難です。したがって、MITERの検知結果をそのまま鵜呑みにしないことが重要です。 - アラートは「プロアクティブ」ではなく「リアクティブ」
アラートを適正に使用すれば、単純なものであれば確実に見つけ、対応時間を改善することができます。しかしアラートベースのアプローチを取る場合のリスクは、チーム内に「リアクティブ(受け身)」な文化を作り出し、自己満足と誤った安心感につながる可能性があることです。リアクティブなアラートベースの検知と、プロアクティブな調査主導型の脅威ハンティングの適切なバランスを見つけることは、ツール/アラートが見逃しがちなアノマリを検知するのに役立ちます。
ソリューションの比較
MITREはソリューションをスコア付けしませんが、各ソリューションの動作を簡単に確認できる比較ツール(英語)を提供しています。
テレメトリー、検知、および結果が返る速度(「遅延」の少なさ)を等しく評価する場合は、これらの側面のそれぞれがセキュリティチームに異なる利点をもたらすため、総合的なアプローチを取ると便利です。検知およびマネージドサービスコンポーネントの場合は、チームが通知に対応できるように十分な情報が提供されていることを確認する必要があります。
フォレスターは最近、MITRE用のスコアリングツール(英語)をリリースしました。興味深いアプローチですが、このツールの評価は検知に重点が置かれています。しかしこれまで説明してきたように、検知を主な評価基準として使用することは、EDRツールの全体的な有効性を測定する良い方法ではありません。現実の侵害で重要なのは、適切なデータ、分析、検知、対応の機能であり、そして最も重要なのは、あらゆるツールを駆使できる有能なチームを持つことです。
MITRE評価
MITRE評価は、セキュリティ業界にとって大きな前進であり、EDR分野に必要な可視性と独立したテストをもたらしました。このような複雑な問題領域におけるソリューションを公正かつ独立して比較することは非常に困難であることから、MITREの努力は賞賛されるべきです。
MITREのラウンド1評価は、テレメトリー/検知に重点が置かれていて、実際のノイズ、ワークフロー、インシデント対応、またはマネージドサービスのテストが欠如しているため、明らかにいくつかの制限があります。2019年後半から始まるラウンド2では、これらの分野にいくつかの改善をもたらすことが期待されていますが、この種の評価は、組織が独自のテストを行う必要性を無くすまでのポイントには到達しないでしょう。
F-Secure CounterceptはちょうどMITRE評価のラウンド1を完了したところであり、準備ができ次第結果をお知らせします。F-Secure Counterceptが皆様のサイバーセキュリティのニーズに適しているかどうかを判断していただくために、エフセキュアの機能の動作方法についてのテクニカルガイドも同時に提供します。
参照
[1] https://medium.com/mitre-attack/first-round-of-mitre-att-ck-evaluations-released-15db64ea970d
[2] https://www.endgame.com/blog/technical-blog/putting-mitre-attck-evaluation-context
カテゴリ