So interpretieren Sie die MITRE ATT&CK-Untersuchung

Eine der größten Herausforderungen für ein Unternehmen besteht darin sein Sicherheitsteam zu stärken, indem es die richtigen Tools erwirbt und implementiert. In der Vergangenheit haben viele Unternehmen oft ineffektive Werkzeuge erworben oder der Einsatz scheiterte an der Komplexität der vorhandenen Werkzeuge. Beratungsunternehmen wie Gartner bieten zwar eine Produktberatung an, diese ist jedoch häufig zu weit vom Kunden entfernt und basiert nicht auf realem Benchmarking.

Um Unternehmen eine detailliertere Analyse der Werkzeuge zu ermöglichen [1], startete MITRE im Jahr 2017 ein Programm zur Bewertung von EDR-Anbietern anhand des ATT&CK-Netzwerks. Damit sollten jedem interessierten Unternehmen unparteiische Benchmarks öffentlich zugänglich sein. Die ersten Ergebnisse wurden im Jahr 2018 veröffentlicht und bieten einen guten Überblick über die Arten von Telemetrie, Warnmeldungen, Benutzeroberflächen und Ausgaben, die Sie von den dort aufgeführten Produkten oder Dienstleistungen erhalten.

Die Bewertung basierte auf der realen Bedrohungsgruppe APT3 und lieferte eine Vielzahl von Erkennungen, anhand derer alle wichtigen Bereiche der Exploit-Angriffskette erfasst wurden. Dabei wurde aber nicht berücksichtigt, wie effektiv dies in einer realen Umgebung sein würde. Auch die Aspekte der Reaktion auf die Angriffe wurden nicht abgedeckt. Obwohl die Bewertung ein nützlicher Ausgangspunkt ist, sollte sie nur einen Aspekt der Bewertung eines Endpoint Detection & Response (EDR)-Produkts darstellen.

In diesem Artikel erklären wir die MITRE-Testmethodik und vergleichen diese mit den tatsächlichen Gegebenheiten. Sie erhalten so nützliche Tipps für die Analyse der Bewertungsergebnisse.

Die EDR-Produktbewertung

Die MITRE-Bewertung in Runde 1 ist im Wesentlichen eine Produktbewertung, die sich auf die Messung der EDR-Erkennungsfähigkeiten in einer kontrollierten Umgebung konzentriert, wobei die Hauptbewertungskriterien Telemetrie und Erkennung sind. Die Ausgabe ist eine Liste von Testfällen und Ergebnissen für jeden Fall, wobei der Schwerpunkt hauptsächlich auf der Erkennungsspezifität und der Zeit für den Erhalt der Informationen liegt. Eine vereinfachte Herangehensweise wie diese hilft, einen komplexen Problembereich wie das Erkennen in etwas Übersichtlicheres zu zerlegen. Aber vereinfacht dies das Problem zu sehr?

In der Welt der Erkennung geht es häufig nicht darum, die „schlechten Dinge“ zu finden, die wichtig sind, sondern um das Ausschließen legitimer Aktivitäten, damit Ihr Team Anomalien effektiver erkennen kann. Durch Tests in einer Umgebung ohne Grundrauschen durch andere Operationen können Anbieter behaupten Testfälle zu erkennen. In der realen Welt wären diese durch tausende Operationen pro Sekunde im Hintergrund wahrscheinlich verborgen geblieben. MITRE stellt dies eindeutig als Einschränkung fest, bei der Überprüfung der Ergebnisse ist dies jedoch nicht so offensichtlich.

Im Test ist auch nicht erkennbar, welche Personen bei der Produktprüfung die Schlüsselbereiche, die Werkzeuge und den Prozess bzw. Workflow steuern. Diese Personen und ihre Kenntnisse sind oft jedoch wichtiger als das Werkzeug selbst. Aus diesem Grund empfehlen wir einen ganzheitlichen Ansatz, bei dem die MITRE-Bewertung als Ausgangspunkt dient, die Einschränkungen jedoch berücksichtigt und stattdessen Ihre eigenen Fragen gestellt werden. Zum Beispiel:

Wie sind die False-Positives-Quoten in der realen Welt?
Können Sie Fähigkeiten demonstrieren, die entweder den Datenverkehr im Hintergrund begrenzen oder die Aufmerksamkeit auf bestimmte Aktivitäten lenken, die eng mit den legitimen übereinstimmen?
Können Sie eine End-to-End-Untersuchung in der Praxis demonstrieren? Von der Bedrohungssuche über die Ermittlung bis hin zur zeitlichen Planung und Reaktion?
Können Sie Überwachungsergebnisse auswerten, um forensische Daten vom Computer abzurufen?
Können Sie einen Netzwerkangreifer aufhalten und bekämpfen?
Kann ihr Erkennungsteam aus technischer Sicht alles bedienen und ist rund um die Uhr verfügbar?
Könnten Sie von einem Managed Service profitieren und wenn ja, können sie nachweisen, dass sie in der Lage sind erweiterte Angriffe zu erkennen?

Aber was können Sie aus den vorhandenen Ergebnissen lernen? Und wie sollte man sie interpretieren?

Jeder Anbieter hat seine eigenen Ergebnisse, die aus ungefähr 100 verschiedenen Testfällen bestehen, die jeweils eine Beschreibung, eine Technik-ID, einen Erkennungstyp und Erkennungsnotizen enthalten. Als Erstes ist zu beachten, dass es sich um rein technische Bewertungen und Ergebnisse handelt und kein Bewertungssystem mit Risikoleveln. Daher müssen Sie möglicherweise Ihre technischen Teammitglieder (oder eine externe Partei) um Rat fragen. Nachfolgend finden Sie ein Beispielergebnis.

Die Testergebnisse geben zwar gute technische Details an, aber ohne Bewertung des Risikos.

Die relevantesten Felder sind hier der „Detection Type“ und die „Detection Notes“, in denen die Leistung des Anbieters erläutert wird. Beide ergeben eine Zusammenfassung darüber, ob der Anbieter eine zugehörige Telemetrie protokolliert hat und ob es Warnungen bzw. Erkennungen im Zusammenhang mit der Aktivität gab.

In den folgenden Abschnitten erläutern wir, wie Sie die Bedeutung von „Telemetry“ und „Detections“ einschätzen können.

Wie man Telemetrie misst

Eine Voraussetzung für jede Art von Erkennung ist, dass die Daten überhaupt analysiert werden können. Die meisten EDR-Anbieter erfassen Echtzeit-Telemetrie für Prozessdaten, Dateidaten, Netzwerkverbindungen und -dienste, Registrierungs- oder Persistenz-Daten, mit der sich eine große Anzahl Aktionen von Angreifern aufdecken lassen. Aber worauf ist hier besonders zu achten?

Gesammelte Daten – Wenn Sie sich die Testfälle ansehen, stellen Sie fest, dass die meisten Produkte für fast jeden Testfall erfolgreich Telemetrie gesammelt haben. Allerdings: Ein auffälliger Bereich bei den Prozeduren war „Empire“, mit dem die Angreifer die PowerShell-Protokollierung deaktivierten. Nur eine Teilmenge der Produkte hat diese Aktivität erkannt. Andere, nicht bei MITRE gelistete Produkte, sammeln auch Daten zu Speicheranomalien und Daten zu WMI- und .NET-Aktivitäten, mit deren Hilfe sich aktuellere Angriffe erkennen lassen.

Timing – Die Reaktionszeiten sind entscheidend und die MITRE-Ergebnisse liefern ein Maß dafür, wie lange es dauern kann, bis ein Endpunkt an Sie Daten bzw. Warnungen zurücksendet. MITRE markiert jedes Objekt mit dem Tag „verzögert”, welches länger als etwa 30 Minuten dauert. Zwar ist eine schnellere Datenverarbeitung eine gute Sache, doch die Realität sieht anders aus. Die meisten Verstöße in der realen Welt werden erst nach Minuten oder Stunden erkannt und eingedämmt (mit einem Branchendurchschnitt von Monaten bis Jahren). Wir empfehlen daher, sich weniger auf die Zeit zum Empfangen von Daten zu konzentrieren, sondern vielmehr darauf, ob Sie den Angriff überhaupt erkennen können und wie lange Sie brauchen, um ihn abzuwehren.

Qualität – Die MITRE-Bewertung hilft Ihnen zu verstehen, ob ein Produkt Basisdaten für die spezifischen Testfälle sammelt. Allerdings: Dies hilft Ihnen nicht bei der Bestätigung, ob das Produkt den erforderlichen Kontext für eine Untersuchung bietet (dies geht zurück auf den isolierten Produkttest im Vergleich zum realen Problem). Beispielsweise enthält ein Prozessereignis normalerweise den Pfad zu dem, was ausgeführt wurde. Aber: zeigt es Ihnen auch den Hash, die Zertifikatinformationen, die über- und untergeordneten Prozesse an? Dies ist nichts, was MITRE misst.

Aufbewahrung – Ein subtiler Punkt bei der MITRE-Bewertung: Tests und Bewertungen werden unmittelbar nacheinander durchgeführt, so dass die Aufbewahrung kein Faktor ist. In der Praxis sieht das anders aus, denn EDR-Datasets sind meist sehr groß, was die Speicherung über einen langen Zeitraum kostspielig und technisch herausfordernd macht. Als Unternehmen ist es wichtig zu klären, wie lange die einzelnen Datensätze gespeichert werden, da dies finanzielle, regulatorische und betriebliche Auswirkungen haben kann. Wenn Sie beispielsweise kein 24-Stunden-Team haben und am Wochenende etwas passiert, könnten die Daten bis Montag gelöscht sein.

Grundlegendes zu Erkennungstypen

Dank automatisierter Warnmeldungen kann Ihr Team Ihre Erkennungsbemühungen skalieren und die zuverlässige Identifizierung bekannter Indikatoren erhöhen. Erkennungen sind eine Schlüsselkomponente der MITRE-Bewertung. Deren Qualität wird durch die Klassifizierung von Warnungen als Zusatzinformationen, allgemeines Verhalten oder spezifisches Verhalten erfasst. Im Allgemeinen ist der Indikator umso genauer, je weniger Warnungen erstellt werden.

Denken Sie jedoch daran, dass Erkennungen und Warnungen nur eine Komponente Ihres Erkennungsansatzes sind und nicht als einziger Ansatz verwendet werden sollten, da:

Statische Erkennungsregeln können umgangen werden

Viele Angreifer sind ständig auf dem neuesten Stand und haben eine lange Tradition darin, Sicherheitsprodukte zu umgehen – entweder durch die Verwendung verschiedener Formen der Verschleierung oder nie zuvor gesehener Techniken, die vorhandene Tools nicht als bösartig identifizieren können. Nehmen Sie an, Ihre Regeln können und werden umgangen.

Warnungen sind häufig “false positive”

Eine der größten Herausforderungen beim Umgang mit Warnmeldungen sind die Fehlalarme. Es gibt einen großen Unterschied zwischen der Frage, ob auf Warnmeldungen reagiert wird, wenn sie hundert- oder tausendfach pro Tag auftreten, und extrem hochauflösenden Warnmeldungen, die bedeutsam genug sind, um einen roten Alarm auszulösen. Fehlende Angriffe können die Wachsamkeit und die Effizienz eines Teams beeinträchtigen und zu Ermüdungserscheinungen führen. Der Punkt Wachsamkeit wird in Runde 1 der MITRE-Evaluierung leider nicht erfasst und ist außerhalb eines realen Unternehmensnetzwerks nur äußerst schwer effektiv zu messen. Daher lohnt es sich, die MITRE-Erkennungsergebnisse mit einer großen Portion an Vorsicht zu genießen.

Warnungen sind „reaktiv“ statt „proaktiv“

Bei korrekter Verwendung können Sie mithilfe von Warnungen die einfachen Dinge zuverlässig erkennen und Ihre Antwortzeiten verbessern. Das Risiko bei einem alarmbasierten Ansatz besteht darin, dass eine reaktive Kultur in Ihrem Team entsteht, die zu Selbstgefälligkeit und falschem Sicherheitsgefühl führt. Wenn Sie das richtige Gleichgewicht zwischen reaktiver, alarmbasierter Erkennung und proaktiver, forschungsbasierter Bedrohungssuche finden, können Sie die Anomalien erkennen, die Tools bzw. Alarme häufig übersehen.

Lösungen vergleichen

Obwohl MITRE keine Lösungen bewertet, bieten sie ein Vergleichstool, mit dem Sie für jeden Anwendungsfall leicht nachvollziehen können, wie die jeweilige Lösung funktioniert.

Es ist hilfreich, einen ganzheitlichen Ansatz zu wählen, wenn Sie die Ergebnisse vergleichen. Sie sollten dabei Telemetrie und Erkennung gleich gewichten und prüfen, wie schnell die Ergebnisse zurückgegeben werden (geringe Anzahl von “verzögerten” Ergebnissen), da jeder dieser Aspekte den Sicherheitsteams unterschiedliche Vorteile bringt. Stellen Sie für die Erkennungs- und verwalteten Dienstkomponenten sicher, dass ausreichende Informationen bereitgestellt werden, damit Ihr Team auf Benachrichtigungen reagieren kann.

Forester hat vor kurzer Zeit ein Scoring-Tool für MITRE veröffentlicht. Obwohl dies ein interessanter Ansatz ist, sind die Ergebnisse für dieses Tool stark auf Entdeckungen ausgerichtet. Wie bereits erwähnt, ist die Verwendung von Entdeckungen als primäres Bewertungskriterium kein guter Weg, um die Gesamteffektivität eines EDR-Tools zu messen. Bei einer echten Sicherheitsverletzung ist es am wichtigsten, über die richtigen Daten, Analysen, Erkennungen, Reaktionsfunktionen und ein besonders fähiges Team zu verfügen, das jedes Tool steuern kann.

Die MITRE-Untersuchung

Die MITRE-Untersuchung ist ein großer Fortschritt für die Sicherheitsbranche, da sie dem EDR-Bereich die dringend benötigte Transparenz und unabhängige Tests bietet. MITRE verdient für das Engagement ein Lob, da ein fairer und unabhängiger Vergleich von Lösungen in einem solch komplexen Problembereich sehr herausfordernd ist.

In Runde 1 gibt es definitiv einige Einschränkungen, da der Schwerpunkt rein auf Telemetrie und Erkennung liegt. Dabei gab es kein Grundrauschen durch andere Operationen, auch fehlen Arbeitsabläufe, Reaktionen auf Vorfälle oder Tests für verwaltete Dienste. Es bleibt zu hoffen, dass die zweite Runde, die Ende 2019 beginnt, einige Verbesserungen in diesen Bereichen bringt. Es kann aber auch sein, dass diese Art der Bewertung niemals den Punkt erreicht, an dem Unternehmen keine eigenen Tests mehr durchführen müssen.

Wir freuen uns jedoch Ihnen mitteilen zu können, dass F-Secure Countercept die MITRE-Evaluierung der ersten Runde abgeschlossen hat. Die Ergebnisse werden, sobald sie vorliegen, veröffentlicht. Damit Sie leichter entscheiden können, ob F-Secure Countercept Ihre Anforderungen an die Cybersicherheit am besten erfüllt, legen wir Ihnen auch noch einen technischen Leitfaden bei, wie unsere Funktionen gearbeitet haben.

Referenzen

[1] https://medium.com/mitre-attack/first-round-of-mitre-att-ck-evaluations-released-15db64ea970d

[2] https://www.endgame.com/blog/technical-blog/putting-mitre-attck-evaluation-context

Trendthemen

So interpretieren Sie die MITRE ATT&CK-Untersuchung

F-Secure Global

Die EDR-Produktbewertung

Wie man Telemetrie misst

Grundlegendes zu Erkennungstypen

Lösungen vergleichen

Die MITRE-Untersuchung

F-Secure Global

Hervorgehobener Artikel

Zugehörige Beiträge

Trendthemen

So interpretieren Sie die MITRE ATT&CK-Untersuchung

Teilen

Die EDR-Produktbewertung

Wie man Telemetrie misst

Grundlegendes zu Erkennungstypen

Lösungen vergleichen

Die MITRE-Untersuchung

Teilen

Hervorgehobener Artikel

Zugehörige Beiträge