Comment interpréter l’évaluation MITRE ATT&CK ?
Dans cet article, nous allons approfondir la méthodologie de test MITRE et la comparer à ce qui compte réellement afin de donner quelques conseils utiles pour analyser les résultats de l’évaluation.
Voici les informations importantes qui vous seront délivrées dans cet article :
- Ce qu’est exactement l’évaluation MITRE ATT&CK
- Comment poser vos propres questions lors du choix d’un fournisseur d’EDR
- Comment comparer la télémétrie, les types de détection et les solutions EDR
Détecter des cyber attaques en temps réel
L’un des plus grands défis pour les entreprises est de fournir et d’implémenter les bons outils pour renforcer leurs équipes de sécurité informatique. En général, la plupart des entreprises ont l’habitude d’acheter par inadvertance des outils inefficaces ou ont du mal à obtenir de la valeur des outils existants en raison du bruit généré ou de la complexité. Bien que des organismes tels que Gartner fournissent des conseils sur les produits, ceux-ci peuvent souvent être de trop haut niveau et ne pas être basé sur des analyses comparatives réelles.
Pour aider à fournir aux entreprises une analyse plus détaillée des outils, en 2017 [1], MITRE a lancé un programme pour évaluer les fournisseurs d’EDR par rapport au MITRE ATT&CK framework et afin d’offrir efficacement une référence impartiale et accessible à tous. Les premiers résultats ont été publiés en 2018 et donnent un excellent aperçu des types de télémétrie, d’alertes, d’interfaces et de résultats que vous obtenez pour chaque produit ou service répertorié.
L’évaluation était basée sur un groupe de menace réel, APT3, et a fourni un riche ensemble de cas de détection à mesurer couvrant les principaux domaines de la chaîne cyber criminelle. Cependant, elle n’a pas du tout pris en compte l’efficacité de cette méthode dans un environnement réel, ni les aspects de comment répondre aux attaques. Ainsi, bien que l’évaluation soit utile au départ, elle ne devrait constituer qu’un aspect de la manière dont vous évaluez un produit EDR.
Une évaluation des solutions EDR
L’évaluation “Round 1” de MITRE était essentiellement une évaluation “produit” qui se concentrait sur la mesure des capacités de détection de l’EDR dans un environnement contrôlé, dont les principaux critères d’évaluation étaient la télémétrie et les détections. Le résultat était une liste de cas de test et de résultats pour chacun d’entre eux, se concentrant principalement sur la détection et le temps de réception des informations. Une approche simplifiée comme celle-ci permet de décomposer un problème complexe comme la détection en quelque chose de plus gérable. Mais est-ce que cela ne simplifie pas trop le problème ?
Souvent, dans la détection, il ne s’agit pas de trouver les “mauvaises choses” qui importent, mais d’exclure les activités légitimes afin que votre équipe puisse repérer plus efficacement les activités anormales. En effectuant des tests dans un environnement sans bruit, les éditeurs peuvent prétendre “détecter” des cas de tests qui auraient probablement été cachés par le bruit dans des cas réels. MITRE note clairement qu’il s’agit là d’une limitation, mais ce n’est pas si évident lorsqu’on examine les résultats.
Au-delà du produit lui-même, des facteurs clés comme les personnes qui gèrent l’outil et les process/les flux de travail sont également absents du test et sont souvent plus importants que l’outil lui-même. C’est pourquoi nous recommandons d’adopter une approche holistique, en utilisant l’évaluation MITRE comme point de départ mais en restant conscient de ses limites et en posant plutôt vos propres questions.
Par exemple :
- Quels sont les taux de faux positifs dans “la vraie vie” ?
- Pouvez-vous démontrer des capacités qui limitent le bruit ou aident à attirer l’attention sur une activité spécifique qui correspond étroitement à une activité légitime ?
- Pouvez-vous faire une démonstration d’une vraie enquête de bout-en-bout ? En partant de la détection basée sur le threat hunting, puis passant par une enquête, la chronologie et enfin la réponse ?
- Pouvez-vous émettre des tâches de réponse afin de récupérer des données forensiques de la machine ?
- Pouvez-vous contenir et combattre un pirate informatique hors du réseau ?
- Mon équipe de détection est-elle techniquement capable de piloter l’outil et est-elle disponible 24/7/365 ?
- Pourriez-vous bénéficier d’un service géré et, si c’est le cas, peuvent-ils démontrer qu’ils sont capables de détecter des attaques avancées ?
Mais que pouvez-vous apprendre des résultats existants ? Et comment devez-vous les interpréter ?
Chaque éditeur a son propre ensemble de résultats qui consiste en une centaine de cas de tests différents, chacun avec une description, une identification technique, un type de détection et des notes de détection associés. La première chose à noter est qu’il s’agit d’une évaluation technique avec des résultats techniques et sans mécanisme de notation de haut niveau, vous devrez donc peut-être demander conseil à votre équipe technique (ou à une tierce personne). Nous avons mis un exemple de résultat ci-dessous.
Du signal au bruit
Comme de nombreuses techniques de MITRE correspondent étroitement aux activités légitimes en temps réel, elles peuvent être sujettes à des faux positifs. Par exemple, l’utilisation de Rundll32 est courante dans de nombreuses entreprises, ce qui la rend généralement trop bruyante pour être surveillée manuellement, tandis que Mshta est moins souvent utilisée, ce qui la rend plus facile à repérer. Mais ce bruit peut être précieux ; manipulé correctement, il ajoute de la fidélité.
Il s’agit là d’un exemple parfait où le machine learning et le contexte plus large de l’activité surveillée peuvent sélectionner des signaux significatifs du bruit, et calculer le score de risque. Une alerte se déclenche uniquement lorsque plusieurs activités connexes ont été détectées dans un contexte inhabituel. L’efficacité de votre équipe peut s’améliorer considérablement lorsqu’elle se concentre sur les détections à haut risque dans un contexte plus large et qu’elle laisse le machine learning se pencher sur les activités à haut volume autrement cachées dans le bruit.
Image 1 – Les résultats des tests donnent de grands détails techniques, mais aucun résultat évident
Les champs les plus pertinents ici sont le “Detection Type” et “Detection Notes” car ils décrivent les performances de la solution. Ensemble, ils résument essentiellement si l’éditeur a enregistré une télémétrie associée et s’il y a eu des alertes/détections liées à l’activité. Dans les sections suivantes, nous verrons comment vous pouvez évaluer l’importance de la “télémétrie” et des “détections”.
Comment mesurer la télémétrie
La plus grande condition préalable à tout type de détection est de disposer des données permettant de l’analyser en premier lieu. La plupart des fournisseurs d’EDR collecteront des données télémétriques en temps réel pour les données de processus, les données de fichiers, les connexions et services réseau, les données de registre ou de persistance, qui couvrent un grand nombre d’actions des hackers. Mais quels sont les facteurs clés à surveiller ici ?
Données collectées – En examinant les cas de test, vous verrez que la plupart des produits ont collecté avec succès des données télémétriques pour presque chaque cas. Un domain lequel de nombreux produits ont été pris sur le fait est la section “Empire”, où les acteurs désactivent la journalisation PowerShell. Seul un sous-ensemble de produits a détecté cette activité. En dehors de MITRE, vous trouverez des produits plus avancés qui collectent également les données associées aux anomalies de mémoire et les données relatives à l’activité WMI et .NET qui peuvent aider à détecter des attaques plus pointues.
Timing – Les temps de réponse sont importants et les résultats de MITRE fournissent une mesure du temps nécessaire pour que les données/alertes vous soient renvoyées à partir d’un endpoint. MITRE attribue une étiquette “retardé” à tout ce qui prend plus de 30 minutes environ. Si un traitement plus rapide des données est une bonne chose, la réalité est que la plupart des piratages prennent des minutes ou des heures à être détectées et à êtres contenues (avec une moyenne de plusieurs mois à plusieurs années). Nous vous recommandons donc de moins vous concentrer sur le temps de réception des données, mais plus sur la capacité à détecter l’attaque et le temps qu’il vous faut pour la contenir.
Qualité – L’évaluation MITRE peut vous aider à comprendre si un produit recueille des données pour les cas d’essai spécifiques ; cela ne vous aidera cependant pas à confirmer que la solution vous donne le contexte nécessaire pour mener à bien une enquête (cela revient à la question de l’essai isolé du produit par rapport au temps réel). Par exemple, un événement de processus contiendra généralement le chemin d’accès vers ce qui a été exécuté, mais vous indique-t-il également les détails, les informations de certificat, les processus parents et les processus enfants ? Ce n’est pas quelque chose que MITRE mesure.
Conservation – Un point subtil de l’évaluation MITRE est que les tests et l’évaluation sont effectués immédiatement l’un après l’autre, de sorte que la rétention ne soit pas un facteur. En temps réel, la conservation est un problème assez important car les ensembles de données EDR peuvent être très volumineux, ce qui rend le stockage à long terme coûteux et techniquement difficile. En tant qu’entreprise, il est important de clarifier la durée de conservation de chaque ensemble de données, car cela peut avoir un impact financier, réglementaire et opérationnel. Par exemple, si vous n’avez pas d’équipe 24 heures sur 24 et 7 jours sur 7 et que quelque chose devait se produire le week-end, les données pourraient avoir disparu dès le lundi.
Comprendre les types de détection
Les alertes automatisées permettent à votre équipe de faire évoluer les efforts de détection et d’augmenter la fiabilité de la détection des indicateurs connus. Les détections sont un élément clé de l’évaluation MITRE. La qualité de la détection est saisie en classant les alertes en tant qu’enrichissements, comportements généraux ou comportements spécifiques. En général, plus l’indicateur est spécifique, mieux c’est, car ils créent moins d’alertes.
N’oubliez pas cependant que les détections et les alertes ne sont qu’un élément de votre approche de détection et ne doivent pas être considérées comme une approche unique, car les alertes sont “réactives” et non “proactives”. Lorsqu’elles sont utilisées correctement, les alertes peuvent vous aider à repérer de manière fiable les éléments et à améliorer votre temps de réponse. Le risque d’adopter une approche basée sur les alertes dans des entreprises très ciblées est qu’elle peut créer une culture réactive au sein de votre équipe, ce qui conduit à une certaine complaisance et à un faux sentiment de sécurité. Trouver le bon équilibre entre une détection réactive basée sur les alertes, et un threat hunting proactif basé sur la recherche permet de traiter des techniques inédites que les outils existants ne peuvent tout simplement pas identifier comme malveillantes vous aidera à détecter les anomalies que les outils/alertes manqueront souvent.
Comparaison des solutions
Bien que MITRE n’évalue pas les solutions, ils fournissent un outil de comparaison pour vous aider à voir facilement pour chaque cas d’utilisation comment chaque solution a fonctionné.
Image 2 – Les résultats sont comparables une fois que vous comprenez les types de détection
Il est utile d’adopter une approche holistique lors de la comparaison des résultats, en accordant une importance égale à la télémétrie, à la détection et à la rapidité avec laquelle les résultats sont renvoyés (faible nombre de résultats “retardés”), car chacun de ces aspects apporte des avantages différents aux équipes de sécurité. Pour les composantes de détection et de service géré, vous souhaitez vous assurer que des informations adéquates sont fournies pour permettre à votre équipe de répondre à toute notification.
Image 3 – L’analyse de la kill chain fournit une vue globale permettant de comparer les résultats
Forrester a déjà publié un outil de notation pour MITRE. Bien qu’il s’agisse d’une approche intéressante, les résultats de cet outil sont fortement axés sur les détections et – comme déjà mentionné – l’utilisation des détections comme critère d’évaluation principal n’est pas un bon moyen de mesurer l’efficacité globale d’un outil EDR.
Ce qui importe le plus lors d’un piratage, est d’avoir les bonnes données, les analyses, les détections, les fonctionnalités de réponse et – plus important encore – une équipe capable de piloter n’importe quel outil.
L’évaluation MITRE
L’évaluation MITRE est un grand pas en avant pour le monde de la cyber sécurité, apportant une visibilité bien nécessaire et des tests indépendants pour les EDR. MITRE a beaucoup de mérite car comparer équitablement et indépendamment des solutions d’un environnement aussi complexe est très difficile.
Enfin, nous sommes heureux d’annoncer que F-Secure vient de terminer le Round 2 de l’évaluation MITRE et que nous publierons les résultats dès qu’ils seront disponibles.
Suivez-nous sur Twitter et LinkedIn pour en être les premiers informés !
References
[1] https://medium.com/mitre-attack/first-round-of-mitre-att-ck-evaluations-released-15db64ea970d
[2] https://www.endgame.com/blog/technical-blog/putting-mitre-attck-evaluation-context
Catégories