MITRE-evaluatie voor F-Secure: Buitengewoon goede EDR

Afgelopen zomer heeft MITRE ATT&CK F-Secure geëvalueerd. De uitslag is nu gepubliceerd op de website van MITRE.

Hieronder lees je hoe onze endpoint detection and response (EDR) software presteerde op de volgende gebieden:

● Telemetriedekking
● Detectiedekking
● Vertraagde en besmette modifiers

Ook geven we advies over andere elementen die je moet meewegen bij het kiezen van een leverancier van EDR-software, en vertellen we welke andere leveranciers je zou kunnen overwegen.

Wil je meer weten over MITRE en hun evaluatie? Klik dan hier en hier.

Hoe hebben we gepresteerd?

De uitslag voor onze EDR – die onderdeel uitmaakt van onze detectie- en responsoplossing F-Secure Countercept – was zeer positief.

Op een groot deel van de tests scoorden we hoog. Dat toont aan dat het F-Secure Countercept-platform beschikt over de juiste datasets en detectielogica om bedreigingen voor de nationale veiligheid zoals APT3 op alle gebieden te kunnen detecteren (hier was ronde 1 ook op gericht).

De uitslag zelf is gebaseerd op 20 aanvalsfasen die zijn verdeeld in 105 testcases. Uiteindelijk resulteerde dit in 136 elementen waarbij leveranciers hun capaciteiten konden laten zien. We nemen de belangrijkste bevindingen door.

Telemetriedekking

Telemetriedekking is een van de nuttigste zaken die worden gemeten in de MITRE-evaluatie. Je toont daar namelijk mee aan hoeveel zicht een bepaald programma biedt op verschillende aanvalsmogelijkheden. Dit kan worden berekend door te bepalen bij hoeveel van de 136 testcases er informatie beschikbaar was (dus niet “geen”). In het diagram hieronder zie je dat F-Secure Countercept als één van de beste uit de bus kwam wat betreft telemetriedekking, met een score van 122/136.

Telemetry coverage mitre F-Secure

Waarom zijn onze scores hier wat hoger dan die van andere leveranciers?

Dit komt deels doordat we Windows-gebeurtenissen en WMI- en .NET-data vastleggen, wat ons een beetje extra zicht geeft. Over het algemeen zie je echter dat veel leveranciers ongeveer gelijke scores hebben. Omdat ze allemaal dezelfde datasets vastleggen, zoals proces-, netwerk-, bestands- en PowerShell-gebeurtenissen.

Een subtiel element dat niet wordt meegenomen tijdens de MITRE-evaluatie is dat veel leveranciers volledig steunen op realtime dataverzameling. F-Secure Countercept is uniek in het opzicht dat onze EDR-software ook periodieke scanners bevat die persistente gegevens en onregelmatigheden in het geheugen vastleggen. Dit betekent dat we zelfs na een inbreuk eerdere activiteiten kunnen achterhalen zonder dat hiervoor een nieuwe realtime gebeurtenis moet plaatsvinden.

Detectieanalyse

Een groot deel van ronde 1 is gericht op het toewijzen van detectiecategorieën (enrichment/algemeen gedrag/specifiek gedrag) om te testen hoeveel informatie elk product levert bij elke case.

Een aantal beperkingen van deze aanpak zijn besproken in andere artikelen en nemen we dus nu niet mee. We willen echter graag benadrukken dat wanneer software wordt beoordeeld op detectiecapaciteiten, er een groot verschil bestaat tussen alerts met hoge betrouwbaarheid, alerts met lage betrouwbaarheid en enrichments.

● Alerts met hoge betrouwbaarheid stellen je in staat om snel activiteiten te detecteren die daadwerkelijk schadelijk zijn.
● Alerts met lage betrouwbaarheid of enrichments zijn nuttig wanneer je actief naar bedreigingen zoekt of een onderzoek uitvoert.

De uitdaging in ronde 1 is dat MITRE de enrichment-data heeft verzameld, maar helaas niet het eerste, meest waardevolle deel: de detecties met hoge betrouwbaarheid. Dat maakt het lastig om een zinvolle vergelijking op te stellen van de detectiecapaciteiten van verschillende producten. Het vergelijken van onderzoekscapaciteiten is wellicht makkelijker. Echter, belangrijke factoren als correlatie, workflow en respons zijn niet gemeten, wat het moeilijk maakt om de producten zorgvuldig te vergelijken.

Om toch te proberen te meten hoe leveranciers hebben gepresteerd, heeft Forrester een evaluatiescript uitgebracht dat detecties telt en een score eraan toekent. Met hun eenvoudige scoresysteem kreeg F-Secure Countercept een van de hoogste scores: 376 punten.

Forrester simple score, mitre, F-Secure

Betekent dit dat onze EDR-software ‘beter’ is?

Mogelijkerwijs, maar niet per se. Niet-vertraagde gedragingen tellen zwaarder mee in het Forrester-script, wat onze score heeft opgekrikt. Dit betekent dat onze EDR-software mogelijk meer context geeft en beter is voor onderzoek, maar dat staat niet per definitie gelijk aan betere detectie.

Is het eigenlijk wel mogelijk om detectiecapaciteiten te meten aan de hand van de beperkte data uit ronde 1?

Een mogelijke aanpak is om te kijken naar detectiedekking, met als uitgangspunt dat enrichments en gedrag een gelijke waarde hebben (wat betreft detectiecapaciteit), en daarnaast vertraagde detecties buiten beschouwing te laten. Deze hebben namelijk meestal te maken met uitbestede diensten, terwijl we ons hier uitsluitend richten op het product zelf.

Vergeet niet dat sommige testcases van elkaar verschillen. In ronde 1, die gebaseerd was op real world data van F-Secure, was naar onze schatting slechts 25% van de testcases (misschien zelfs nog minder) bruikbaar voor directe detectie. De overige 75% zou correlatie vereisen voor detectie of zou worden gebruikt als enrichments tijdens een onderzoek.

Als we dit in aanmerking nemen, levert dat het volgende op:

Detection coverage, mitre, F-Secure

F-Secure presteerde goed op het gebied van detectiedekking, net als Palo Alto, FireEye en Carbon Black. Wat echter nog interessanter is hieraan zijn de resultaten met hoge betrouwbaarheid, die gemiddeld veel lager liggen en een betere graadmeter zijn voor de real-world-effectiviteit van EDR-producten. Je kunt ook zien dat de absolute verschillen tussen de beste leveranciers verwaarloosbaar zijn wat betreft de resultaten met hoge betrouwbaarheid.

Hoe zit het met correlatie?

In ronde 1 is een ‘besmette’ modifier gebruikt om aan te tonen of een eerdere activiteit ten grondslag lag aan de detectie (wat zowel een positief als negatief punt kan zijn). F-Secure Countercept had geen ‘besmette’ detecties in ronde 1 omdat we rechtstreekse detecties konden produceren.

Ons platform gebruikt echter wel correlatie voor detectie en onderzoek, zoals te zien is in sommige van de screenshots, maar dit werd niet precies vastgelegd in ronde 1. Voor nu hebben we correlatie uitgesloten van onze analyse, maar het goede nieuws is dat MITRE een expliciete gecorreleerde modifier aanbrengt in ronde 2.

Ik wil deze sectie graag afsluiten met een citaat van MITRE:

“De evaluatie is erop gericht om helder te verwoorden hoe detecties plaatsvinden en niet zozeer om scores toe te kennen aan capaciteiten van leveranciers.”

Hoewel het verleidelijk is om leveranciers een score te geven op basis van het totale aantal detecties, is het waardevoller om resultaten kwalitatief te analyseren: kwaliteit boven kwantiteit.

Beperkingen van ronde 1

De evaluatie van ronde 1 is een goed begin richting een kwalitatieve generieke reeks testen die kan worden toegepast op alle EDR-oplossingen. Er zijn echter een aantal beperkingen:

● Alle testcases worden op dezelfde manier behandeld (terwijl dit in de praktijk niet opgaat)
● De testcases vinden plaats in een omgeving zonder afleidende factoren
● De onderzoeksworkflow wordt niet getest
● Er wordt geen gebruik gemaakt van responstaken
● Het menselijke element wordt niet meegenomen

Om deze redenen dient ronde 1 niet als zelfstandig middel te worden gebruikt om EDR-producten te beoordelen.

Als je leveranciers gaat selecteren, bevelen we aan om als uitgangspunt gebruik te maken van de kwalitatieve telemetrie- en detectiemetingen en de screenshots van de gebruikersinterfaces uit ronde 1.

Om een tool goed te kunnen beoordelen is het waarschijnlijk nodig deze zelf te installeren en testen (idealiter in combinatie met een paar gesimuleerde aanvallen en een workflow).

Wat is de juiste EDR-software voor jouw organisatie?

Veel leveranciers maken gedurfde beweringen over redenen waarom zij beter zijn dan de concurrentie. Bij F-Secure pakken we dat iets anders aan. We vinden dat er veel goede EDR-producten op de markt zijn die sterk lijken op wat wij hebben ontwikkeld met F-Secure Countercept. Dit blijkt ook heel duidelijk uit de MITRE-evaluatie.

Als je EDR-producten wilt vergelijken op basis van de resultaten van deze evaluatie, kan het lonen om te kijken naar F-Secure, Palo Alto, Cybereason, en Microsoft ATP. Wij bevelen F-Secure aan boven de rest, maar we zijn natuurlijk wel een beetje bevooroordeeld!

EDR is een essentieel element bij het detecteren van een aanval en de effectiviteit ervan hangt sterk af van de mensen erachter. F-Secure Countercept richt zich op beheerde detectie- en responsdiensten, waarbij onze EDR-software wordt gekoppeld aan de beste mensen in de sector. Als je de beste mensen ter wereld voor jou wilt laten speuren naar dreigingen, neem dan contact op met ons.

Trending thema's

MITRE-evaluatie voor F-Secure: Buitengewoon goede EDR

Bert de Houwer

Hoe hebben we gepresteerd?

Telemetriedekking

Waarom zijn onze scores hier wat hoger dan die van andere leveranciers?

Detectieanalyse

Betekent dit dat onze EDR-software ‘beter’ is?

Hoe zit het met correlatie?

Beperkingen van ronde 1

Wat is de juiste EDR-software voor jouw organisatie?

Heb je na het lezen van deze blog nog vragen? Laat het me weten, ik praat je graag bij.

Bert de Houwer

Uitgelicht artikel

Verwante berichten

Trending thema's

MITRE-evaluatie voor F-Secure: Buitengewoon goede EDR

Delen

Hoe hebben we gepresteerd?

Telemetriedekking

Waarom zijn onze scores hier wat hoger dan die van andere leveranciers?

Detectieanalyse

Betekent dit dat onze EDR-software ‘beter’ is?

Hoe zit het met correlatie?

Beperkingen van ronde 1

Wat is de juiste EDR-software voor jouw organisatie?

Heb je na het lezen van deze blog nog vragen? Laat het me weten, ik praat je graag bij.

Delen

Uitgelicht artikel

Verwante berichten