Come interpretare la valutazione MITRE ATT&CK
Una delle maggiori sfide per le organizzazioni è l’acquisto e l’implementazione degli strumenti giusti per potenziare i propri team di sicurezza. In generale, la maggior parte delle organizzazioni ha acquistato nel corso della sua attività strumenti inefficaci o si è trovata a dover sudare sette camicie per ottenere valore dagli strumenti esistenti a causa di complessità o varie altre problematiche. E mentre organizzazioni come Gartner forniscono delle indicazioni sui prodotti da scegliere, queste spesso sono troppo di alto livello e non basate sul benchmarking reale.
Per aiutare le organizzazioni ad avere un’analisi più dettagliata degli strumenti, nel 2017 [1], MITRE ha lanciato un programma per valutare i fornitori di EDR rispetto al framework MITRE ATT&CK per offrire in modo efficace un benchmark imparziale disponibile pubblicamente. I risultati iniziali sono stati rilasciati nel 2018 e offrono un’ottima panoramica dei tipi di telemetria, avvisi, interfaccia e output ottenuti da ogni prodotto o servizio elencato.
La valutazione si è basata su un gruppo di attacchi del mondo reale, APT3, e ha fornito una ricca serie di casi di rilevamento da misurare, coprendo tutte le principali aree della cyber kill chain. Tuttavia, non ha affatto preso in considerazione quanto potesse essere efficace in un ambiente reale, né ha coperto alcun aspetto della risposta agli attacchi. Pertanto, anche se la valutazione è un utile punto di partenza, dovrebbe costituire solo un aspetto del modo in cui si valuta un prodotto EDR.
In questo articolo si intende approfondire la metodologia di test MITRE e confrontarla con ciò che conta nel mondo reale per dare alcuni suggerimenti utili per analizzare i risultati della valutazione.
Valutazione di un prodotto EDR
Il Round 1 della valutazione MITRE è essenzialmente una valutazione del prodotto incentrata sulla misurazione delle capacità di rilevamento EDR in un ambiente controllato, con i principali criteri di valutazione di telemetria e rilevamenti. L’output è un elenco di casi test e risultati per ciascuno, con particolare attenzione sulla specificità del rilevamento e sul tempo necessario per ricevere le informazioni. Un approccio semplificato come questo aiuta a scomporre un complesso problema come il rilevamento in qualcosa di più gestibile. Ma questo semplifica eccessivamente il problema?
Spesso, nel mondo del rilevamento ciò che conta non è trovare le “cose cattive”, ma escludere le attività legittime in modo che il tuo team possa individuare in modo più efficace attività anomale. Eseguendo test in un ambiente privo di rumore, i vendor poi possono dire di “rilevare” casi test che sarebbero stati probabilmente nascosti dal rumore nel mondo reale. MITRE chiaramente dichiara questa come una limitazione, ma non è tutto così ovvio quando si esaminano i risultati.
Andando oltre il prodotto stesso, le aree chiave come le persone che usano lo strumento e guidano il processo/flusso di lavoro sono anch’esse assenti dal test e sono spesso più importanti dello strumento stesso. Quindi F-Secure consiglia di adottare un approccio olistico, utilizzando la valutazione MITRE come punto di partenza, ma restando consapevoli dei suoi limiti, e di porsi le domande. Per esempio:
• Come sono i tassi dei falsi positivi nel mondo reale?
• Puoi dimostrare funzionalità che limitano il rumore o aiutano ad attirare l’attenzione su attività specifiche che corrispondono strettamente ad attività legittime?
• Puoi dimostrare un’indagine end-to-end reale? Dal rilevamento basato sul threat hunting, all’investigazione, al time-lining e alla risposta?
• Puoi attivare attività di risposta per recuperare i dati forensi dalla macchina?
• Puoi contenere e combattere un aggressore fuori dalla rete?
• Il mio team di rilevamento è tecnicamente in grado di utilizzare lo strumento ed è disponibile 24/7/365?
• Potresti beneficiare di un servizio gestito e, se sì, i fornitori potrebbero dimostrare che sono in grado di rilevare gli attacchi avanzati?
Ma cosa puoi imparare dai risultati? E come dovresti interpretarli?
Ogni vendor dispone di un proprio set di risultati costituito da circa 100 diversi casi test, ognuno corredato da Description, Technique ID, Detection Type, e Detection Notes. La prima cosa da notare è che si tratta di una valutazione tecnica con risultati tecnici e nessun meccanismo di punteggio di alto livello, quindi potrebbe essere necessario chiedere un aiuto ai membri del team tecnico (o a una parte esterna). Di seguito un esempio di risultato.
I risultati dei test danno qualche dettaglio tecnico, ma nessun punteggio ovvio.
I campi più rilevanti qui sono il “Detection Type” e “Detection Notes” che spiegano come il vendor ha performato. Insieme forniscono un riepilogo in merito a se il fornitore ha registrato i dati di telemetria associati e se sono presenti avvisi/rilevamenti correlati all’attività.
Nelle sezioni seguenti verrà esaminato come puoi valutare l’importanza sia della “Telemetria” che dei “Rilevamenti”.
Come misurare i dati di telemetria
Il più grande prerequisito per qualsiasi tipo di rilevamento è avere prima di tutto dei dati da analizzare. La maggior parte dei fornitori di soluzioni EDR raccoglierà dati di telemetria in tempo reale: dati di processo, dati dei file, delle connessioni e dei servizi di rete, dati del Registro di sistema o di persistenza, tutti dati che coprono un numero elevato di azioni dell’utente malintenzionato. Ma quali sono i fattori chiave a cui guardare?
Dati raccolti: esaminando i test noterai che la maggior parte dei prodotti ha raccolto correttamente i dati di telemetria per quasi tutti i casi test. Un settore in cui parecchi prodotti hanno fallito è stata la sezione Empire in cui gli attori disabilitano PowerShell logging. Solo un sottoinsieme di prodotti ha rilevato questa attività. Al di fuori di MITRE troverai prodotti più avanzati che raccoglieranno anche dati associati ad anomalie della memoria e dati per attività WMI e .NET che possono aiutare a rilevare attacchi più all’avanguardia.
Timing: i tempi di risposta sono importanti e i risultati MITRE forniscono una misura del tempo necessario per la restituzione dei dati o degli avvisi da un endpoint. MITRE assegna un tag “delayed” a tutto ciò che richiede più di circa 30 minuti. Mentre un’elaborazione dei dati più veloce è una buona cosa, la realtà è che la maggior parte delle violazioni del mondo reale richiederà minuti o ore per essere rilevata e contenuta (con una media del settore che va da mesi ad anni). Quindi F-Secure consiglia di concentrarti meno sul tempo necessario per ricevere i dati e di più sul verificare se sei in grado di rilevare l’attacco e quanto tempo ci vuole per contenerlo.
Qualità – La valutazione MITRE può aiutarti a capire se un prodotto raccoglie i dati di base per i casi test specifici; non ti aiuterà, tuttavia, a comprendere se il prodotto ti fornisce il contesto necessario per completare un’investigazione (torna la considerazione che abbiamo fatto della differenza tra un test isolato del prodotto vs i problemi del mondo reale). Ad esempio, un evento relativo a un processo in genere contiene il percorso di ciò che è stato eseguito, ma ti mostra anche l’hash, le informazioni sul certificato, i processi padre e figlio? Questo non è qualcosa che MITRE misura.
Conservazione – Un punto sottile nella valutazione MITRE è che il test e la valutazione vengono eseguiti immediatamente uno dopo l’altro, quindi la conservazione dei dati non è considerata un fattore. Nel mondo reale, la conservazione è un problema enorme in quanto i set di dati EDR possono essere molto grandi rendendo l’archiviazione di lunga data costosa e tecnicamente impegnativa. Per un’azienda è importante chiarire per quanto tempo ciascuno dei set di dati verrà archiviato, in quanto ciò può avere un impatto finanziario, normativo e operativo. Ad esempio, se non hai un team 24/7 e qualcosa dovesse accadere durante il fine settimana, i dati potrebbero essere spariti entro lunedì.
Informazioni sui tipi di rilevamento
Gli avvisi automatici consentono al team di scalare gli sforzi di rilevamento e aumentano la sicurezza di rilevare gli indicatori noti. I rilevamenti sono un componente chiave della valutazione MITRE: la qualità di rilevamento è definita classificando gli avvisi come “enrichments”, “general behaviors” o “specific behaviors”. In generale, più specifico è l’indicatore, meglio è, in quanto crea meno avvisi.
Ricorda però che i rilevamenti e gli avvisi sono solo un componente nel tuo approccio di detection e non devi farci affidamento come unico singolo approccio perché:
- Le regole di “static detection” possono essere bypassate
Gli attaccanti innovano continuamente e hanno una lunga storia fatta di successi nel bypassare i prodotti di sicurezza – o utilizzando diverse forme di offuscamento o tecniche mai viste prima, così che gli strumenti esistenti semplicemente non possono identificare come attività malevole. Se supponi che le tue regole possano farlo, verranno bypassate. - Gli avvisi sono spesso falsi positivi
Una delle maggiori sfide quando si gestiscono gli avvisi sono i falsi positivi: c’è una differenza enorme tra valutare centinaia o migliaia di avvisi in al giorno, e avere avvisi estremamente affidabili che sono abbastanza significativi per dare seguito a un’azione. Oltre ad evitare che gli attacchi non vengano rilevati, l’affidabilità degli avvisi può influire anche sull’efficienza del team e causare affaticamento. L’affidabilità non è purtroppo qualcosa che viene rilevato nel Round 1 della valutazione MITRE ed è in realtà estremamente difficile da misurare in modo efficace al di fuori di una rete aziendale reale. Pertanto vale la pena prendere qualsiasi risultato di rilevamento MITRE con le pinze. - Gli avvisi sono “reattivi” invece di “proattivi”
Se usati correttamente gli avvisi possono aiutarti a individuare in modo affidabile le cose facili e migliorare i tempi di risposta. Il rischio con l’assunzione di un approccio basato sugli avvisi è che possa creare una cultura reattiva all’interno del team che porta alla compiacenza e a un falso senso di sicurezza. Trovare il giusto equilibrio tra il rilevamento reattivo basato su avvisi e la caccia alle minacce guidata dalla ricerca proattiva ti aiuterà a cogliere quelle anomalie che spesso strumenti/avvisi perderanno.
Soluzioni a confronto
Anche se MITRE non assegna punteggi alle soluzioni, fornisce uno strumento di confronto per aiutarti a vedere facilmente come ha performato la tal soluzione per ciascun caso d’uso.
È utile adottare un approccio olistico quando si confrontano i risultati, dando la stessa ponderazione ai dati di telemetria, al rilevamento e alla velocità con cui vengono restituiti i risultati (basso numero di risultati “delayed”), poiché ognuno di questi aspetti apporta vantaggi diversi ai team di sicurezza. Per i componenti del rilevamento e del servizio gestito vorrai assicurarti che vengano fornite informazioni adeguate per consentire al team di rispondere alle notifiche.
Forester ha precedentemente rilasciato uno strumento di punteggio per MITRE. Anche se l’approccio è interessante, i risultati di questo strumento sono fortemente sbilanciati nei confronti dei rilevamenti e, come già accennato, l’utilizzo dei rilevamenti come criterio di valutazione primario non è un buon modo per misurare l’efficacia complessiva di uno strumento EDR. Ciò che conta di più in una violazione del mondo reale è avere i dati giusti, gli analytics, i dati di rilevamento, le funzionalità di risposta e, soprattutto, un team capace di usare qualsiasi strumento.
La valutazione MITRE
La valutazione MITRE è un grande passo avanti per il settore della sicurezza, perché porta un po’ di visibilità, così tanto necessaria, e test indipendenti nello spazio EDR. MITRE stessa dovrebbe essere applaudita per i suoi sforzi, poiché avere un confronto equo e indipendente tra soluzioni in uno spazio problematico così complesso è davvero sfidante.
Ci sono sicuramente alcune limitazioni nel Round 1 a causa dell’attenzione per i dati di telemetria/rilevamenti e la mancanza di rumore reale, workflow, risposta agli incidenti o test del servizio gestito. Si spera che il Round 2 che partirà dalla fine del 2019 porterà alcuni miglioramenti in queste aree, anche se è possibile che questo tipo di valutazione non possa mai arrivare al punto in cui si eliminerà la necessità per le organizzazioni di fare da soli i propri test.
F-Secure nel frattempo è entusiasta di annunciare che F-Secure Countercept ha appena completato il Round 1 della valutazione MITRE e pubblicherà i risultati non appena saranno pronti. Per aiutarti a decidere se F-Secure Countercept soddisfa al meglio le tue esigenze di sicurezza informatica, F-Secure includerà una guida tecnica sulle caratteristiche delle sue funzionalità.
Segui F-Secure su Twitter e LinkedIn per essere tra i primi a saperlo!
Riferimenti
[1] https://medium.com/mitre-attack/first-round-of-mitre-att-ck-evaluations-released-15db64ea970d
[2] https://www.endgame.com/blog/technical-blog/putting-mitre-attck-evaluation-context
Categorie