Fast Data: l’evoluzione dei Big Data verso l’Analisi in Tempo Reale

  ICT, Rassegna Stampa, Security
image_pdfimage_print

Dopo aver esplorato i Big Data nel primo articolo, ci concentreremo ora sui Fast Data, analizzando come la velocità di elaborazione delle informazioni sia diventata cruciale per il successo aziendale nell’era digitale. Questo è il secondo articolo della serie estratta dal white paper “Big e Fast Data: tra sfida per la sicurezza e privacy”.

Cosa Sono i Fast Data: Definizione e Importanza

Per “Fast Data” si intendono le informazioni in tempo reale che consentono di prendere decisioni appunto in tempo reale. Un’azienda di pubbliche relazioni deve sapere come le persone parlano dei marchi dei propri clienti in tempo reale per mitigare i messaggi negativi stroncandoli sul nascere. Qualche minuto di ritardo e i messaggi virali potrebbero essere incontenibili. Un’azienda di vendita al dettaglio deve sapere come sta vendendo la sua ultima collezione non appena viene rilasciata.

Gli operatori sanitari pubblici devono comprendere i focolai di malattie in tempo reale in modo da poter agire per frenarne la diffusione. Una banca deve stare al passo con le situazioni geopolitiche e socioeconomiche per prendere le migliori decisioni di investimento con una strategia macro-globale. Un’azienda di logistica deve sapere in che modo una catastrofe pubblica o una deviazione stradale sta influenzando l’infrastruttura di trasporto in modo da poter reagire di conseguenza. L’elenco potrebbe continuare, ma una cosa è chiara: i dati veloci sono fondamentali per le aziende moderne e le aziende stanno ora cogliendo la reale necessità di tali funzionalità di dati.

Vantaggi dei Fast Data nell’Infrastruttura Aziendale

Per dati veloci si intendono le informazioni in tempo reale o la capacità di ottenere informazioni dettagliate dai dati man mano che vengono generati. È letteralmente come le cose accadono. Perché i dati in streaming sono così caldi in questo momento? Perché il time-to-insight è sempre più critico e spesso gioca un ruolo importante nel processo decisionale intelligente e informato.

Metodologie di Elaborazione dei Fast Data

Oltre all’ovvio vantaggio commerciale che un’azienda ottiene dall’avere una conoscenza esclusiva delle informazioni sul presente o addirittura sul futuro, lo streaming dei dati comporta anche un vantaggio infrastrutturale. Con i Big Data arrivano gli aspetti tecnici da affrontare, uno dei quali è la questione costosa e complessa dell’archiviazione dei dati. Tuttavia, l’archiviazione dei dati è necessaria solo nei casi in cui i dati devono essere archiviati storicamente.

Più recentemente, man mano che vengono registrati sempre più dati in tempo reale con l’avvento di sensori, telefoni cellulari e piattaforme di social media, l’analisi in streaming al volo è sufficiente e l’archiviazione di tutti questi dati non è necessaria. I dati storici sono utili per il rilevamento retroattivo dei modelli; tuttavia, ci sono molti casi in cui le analisi dei dati in tempo reale sono più utili. Gli esempi includono il rilevamento del controllo qualità negli impianti di produzione, il monitoraggio meteorologico, la diffusione di epidemie, il controllo del traffico e altro ancora.

È necessario agire in base alle informazioni che arrivano al secondo. Per reindirizzare il traffico intorno a un nuovo progetto di costruzione o a una grande tempesta è necessario conoscere la situazione attuale del traffico e delle condizioni meteorologiche, ad esempio, rendendo inutili le informazioni della settimana precedente. Quando il tipo di dati a cui si è interessati non richiede l’archiviazione, o solo l’archiviazione selettiva, non ha senso adattarsi a un’infrastruttura di archiviazione dei dati che memorizzi tutti i dati storicamente. Si immagini di voler ascoltare i tweet negativi su Justin Bieber.

Si potrebbero memorizzare i tweet storici sulla pop star o analizzare i tweet in streaming su di lui. Registrare l’intera storia di Twitter solo per questo scopo costerebbe decine di migliaia di dollari in costi del server, per non parlare dei requisiti di RAM fisica per elaborare gli algoritmi attraverso questo enorme archivio di informazioni[1]. Oltre a determinare i cicli di vita dei dati, è anche importante pensare a come i dati dovrebbero essere elaborati. Le opzioni per l’elaborazione dei dati e il tipo di dati appropriato per ciascuna includono:

Elaborazione Batch: Analisi Tradizionale

L’Elaborazione batch si riferisce ad una serie di processi non interattivi vengono eseguiti dal computer contemporaneamente. Quando si fa riferimento all’elaborazione batch per l’analisi dei dati, ciò significa che è necessario fornire manualmente i dati al computer e quindi eseguire una serie di comandi che il computer esegue contemporaneamente. Non vi è alcuna interazione con il computer durante l’esecuzione delle attività.

Se si dispone di una grande quantità di dati da analizzare, ad esempio, è possibile ordinare le attività la sera e il computer analizzerà i dati durante la notte, consegnando i risultati la mattina seguente. I risultati dell’analisi dei dati sono statici e non cambieranno se cambiano i set di dati originali, a meno che non venga impartita al computer una nuova serie di comandi per l’analisi. Un esempio è il modo in cui tutte le fatture della carta di credito vengono elaborate dalla società della carta di credito alla fine di ogni mese.

Analisi in Tempo Reale: Il Cuore dei Fast Data

L’analisi dei dati in tempo reale ha lo scopo di ottenere risultati aggiornati ogni volta che si interroga qualcosa. Si ricevono risposte quasi in tempo reale con i dati più aggiornati fino al momento in cui la query è stata inviata. Analogamente all’elaborazione batch, l’analisi in tempo reale richiede l’invio di un comando di “query” al computer, ma l’attività viene eseguita molto più rapidamente e l’archivio dati viene aggiornato automaticamente man mano che arrivano nuovi dati.

Analisi di Flusso: Elaborazione Continua

L’analisi di flusso consta che nell’aggiornamento automatico dei risultati dell’analisi dei dati man mano che nuovi dati fluiscono nel sistema. Ogni volta che viene aggiunta una nuova informazione, i segnali vengono aggiornati per tenere conto di questi nuovi dati. L’analisi di streaming fornisce automaticamente i segnali non appena si verificano dai dati in ingresso senza la necessità di eseguire manualmente query per qualsiasi cosa[2].

È fondamentale sapere che tipo di dati si dispone e cosa si desidera analizzare da essi per scegliere una soluzione di analisi dei dati flessibile per soddisfare le proprie esigenze. A volte i dati devono essere analizzati dal flusso, non archiviati. Abbiamo bisogno di un’infrastruttura cloud così massiccia quando non abbiamo bisogno di dati persistenti? Forse abbiamo bisogno di più infrastrutture di dati non persistenti che consentano di archiviare i dati che non lo sono per l’eternità.

Time-To-Live e Gestione Efficiente dei Dati

Il Time-To-Live (TTL) dei dati può essere impostato in modo che scada dopo un determinato periodo di tempo, alleggerendo le capacità di archiviazione dei dati. Ad esempio, i dati di vendita dell’azienda di due anni fa potrebbero essere irrilevanti per prevedere le vendite dell’azienda oggi. E che i dati irrilevanti e obsoleti dovrebbero essere messi a tacere in modo tempestivo. Come l’accumulo compulsivo non è necessario e spesso costituisce un ostacolo allo stile di vita delle persone, lo è anche l’archiviazione insensata dei dati.

Un modo per garantire l’affidabilità e ridurre i costi è l’elaborazione distribuita. Invece di eseguire algoritmi su una macchina, eseguiamo un algoritmo su 30-50 macchine. In questo modo si distribuisce la potenza di elaborazione necessaria e si riduce lo stress su ciascuno.

L’elaborazione fault-tolerant garantisce che in una rete distribuita, in caso di guasto di uno qualsiasi dei computer, un altro computer prenderà il posto del computer difettoso senza soluzione di continuità e automaticamente. Ciò garantisce che ogni dato venga elaborato e analizzato e che nessuna informazione vada persa anche in caso di guasto della rete o dell’hardware. In un’epoca in cui il tempo di analisi è fondamentale in diversi settori, dobbiamo ridurre il tempo di acquisizione delle informazioni da settimane a secondi[3].

Fast Data nell’Era Digitale: Dal Passato al Presente

La tradizionale raccolta analogica dei dati richiedeva mesi. La polizia stradale o i medici annotavano le informazioni sulle infezioni dei pazienti o sugli incidenti di guida in stato di ebbrezza, e questi moduli venivano poi inviati a un hub che aggregava tutti questi dati. Quando tutti questi dettagli sono venivano raccolti in un unico documento, poteva essere passato anche un mese dall’insorgenza di una nuova malattia o da un problema nel comportamento di guida.

Oggi che i dati digitali vengono rapidamente aggregati, tuttavia, ci viene data l’opportunità di dare un senso a queste informazioni altrettanto rapidamente. Ciò richiede l’analisi di milioni di eventi al secondo rispetto ad algoritmi di apprendimento addestrati che rilevano segnali da grandi quantità di dati reali e in tempo reale, proprio come pescare rapidamente aghi in un pagliaio. In effetti, è come trovare gli aghi nel momento in cui vengono lasciati cadere nel pagliaio.

Applicazioni Pratiche dei Fast Data

In che modo è utile l’analisi dei dati in tempo reale? Le applicazioni spaziano dal rilevamento di prodotti difettosi in una linea di produzione alle previsioni di vendita al monitoraggio del traffico, tra molte altre. I prossimi anni segneranno un’età dell’oro non per i vecchi dati, ma per i dati veloci e intelligenti. Un’età dell’oro per le informazioni fruibili in tempo reale.

Fast Data nel Settore dei Pagamenti: Case Study

Mentre i Big Data si riferiscono all’enorme quantità di informazioni generate ogni ora, i dati veloci si riferiscono alle informazioni che forniscono informazioni in tempo reale. In molti settori, in particolare quello dei pagamenti, effettuare analisi rapide delle informazioni è fondamentale per i profitti. Ad esempio, la velocità dei dati potrebbe prevenire una massiccia violazione che rilascerebbe informazioni sensibili sui clienti. In questo caso, analizzare le informazioni in tempo reale è molto più importante che archiviarle in quantità massicce.

Quando si tratta di frodi nell’e-commerce, le informazioni che si verificano in quel momento contano di più. Per i sistemi di pagamento, le decisioni devono essere prese nell’ordine dei sub-secondi, gli utenti richiedono in genere tempi di risposta di 20-50 millisecondi[4]. Quindi abbiamo superato questo problema utilizzando tecnologie nate nell’era dei Big Data, come Hadoop e Cassandra. Gli elaboratori di pagamenti First Data e Feedzai hanno collaborato per utilizzare l’apprendimento automatico per combattere le frodi. Feedzai monitora la rete STAR dell’azienda, che consente pagamenti in addebito per i clienti di First Data.

La combinazione del software di apprendimento automatico di Feedzai e dell’esperienza di First Data ha reso la rete STAR in grado di segnare oltre 3.000 transazioni al secondo. Questo grande vantaggio in termini di velocità e precisione significa che la rete STAR è un obiettivo meno attraente per le frodi. Non tutti i sistemi sono configurati per gestire dati veloci. Senza gli strumenti giusti per gestire rapidamente il flusso di informazioni, le informazioni preziose vengono perse o acquisite troppo tardi per essere utili.

Mentre molte piattaforme esistenti sono in grado di gestire e archiviare grandi quantità di informazioni, la maggior parte rimane indietro quando si tratta di analizzare le informazioni in tempo reale. Per cominciare, le organizzazioni devono andare oltre i sistemi che consentono solo l’elaborazione in batch, secondo Wired. In questo caso, le aziende devono dire ai computer di analizzare grandi quantità di informazioni, che elaborano una alla volta, in modo simile al modo in cui le fatture delle carte di credito vengono elaborate alla fine di ogni mese.

Con la maggior parte delle aziende ora configurate per ottenere informazioni dai Big Data, il passo successivo è quello di abilitare informazioni in tempo reale. Nel mondo dei pagamenti, questo significa individuare potenziali frodi nel momento in cui si verificano, senza aspettare che siano già avvenute. L’ascesa della tecnologia mobile e la crescita dei Big Data stanno accelerando l’adozione dell’intelligenza artificiale, con lo scopo di aggregare i dati e capirne gli sviluppi tra loro da essi, utilizzando tecnologie avanzate di intelligenza artificiale e apprendimento automatico. La differenza più significativa è che i Big Data si concentrano sul volume, mentre gli smart data si concentrano sulla qualità e sulla velocità[5].

Questo secondo articolo della serie ci ha permesso di esplorare l’importanza dei Fast Data e il loro impatto sulla trasformazione digitale delle aziende. Non perdere il prossimo articolo della serie, dove esploreremo le sfide della sicurezza nell’era dei dati e le strategie per proteggere le informazioni.

Per approfondire tutti gli aspetti dei Big Data, Fast Data e le loro implicazioni sulla sicurezza, è possibile scaricare gratuitamente il white paper completo “Big e Fast Data: tra sfida per la sicurezza e privacy

Note e Biografia:

[1] Jun Rao. “The Value of Apache Kafka in Big Data Ecosystem”. Confluent Blog.

[2] Mayer-Schonberger, V., & Cukier, K. (10 giugno 2013). “Watched by the web: surveillance is reborn”. New York Times.

[3] Vgs. nota 8.

[4] Rathod, Paresh, and Timo Hämäläinen. “Leveraging the benefits of Big Data with Fast Data for effective and efficient cybersecurity analytics systems: A robust optimisation approach.” International Conference on Cyber Warfare and Security. Academic Conferences International Limited, 2020.

[5] Ibidem

Profilo Autore

É un esperto di sicurezza informatica, con una formazione che combina conoscenze giuridiche e tecniche. Ha conseguito una laurea triennale in Operatore Giuridico di Impresa presso l’Università degli Studi de L’Aquila, seguita da una laurea magistrale in Giurisprudenza presso l’Università Telematica Pegaso. La sua formazione si arricchisce di quattro master: uno in Criminologia e Studi Forensi, uno in Programmazione e Sviluppo Backend e Frontend, un master in Cybersecurity presso l’Ethical Hacker Academy, e un master di II livello in Homeland Security presso l’Università Campus Bio-Medico di Roma.

Grazie a diverse certificazioni EIPASS, tra cui quella di Data Protection Officer (DPO/RDP), e licenze OPSWAT, ha acquisito competenze avanzate in sicurezza delle reti, protezione delle infrastrutture critiche e gestione dei dati. La sua passione per il mondo informatico e tecnologico e il costante aggiornamento professionale lo hanno reso un punto di riferimento nel settore, incluse aree emergenti come l’intelligenza artificiale.

È autore di due pubblicazioni scientifiche: “Contrasto al Terrorismo: La Normativa dell’Unione Europea” e “La Cyber Security: La Riforma Europea in Materia di Cybersicurezza ed il Cyber- Crime”, entrambe edite da Currenti Calamo.

Condividi sui Social Network:

https://www.ictsecuritymagazine.com/articoli/fast-data-big-data/