Come l’AI e il ML stanno migliorando l’osservabilità
L’AI/ML è attualmente utilizzata o sta iniziando ad esserlo, nella maggior parte dei campi, e anche nell’osservabilità, dove si sta integrando a passi da gigante nei sistemi di osservabilità, una questione che analizzeremo qui: come sta avvenendo e quali vantaggi ci sta fornendo questa alleanza.
Gli insight basati sull’AI hanno rivoluzionato il mondo di DevOps e si prevede che cambieranno ancora di più entro il 2023. L’integrazione dell’AI nell’osservabilità sta consentendo l’automazione e l’ottimizzazione dei flussi di lavoro e, grazie agli insight basati sull’AI, le organizzazioni possono rilevare e diagnosticare i problemi in tempo reale insieme alla loro potenziale soluzione, consentendo ai team IT di rispondere rapidamente ed evitare ulteriori interruzioni dei sistemi o dei processi.
Comprendere l’osservabilità
Sappiamo tutti che cos’è l’osservabilità, ma per coloro che non hanno ancora le idee chiare, faremo un breve ripasso.
L’osservabilità è la capacità di misurare lo stato di un ambiente o di una piattaforma, in un determinato momento, in base ai dati che genera, come ad esempio registrazioni, metriche e tracce basate sulla telemetria acquisita.
- Logging (consente l’analisi degli eventi)
- Metriche (consente di visualizzare le prestazioni)
- Tracing (permette di studiare il comportamento)
L’obiettivo chiaro dell’osservabilità è capire cosa sta succedendo sulle piattaforme o sulle applicazioni, essere in grado di individuare e risolvere i problemi e mantenere sistemi e applicazioni più efficienti e affidabili.
Intelligenza artificiale (AI) e Machine Learning (ML)
Non voglio annoiarvi con le varie definizioni che ognuno può consultare, ma dovrebbe essere chiaro cosa sia ogni elemento e quale funzione svolga.
L’intelligenza artificiale (AI) si riferisce alla capacità delle macchine di svolgere compiti che normalmente richiedono l’intelligenza umana, come il ragionamento, l’apprendimento, la risoluzione di problemi, compreso il processo decisionale e il riconoscimento di modelli nei dati. L’AI cerca di replicare il modo in cui una persona umana penserebbe e agirebbe e può spaziare da semplici sistemi che automatizzano compiti ripetitivi a sistemi più avanzati in grado di apprendere e adattarsi man mano che vengono loro fornite maggiori informazioni.
Il Machine Learning (ML) è una branca specifica dell’Intelligenza Artificiale che si concentra sullo sviluppo di algoritmi e modelli che consentono alle macchine di migliorare le loro prestazioni su un particolare compito man mano che vengono forniti loro più dati. Invece di essere esplicitamente programmate per eseguire un compito, possono imparare dai dati e dalle telemetrie, ad esempio dall’osservabilità. Ciò porta a poter utilizzare questi modelli per prendere decisioni e previsioni informate.
In breve, l’Intelligenza Artificiale (AI) mira a creare sistemi intelligenti, mentre il Machine Learning (ML) è una tecnica all’interno dell’Intelligenza Artificiale che si concentra sul consentire alle macchine di imparare e migliorare dai dati. Il Machine Learning (ML) è una parte fondamentale della realizzazione dell’Intelligenza Artificiale, in cui le macchine possono imparare e adattarsi automaticamente senza una programmazione esplicita.
Alleanza tra AI e Machine Learning con l’Osservabilità
Come abbiamo chiarito in precedenza, l’obiettivo principale dell’osservabilità è quello di comprendere, rilevare e analizzare per risolvere, ed è qui che l‘AI/ML viene applicata e sta introducendo nuovi modi di applicare l’osservabilità, accelerando il rilevamento, la comprensione della situazione e persino proponendo o eseguendo soluzioni.
L’incorporazione dell’intelligenza artificiale (AI) e del Machine Learning (ML) nei servizi software di osservabilità ha rivoluzionato il modo in cui le organizzazioni ottengono, analizzano e presentano i dati raccolti. Sfruttando gli algoritmi di apprendimento automatico e l’analisi predittiva, le intuizioni basate sull’AI possono analizzare grandi quantità di dati e identificare potenziali problemi prima che si verifichino. Questo aiuta i team IT ad affrontare i problemi in modo proattivo, riducendo il tempo necessario per identificarli e risolverli.
Vediamo come l’AI/ML migliora l’osservabilità:
- Raccolta dati potenziata
- Apprendimento permanente
- Analisi avanzata
- Rilevamento proattivo dei problemi
- Ottimizzazione automatica
- Presentazione intelligente dei dati
Raccolta dati potenziata
L’AI e il ML consentono la raccolta automatica di dati da una varietà di fonti, tra cui i log delle applicazioni, le metriche dell’infrastruttura, gli eventi e altro ancora. Questi algoritmi possono identificare e recuperare i dati rilevanti per l’osservabilità, riducendo il rumore e concentrandosi sui dati più importanti. Inoltre, sono in grado di adattarsi ai cambiamenti dell’ambiente e della struttura dei dati, con il risultato di una raccolta più accurata e agile.
Apprendimento permanente
Una delle caratteristiche più potenti dell’AI e del Machine Learning è la capacità di apprendimento continuo. Queste tecnologie sono in grado di adattare e migliorare i loro algoritmi nel tempo, man mano che vengono raccolti e analizzati più dati. Questo porta a un’osservabilità sempre più raffinata ed efficace, man mano che si accumulano esperienza e conoscenza.
In breve, l’incorporazione dell’AI e del Machine Learning nell’osservabilità sta cambiando il modo in cui le organizzazioni guardano alla gestione dei loro sistemi e applicazioni. Queste tecnologie consentono un monitoraggio più intelligente, predittivo e automatizzato, migliorando il rilevamento dei problemi, il processo decisionale e l’ottimizzazione complessiva dell’ambiente tecnologico.
Analisi avanzata
Le capacità di analisi dei dati dell’intelligenza artificiale e del Machine Learning sono fondamentali per l’osservabilità, perché possono identificare schemi, tendenze e anomalie nei dati di telemetria. Ad esempio, possono rilevare cambiamenti comportamentali nelle applicazioni o nell’infrastruttura, identificando potenziali problemi prima che influiscano sulle prestazioni. Gli algoritmi di rilevamento delle anomalie possono apprendere dai dati storici e in tempo reale, adattandosi alle condizioni mutevoli e riducendo l’impatto dei problemi.
Rilevamento proattivo dei problemi
L’intelligenza artificiale e il Machine Learning possono anticipare i problemi futuri analizzando i modelli storici. Possono generare avvisi precoci basati su indizi impercettibili, consentendo ai team operativi di affrontare i problemi prima che diventino guasti gravi. Questo rilevamento proattivo migliora la disponibilità del sistema e l’esperienza degli utenti, riducendo al minimo i tempi di inattività non pianificati.
Ottimizzazione automatica
L’osservabilità che integra l’intelligenza artificiale e il Machine Learning può fornire raccomandazioni e azioni automatizzate per ottimizzare le prestazioni e l’efficienza. Ad esempio, possono suggerire aggiustamenti delle risorse, modifiche alla configurazione o riallocazione dei carichi di lavoro per massimizzare l’utilizzo delle risorse e garantire prestazioni ottimali.
Presentazione intelligente dei dati
La presentazione dei dati è fondamentale per prendere decisioni informate. L’intelligenza artificiale e il ML possono generare dashboard personalizzate e riepiloghi esecutivi in base ai ruoli e alle esigenze degli utenti. Possono anche evidenziare i dati più rilevanti e aiutare gli utenti a trovare rapidamente le informazioni cruciali in mezzo a grandi volumi di dati, facilitando la comprensione dell’osservabilità.
Integrazioni nelle principali piattaforme di osservabilità.
È già chiaro cosa l’AI e il ML possono fare per l’osservabilità e nell’osservabilità, ma la questione è come vengono applicati nel software attuale.
Una delle maggiori sfide per le piattaforme che vogliono iniziare a usare il ML nell’osservabilità è sapere dove applicare il Machine Learning in modo che apprenda e sia il più utile possibile. Ciò significa preparare i dati di telemetria affinché l’AI, insieme al Machine Learning, faccia la sua magia.
La maggior parte dei software di osservabilità ha già un’area o un modulo di Machine Learning integrato, la maggior parte dei quali non è addestrata automaticamente per il nostro sistema, quindi facilitano l’implementazione dell’apprendimento.
Vediamo alcuni dei software più diffusi che stanno integrando l’AI/ML nei loro prodotti.
Datadog
Datadog ha incorporato Bits AI nella sua gamma di funzionalità all’interno della sua piattaforma SAAS ed è abbastanza semplice e veloce iniziare a integrare AI e ML con l’osservabilità. Inoltre, offre monitoraggio e osservabilità end-to-end, con funzioni di rilevamento delle anomalie e di avviso basate sul Machine Learning in tutte le aree di osservabilità. Il rilevamento delle anomalie che tiene conto delle tendenze e della stagionalità rende l’apprendimento più accurato e previene le deviazioni.
Dynatrace
Dynatrace ha creato Dynatrace DAVIS che combina AI predittiva, AI casuale e AI generativa per l’osservabilità, la sicurezza e i casi d’uso aziendali.
- Predictive AI Fornisce previsioni continue e previsioni di anomalie su linee di base multidimensionali, sul traffico delle applicazioni e sul carico dei servizi, con la consapevolezza della stagionalità e dei modelli.
- Casual AI Analizza i dati di osservabilità e sicurezza nel contesto delle informazioni topologiche: raggruppa automaticamente e ad hoc le anomalie, individua le cause principali e stabilisce le priorità in base all’impatto sul business.
- AI generativa Grazie all’AI predittiva e all’AI causale, Davis CoPilot crea query, cartelle di lavoro e dashboard per semplificare l’analisi e fornisce raccomandazioni e automazione del flusso di lavoro.
Piattaforma ElasticSearch
ElasticSearch Platform integra il Machine Learning come servizio che l’utente può attivare su richiesta. Integra l’apprendimento non supervisionato e modelli preconfigurati per l’osservabilità e il rilevamento dei problemi di sicurezza, in modo che l’addestramento del modello AI non debba essere supervisionato.
Secondo ElasticSearch Platform non è necessario avere un team di data science o progettare un’architettura di sistema, si può iniziare rapidamente senza la necessità di spostare i dati in un framework di terze parti per la formazione dei modelli.
Inoltre, consente anche l’ingestione da altre fonti esterne; l’unico requisito è quello di eseguire l’ingestion in ElasticSearch per poter modellare l’apprendimento del Machine Learning di ElasticSearch.
Splunk
Splunk sfrutta il Machine Learning nella sua piattaforma per aiutare i team ad analizzare e visualizzare grandi volumi di dati attraverso la sua tecnologia MLTK.
Si tratta di un toolkit di apprendimento automatico che agisce come un’estensione della piattaforma Splunk e comprende ricerca, macro e visualizzazioni.
Include l’apprendimento automatico, la regressione, la classificazione e la previsione, il tutto con un’attenzione particolare alla sicurezza.
AppDynamics
AppDynamics utilizza Cognition Engine, un insieme di algoritmi di apprendimento automatico che analizzano i dati sulle prestazioni basati sulle transazioni nelle topologie delle applicazioni. Ciò fornisce una comprensione completa delle deviazioni delle prestazioni dell’applicazione, insieme a informazioni contestuali create per ridurre drasticamente il tempo medio di risoluzione (MTTR) quando si verificano i problemi.
New Relic GROK
New Relic GROK in uno dei primi assistenti di osservabilità con GenAI.
È profondamente integrato nella piattaforma di osservabilità che unifica tutti i dati, i contesti, gli strumenti e le apparecchiature in un’unica esperienza integrata. La combinazione degli ampi modelli linguistici (LLM) di OpenAI con l’ampiezza della piattaforma unificata di dati telemetrici di New Relic Grok garantisce risposte AI di qualità superiore e un apprendimento AI più rapido.
Alcune delle azioni che potremo richiedere a questo assistente virtuale:
- nel campo della strumentazione e dell’integrazione, saremo in grado di ricercare le lacune della strumentazione, migliorare la copertura degli allarmi, integrarci con le piattaforme Cloud o semplicemente aggiungere un nuovo utente.
- possiamo anche chiedervi informazioni su problemi e soluzioni, come ad esempio: cosa ha causato un picco della CPU, perché l’applicazione ha smesso di inviare dati dall’applicazione o come posso risolvere un errore da noi rilevato.
- inoltre, ci permette di ottenere rapidamente informazioni ponendo alla procedura guidata domande come il riepilogo dei problemi recenti, il numero di problemi individuati in una data o il calcolo dei dati per i K8.
- dal punto di vista grafico, è possibile tradurre e visualizzare i risultati di una query in grafici, creare una sintesi o aggiungere un partner a una chat di segnalazione delle anomalie.
Logz.io
Logz.io Machine Learning, introduce i propri algoritmi di rilevamento delle anomalie, algoritmi numerici basati sui dati APM di rilevamento delle anomalie, gestione delle attività di rilevamento delle anomalie e prognostica nell’ingestion ValidLogBytes e Cognitive Insights.
In generale, Logz.io utilizza algoritmi di apprendimento automatico per rilevare automaticamente le anomalie nel comportamento del sistema. Questi algoritmi sono addestrati su grandi insiemi di dati di comportamento normale e possono rilevare un’ampia gamma di anomalie diverse.
Middleware
Il middleware si integra con il più potente strumento di intelligenza artificiale, ChatGPT-4. Utilizzando ChatGPT-4, il middleware prevede la causa principale del problema e presenta soluzioni intelligenti per risolverlo.
Le migliori virtù che il Middleware può apportare alla nostra osservabilità:
- rilevare automaticamente tutti gli errori di registrazione dell’infrastruttura
- ottenere un elenco di tutte le risorse da riparare.
- follow-up dell’errore dell’applicazione per trovare la causa principale.
- unificare tutti i temi fondamentali della piattaforma
- trovare la soluzione (raccomandazione) per ogni problema con passaggi dettagliati.
- avere una visione critica del problema della piattaforma e gli elementi di azione per risolverlo.
- vedere la cronologia degli errori e avere la visione a 360 gradi della vostra infrastruttura e delle vostre applicazioni
Il futuro dell’osservabilità dell’AI
Ci sono molte speculazioni su come le soluzioni di osservabilità si evolveranno con l’integrazione di AI/ML e su come questo potrebbe influire positivamente sull’efficienza e sulla sicurezza dell’IT, ma la domanda principale è: fino a che punto saremo in grado di sfruttare l’AI? Dove sarà il limite massimo di fiducia nel suo potenziale?
Il futuro prossimo è rappresentato dagli assistenti AI, che vengono addestrati per rispondere a qualsiasi esigenza su tutte le nostre piattaforme IT.
L’altra incognita è se finiremo per avere l’osservabilità dell’AI stessa, poiché questa è un’altra delle scommesse del futuro. Esistono già piattaforme che monitorano l’AI/ML per evitare deviazioni ed errori dell’AI, come censius.ai, una piattaforma in grado di osservare l’AI stessa.
Conclusioni dei nostri esperti di knowmad mood
L’integrazione dell’intelligenza artificiale (AI) e del Machine Learning (ML) nell’osservabilità sta cambiando l’osservabilità stessa a passi da gigante, rendendo più semplice e veloce per le organizzazioni il monitoraggio e la gestione dell‘osservabilità delle loro piattaforme IT.
L’AI consente di individuare tempestivamente i problemi e di prendere decisioni autonome con un’ottimizzazione accurata che sta portando l’osservabilità a un livello superiore. In un mondo digitalizzato in continua evoluzione, le capacità predittive e analitiche del Machine Learning e dell’AI sono una risorsa inestimabile che le aziende devono mantenere per essere agili, efficienti e resilienti.