Grok 1.5 Vision: La Nuova Frontiera dell’AI Multimodale di xAI


xAI, l’azienda di intelligenza artificiale (AI) di Elon Musk, ha presentato il suo primo modello multimodale, Grok 1.5 Vision, che mira a competere con OpenAI. Questo nuovo modello non solo comprende testi ma può anche elaborare documenti, grafici, diagrammi, screenshot e fotografie. Grok 1.5V è progettato per connettere i mondi fisico e digitale, dimostrando capacità avanzate nel comprendere e interagire con il contesto visuale.

Grok 1.5 Vision è quindi un modello AI che integra la comprensione di testi con la capacità di lavorare con elementi visivi. Tra gli esempi di cosa può fare Grok 1.5V ci sono: tradurre un flusso di lavoro in codice Python, calcolare calorie da un’etichetta nutrizionale, creare storie da disegni infantili, fornire contesto su meme, convertire tabelle in formato CSV, e offrire consulenza su riparazioni domestiche. xAI ha introdotto un nuovo benchmark per valutare la comprensione spaziale dei modelli multimodali, dove Grok 1.5V ha ottenuto risultati superiori rispetto ad altri modelli AI. L’azienda prevede di apportare miglioramenti significativi nelle capacità dei suoi modelli in altri ambiti come audio, voce e video nei prossimi mesi. Grok 1.5V sarà presto disponibile per i tester e gli utenti esistenti dell’azienda.

Questo sviluppo sottolinea l’impegno di xAI nel guidare l’innovazione nel campo dell’AI e nel contribuire alla creazione di un’intelligenza artificiale generale che possa comprendere l’universo, secondo la visione di Musk.


Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *