Liquid AI rilascia LFM2.5-VL-450M: modello visione-lingua avanzato per edge computing

Scopri le novità di LFM2.5-VL-450M di Liquid AI: modello visione-lingua con predizione di bounding box, supporto multilingue e inferenza edge sotto i 250ms.

Liquid AI rilascia LFM2.5-VL-450M: modello visione-lingua avanzato per edge computing
LFM2.5-VL-450M modello visione-lingua

Liquid AI ha recentemente rilasciato LFM2.5-VL-450M, un'evoluzione del precedente modello LFM2-VL-450M. Questa nuova versione introduce funzionalità avanzate come la predizione di bounding box, un miglioramento nella comprensione delle istruzioni, un supporto multilingue ampliato e la capacità di chiamare funzioni, il tutto mantenendo un footprint di 450 milioni di parametri progettato per l'esecuzione diretta su hardware edge, da moduli AI embedded come NVIDIA Jetson Orin a mini-PC.

Caratteristiche principali di LFM2.5-VL-450M

  • Predizione di Bounding Box: Il modello è ora in grado di identificare oggetti in un'immagine e localizzarli con precisione, migliorando la comprensione visiva e la capacità di interagire con scene complesse.
  • Comprensione Istruzioni Migliorata: LFM2.5-VL-450M ha affinato la sua capacità di seguire istruzioni esplicite, aumentando la sua reattività e precisione nelle attività di elaborazione del linguaggio naturale.
  • Supporto Multilingue Esteso: Il modello gestisce prompt in otto lingue con maggiore accuratezza, includendo arabo, cinese, francese, tedesco, giapponese, coreano, portoghese e spagnolo, rendendolo adatto a implementazioni globali senza necessità di modelli di localizzazione separati.
  • Chiamata di Funzioni: LFM2.5-VL-450M supporta la chiamata di funzioni, permettendo l'esecuzione di operazioni specifiche direttamente dal modello, aumentando la sua versatilità in applicazioni pratiche.

Prestazioni e Applicazioni nel Mondo Reale

LFM2.5-VL-450M è progettato per operare in ambienti con risorse limitate, offrendo inferenze rapide su dispositivi mobili e embedded. Ad esempio, su NVIDIA Jetson Orin, il modello è in grado di elaborare un'immagine 512×512 in meno di 250ms, rendendolo ideale per applicazioni in tempo reale come l'automazione industriale, dispositivi indossabili e monitoraggio continuo. Inoltre, la sua capacità di operare offline o su dispositivo garantisce la privacy dei dati e l'efficienza energetica, caratteristiche fondamentali in settori come la vendita al dettaglio e l'e-commerce, dove è necessario elaborare grandi volumi di immagini in tempi rapidi e con costi contenuti.

Conclusione

LFM2.5-VL-450M rappresenta un significativo passo avanti nei modelli visione-lingua, combinando efficienza, velocità e versatilità. Le sue caratteristiche avanzate lo rendono adatto a una vasta gamma di applicazioni, dalla robotica all'automazione industriale, dai dispositivi indossabili al monitoraggio continuo, fino all'elaborazione di immagini nel settore retail. Con il suo design compatto e le prestazioni ottimizzate per l'edge computing, LFM2.5-VL-450M offre soluzioni pratiche e scalabili per le sfide moderne nell'elaborazione multimodale.

  • Predizione di Bounding Box: Migliora l'accuratezza nell'identificazione e localizzazione di oggetti nelle immagini.
  • Comprensione Istruzioni Migliorata: Aumenta la reattività e la precisione nell'esecuzione di compiti basati su istruzioni testuali.
  • Supporto Multilingue Esteso: Gestisce prompt in otto lingue con maggiore accuratezza, facilitando implementazioni globali.
  • Chiamata di Funzioni: Permette l'esecuzione di operazioni specifiche direttamente dal modello, aumentando la sua versatilità.
  • Prestazioni Edge Ottimizzate: Esegue inferenze rapide su dispositivi mobili e embedded, ideale per applicazioni in tempo reale.