LFM2.5-VL-450M: Il Nuovo Modello di Visione-Lingua di Liquid AI

Scopri le novità di LFM2.5-VL-450M, il modello di visione-lingua di Liquid AI con rilevamento oggetti, supporto multilingue e inferenza edge sotto i 250 ms.

Illustrazione di LFM2.5-VL-450M in azione su dispositivo edge

Liquid AI ha recentemente rilasciato LFM2.5-VL-450M, un'evoluzione del precedente modello LFM2-VL-450M, progettato per offrire capacità avanzate di comprensione visiva e linguistica direttamente su dispositivi edge. Questo modello da 450 milioni di parametri introduce funzionalità come il rilevamento degli oggetti con bounding box, un miglioramento nella comprensione delle istruzioni, un supporto multilingue esteso e la capacità di chiamare funzioni, il tutto mantenendo un'eccezionale efficienza in termini di latenza e consumo energetico.

Innovazioni Chiave di LFM2.5-VL-450M

Rilevamento degli Oggetti con Bounding Box

Una delle principali novità di LFM2.5-VL-450M è l'introduzione del rilevamento degli oggetti, che consente al modello di identificare e localizzare oggetti all'interno di un'immagine utilizzando bounding box. Questo avanzamento migliora significativamente la capacità del modello di comprendere scene complesse e di interagire in modo più preciso con l'ambiente circostante.

Miglioramento nella Comprensione delle Istruzioni

Il modello ha subito un processo di pre-addestramento esteso da 10 a 28 trilioni di token, seguito da un addestramento focalizzato sul miglioramento del comportamento multimodale in ambienti di produzione. In particolare, sono state utilizzate tecniche di ottimizzazione delle preferenze e apprendimento per rinforzo per migliorare la comprensione delle istruzioni e la capacità di seguire comandi espliciti, aumentando la reattività del modello sia su input testuali che visivi.

Supporto Multilingue Esteso

Chiamata di Funzioni

Il modello ora supporta la chiamata di funzioni, permettendo l'esecuzione di operazioni specifiche direttamente in risposta a input testuali. Questa capacità amplia le potenzialità del modello, consentendo applicazioni più interattive e dinamiche in scenari reali.

Prestazioni Ottimizzate per l'Edge

LFM2.5-VL-450M è progettato per operare in tempo reale su hardware edge, garantendo inferenze con una latenza inferiore a 250 ms su dispositivi come NVIDIA Jetson Orin e mini-PC con APU AMD Ryzen AI Max+ 395. Questo rende il modello ideale per applicazioni che richiedono elaborazione locale e bassa latenza, come l'automazione industriale, i dispositivi indossabili e il monitoraggio continuo.

Applicazioni nel Mondo Reale

Le caratteristiche avanzate di LFM2.5-VL-450M lo rendono adatto a una vasta gamma di applicazioni pratiche:

Automazione Industriale: In ambienti con risorse computazionali limitate, come veicoli a motore, macchinari agricoli e magazzini, il modello fornisce una comprensione semantica delle scene, migliorando l'efficienza operativa e la sicurezza.
Dispositivi Indossabili e Monitoraggio Continuo: Per dispositivi come occhiali intelligenti e dashcam, LFM2.5-VL-450M offre elaborazione locale efficiente, riducendo la necessità di streaming cloud e migliorando la privacy dell'utente.
Retail ed E-Commerce: In ambienti ad alto throughput, il modello consente l'elaborazione visiva efficiente di milioni di immagini di prodotti e scaffali, supportando attività come l'ingestione di cataloghi, la ricerca visiva e la conformità degli scaffali.

Conclusione

LFM2.5-VL-450M rappresenta un significativo passo avanti nel campo dei modelli di visione-lingua, combinando capacità avanzate di comprensione visiva e linguistica con un'efficienza ottimizzata per l'edge. Le sue innovazioni chiave, come il rilevamento degli oggetti, il supporto multilingue e la capacità di chiamare funzioni, lo rendono una soluzione versatile per una vasta gamma di applicazioni reali. Con prestazioni ottimizzate per l'edge e una latenza inferiore a 250 ms, LFM2.5-VL-450M è pronto a rivoluzionare il modo in cui le applicazioni intelligenti interagiscono con il mondo reale.

Takeaways:

Rilevamento Avanzato degli Oggetti: LFM2.5-VL-450M introduce il rilevamento degli oggetti con bounding box, migliorando la comprensione delle scene complesse.
Comprensione Istruzioni Migliorata: Grazie all'addestramento avanzato, il modello segue le istruzioni in modo più preciso su input testuali e visivi.
Supporto Multilingue Esteso: Il modello comprende immagini in otto lingue, rendendolo adatto a contesti globali.
Chiamata di Funzioni Integrata: LFM2.5-VL-450M può eseguire operazioni specifiche in risposta a input testuali, ampliando le sue applicazioni.
Prestazioni Edge Ottimizzate: Con una latenza inferiore a 250 ms, il modello è ideale per dispositivi edge e applicazioni in tempo reale.