Liquid AI LFM2.5-VL-450M: Innovazioni nel Modello Vision-Linguaggio
Liquid AI ha rilasciato LFM2.5-VL-450M, un modello vision-linguaggio da 450 milioni di parametri con supporto per predizione di bounding box, comprensione multilingue e inferenza edge sotto i 250 ms.
Liquid AI ha recentemente presentato LFM2.5-VL-450M, un'evoluzione del precedente modello LFM2-VL-450M. Questa nuova versione introduce funzionalità avanzate come la predizione di bounding box, una migliore capacità di seguire istruzioni, una comprensione multilingue ampliata e il supporto per chiamate di funzione, il tutto mantenendo un footprint di 450 milioni di parametri progettato per l'esecuzione diretta su hardware edge, da moduli AI embedded come NVIDIA Jetson Orin a mini-PC e smartphone di fascia alta.
Innovazioni Chiave di LFM2.5-VL-450M
Predizione di Bounding Box
Il modello ora è in grado di identificare oggetti all'interno di un'immagine e localizzarli con precisione tramite bounding box, migliorando significativamente le capacità di rilevamento e analisi visiva.
Comprensione Multilingue Migliorata
LFM2.5-VL-450M gestisce prompt in otto lingue con una precisione superiore, estendendo la ragionamento visivo a implementazioni globali senza necessità di modelli di localizzazione separati. Le lingue supportate includono arabo, cinese, francese, tedesco, giapponese, coreano, portoghese e spagnolo.
Seguimento Istruzioni Avanzato
Il modello ha migliorato la sua capacità di seguire istruzioni esplicite e vincoli dell'utente, aumentando la sua reattività sia su input testuali che visivi, rendendolo più versatile in applicazioni pratiche.
Supporto per Chiamate di Funzione
LFM2.5-VL-450M ora supporta chiamate di funzione per input testuali, permettendo l'esecuzione di operazioni specifiche direttamente dal testo, ampliando le sue applicazioni in scenari complessi.
Prestazioni Ottimizzate per l'Edge
In ambienti reali, i modelli vision-linguaggio devono elaborare input da fotocamere e immagini in tempo reale, con capacità di ragionamento e azione entro stretti limiti di latenza. LFM2.5-VL-450M (Q4_0) opera efficacemente su una vasta gamma di dispositivi, da moduli AI embedded come Jetson Orin a mini-PC con APU Ryzen AI Max+ 395 e SoC per smartphone come Snapdragon 8 Elite. Ad esempio, su Jetson Orin, il modello elabora un'immagine 512×512 in meno di 250 ms, sufficientemente veloce per processare ogni fotogramma in uno stream video a 4 FPS con completa comprensione visivo-linguistica.
Applicazioni nel Mondo Reale
LFM2.5-VL-450M è particolarmente adatto per implementazioni in ambienti con vincoli di latenza, output strutturati compatti e ragionamento semantico efficiente. Queste caratteristiche lo rendono ideale per l'adozione in ambienti con restrizioni di calcolo, potenza o throughput, e in contesti dove l'operazione offline o l'elaborazione sul dispositivo sono importanti per la privacy.
Automazione Industriale – Ambienti Edge e Constrained
In ambienti con risorse limitate, come veicoli passeggeri, macchinari agricoli e magazzini, i modelli di percezione spesso si limitano a output di bounding box. LFM2.5-VL-450M va oltre, fornendo una comprensione semantica della scena in un'unica passata, permettendo ai sistemi di ragionare semanticamente sulla scena, non solo di rilevare oggetti in essa. Ciò significa output più ricchi per ambienti come corsie di magazzino, inclusi azioni dei lavoratori, movimento dei carrelli elevatori e flusso di inventario, pur adattandosi all'hardware edge esistente come Jetson Orin.
Dispositivi Indossabili e Monitoraggio Sempre Attivo – Privacy e Operazioni sul Dispositivo
I dispositivi indossabili e altri sistemi di monitoraggio sempre attivi sono una soluzione naturale per i modelli VLM compatti, poiché operano sotto stretti vincoli di potenza, latenza e privacy. Dispositivi come occhiali intelligenti, assistenti indossabili, dashcam e monitor di sicurezza o industriali non possono permettersi stack di percezione complessi o streaming continuo al cloud. In questi contesti, un VLM efficiente può produrre output semantici compatti localmente, trasformando video grezzo in una comprensione strutturata utile, mantenendo basse le richieste di calcolo e preservando la privacy.
Retail ed E-Commerce – Elaborazione Visiva ad Alto Throughput
Le piattaforme di retail ed e-commerce operano in ambienti ad altissimo throughput, dove milioni di immagini di prodotti e scaffali devono essere processate sotto stretti vincoli di latenza e costo. Compiti come l'ingestione di cataloghi, ricerca visiva, abbinamento di prodotti e conformità sugli scaffali richiedono più della semplice rilevazione di oggetti, ma una comprensione visiva più ricca spesso è troppo costosa da implementare su larga scala. LFM2.5-VL-450M rende pratico il ragionamento visivo strutturato per questi carichi di lavoro, fornendo output semantici con la velocità e l'efficienza necessarie per sistemi di produzione reali.
Conclusione
- Predizione di Bounding Box: Il modello identifica e localizza oggetti nelle immagini con precisione, migliorando le capacità di rilevamento e analisi visiva.
- Comprensione Multilingue Migliorata: Gestisce prompt in otto lingue con alta precisione, estendendo la ragionamento visivo a implementazioni globali senza necessità di modelli di localizzazione separati.
- Seguimento Istruzioni Avanzato: Aumenta la reattività a istruzioni esplicite e vincoli dell'utente, migliorando la versatilità in applicazioni pratiche.
- Supporto per Chiamate di Funzione: Permette l'esecuzione di operazioni specifiche direttamente dal testo, ampliando le applicazioni in scenari complessi.
- Prestazioni Ottimizzate per l'Edge: Opera efficacemente su una vasta gamma di dispositivi, da moduli AI embedded a mini-PC e smartphone, con inferenza rapida e bassa latenza.
LFM2.5-VL-450M rappresenta un passo significativo nell'evoluzione dei modelli vision-linguaggio, offrendo funzionalità avanzate e prestazioni ottimizzate per l'edge, rendendolo una soluzione ideale per una vasta gamma di applicazioni nel mondo reale.