L’ultima AI di Apple sa leggere e interpretare le interfacce come farebbe un umano

L’ultima AI di Apple sa leggere e interpretare le interfacce come farebbe un umano

Apple ha collaborato con l’Università Aalto in Finlandia per sviluppare un nuovo modello di intelligenza artificiale in grado di comprendere e ragionare sulle interfacce delle app. Il risultato di questa collaborazione è ILuvUI, una rete neurale che combina immagini e testo per decifrare ciò che appare sullo schermo come farebbe un essere umano. Ciò avviene a partire da screenshot e da semplici conversazioni in linguaggio naturale.

L’obiettivo era affrontare una delle sfide più complesse nel campo dell’interazione uomo-macchina: insegnare all’intelligenza artificiale a “vedere” e comprendere l’interfaccia grafica di un’applicazione. In altre parole, non solo riconoscere pulsanti e campi di testo, ma anche intuire funzioni e scopi in base al contesto visivo e testuale.

“Comprendere e automatizzare le azioni sulle interfacce utente è un compito impegnativo, perché gli elementi presenti su uno schermo, come voci di lista, caselle di controllo e caselle di testo, racchiudono molteplici livelli di informazione, oltre al semplice fatto che possono essere cliccati o modificati”.

I modelli linguistici di grandi dimensioni hanno già dimostrato una notevole capacità di comprendere le istruzioni testuali, ma da soli non bastano a cogliere la complessità visiva delle interfacce digitali. Ed è qui che entrano in gioco i modelli multimodali, capaci di combinare input testuali e visivi.

Finora, però, questi modelli sono stati addestrati principalmente su immagini di oggetti naturali, come cani, segnali stradali e paesaggi, e non su ambienti strutturati come le applicazioni. Il team ha quindi deciso di adattare LLaVA, un modello open source di visione e linguaggio, specializzandolo proprio sull’universo delle interfacce utente.

Per farlo, hanno creato un dataset sintetico basato su interazioni simulate tra esseri umani e app. Alle schermate delle interfacce sono state affiancate domande e risposte, descrizioni dettagliate dello schermo, previsioni sugli esiti delle azioni e persino piani multi-step, come “ascolta l’ultimo episodio di un podcast” o “modifica la luminosità”.

Il risultato è un modello che supera le prestazioni di LLaVA nei benchmark e nei test di preferenza degli utenti. ILuvUI è in grado di comprendere il contesto completo di una schermata senza che l’utente evidenzi una specifica area. Basta un prompt in linguaggio naturale e uno screenshot.

Secondo Apple, questa tecnologia ha un grande potenziale in ambiti quali l’accessibilità e i test automatici delle interfacce. I ricercatori aggiungono che i prossimi passi potrebbero includere l’integrazione con encoder visivi più potenti, una gestione migliorata della risoluzione e l’output in formati compatibili con gli attuali framework per le UI, come il JSON.

Negli ultimi mesi, Apple ha esplorato anche un’altra frontiera: quella in cui un’AI non solo interpreta un’interfaccia, ma è anche in grado di prevedere cosa accadrà premendo un determinato pulsante. Se queste due linee di ricerca dovessero convergere, potremmo assistere a un cambiamento profondo nel modo in cui gli utenti interagiscono con i dispositivi, delegando all’intelligenza artificiale le parti più noiose e ripetitive della navigazione nelle app.

More From Author

Adesso anche le GPU NVIDIA possono accelerare il machine learning su macOS

watchOS 26 regola il volume delle notifiche in base al rumore ambientale