VASA-1: il futuro dell’AI

(Redazione)

20 Aprile 2024
4 min read

Cos’è VASA-1?

Intanto diciamo che il termine VASA è l’acronimo di “Visual Affective Skills Animator”, ed è un framework che genera volti parlanti realistici di personaggi virtuali con abilità visive davvero sorprendenti. Partendo da una singola foto, il modello è in grado non solo di produrre movimenti labiali (perfettamente sincronizzati con l’audio), ma anche di catturare un ampio spettro di sfumature facciali e movimenti naturali della testa. Tutto questo dovrebbe dare grande autenticità (e non deepfake…) alla generazione prodotta. Certo, è un’evoluzione veloce di quello a cui ci aveva abituato un po’ Runaway, anche se in modalità completamente diversa (vedi timing).

E come funziona?

Alle prime linee ormai ci arriviamo tutti (e non dobbiamo spiegare cosa sia un framework), per capire che VASA utilizza l’apprendimento automatico per analizzare un’immagine insieme ad una clip audio vocale. Questo sta a significare che è in grado di generare un video realistico con espressioni facciali precise. E in questa generazione sono presenti, e qui è la parte innovativa, movimenti della testa mai visti fino ad ora ed una reale linea di sincrono tra il labiale e l’audio. Ed è più che chiaro che i video creati siano di ottima qualità.

Non scaldiamoci troppo però, in quanto al momento si tratta unicamente di una dimostrazione collegata alla ricerca, che Microsoft ha voluto generosamente condividere con il mondo. Quindi non possiamo impossessarcene per i nostri più ambiziosi obiettivi (almeno per il momento). La cosa su cui davvero dovremmo riflettere invece è la velocità con cui l’AI sta dando i suoi frutti. I movimenti naturali, e quindi realistici, di un volto parlante che si muove in uno spazio d’osservazione con voce in sincrono perfetta è davvero un grande salto in avanti.

Aspetti tecnici di VASA -1

In questo modo il colosso Microsoft parla della nuova scoperta “Attraverso esperimenti approfonditi, tra cui la valutazione di una serie di nuove metriche, dimostriamo che il nostro metodo supera in modo significativo i metodi precedenti su varie dimensioni. Perchè non solo offre un’elevata qualità video con dinamiche realistiche del viso e della testa, ma supporta anche la generazione online di video 512×512 fino a 40 FPS con una latenza iniziale trascurabile. In questo modo apre la strada a un coinvolgimento in tempo reale con avatar realistici che emulano i comportamenti umani nelle conversazioni. Il nostro metodo è in grado non solo di produrre una preziosa sincronizzazione labiale-audio, ma anche di generare un ampio spettro di sfumature facciali espressive e movimenti naturali della testa. È in grado di gestire audio di lunghezza arbitraria e di produrre in modo stabile video di facce parlanti senza soluzione di continuità. La nostra rappresentazione latente disgiunge l’aspetto, la posa 3D della testa e la dinamica facciale, consentendo il controllo degli attributi e la modifica dei contenuti generati”. Niente male davvero.

AI e conclusioni e appunti etici di ricerca

L’azienda è molto chiara sulla faccenda. E ci tiene a far sapere che la ricerca vuole esclusivamente concentrarsi sulla generazione di abilità affettive visive per avatar virtuali di intelligenza artificiale, con un unico e “sano” obiettivo, ossia quello di creare reali applicazioni positive. Si legge nel whitepaper che “non si propone di creare contenuti che vengano utilizzati per ingannare o fuorviare. Tuttavia, come altre tecniche di generazione di contenuti affini, potrebbe essere utilizzata in modo improprio per impersonare gli esseri umani. Siamo contrari a qualsiasi comportamento volto a creare contenuti fuorvianti o dannosi per persone reali e siamo interessati ad applicare la nostra tecnica per far progredire il rilevamento dei falsi”. Tutto questo ci rallegra e vogliamo anche crederci. L’importante è che la ricerca avanzi, nel senso di prosperare e continuare affinchè l’AI diventi sempre più una soluzione pratica e innovativa per ogni settore