Sai come, nei film, quando c’è un’immagine sul computer e il Il detective che è in piedi accanto al ragazzo sulla sedia dice”puoi ingrandire e migliorare quella targa?”Questa tecnologia è ora reale, grazie a I più recenti motori di intelligenza artificiale di Google.
Il processo per farlo è estremamente complesso e difficile da padroneggiare, poiché si basano su modelli di diffusione (e alcuni calcoli matematici seriamente avanzati) e lavorare per aggiungere dettagli a un’immagine che originariamente non erano presenti. Questo viene fatto per congettura utilizzando immagini simili ed è una tecnica che Google ha soprannominato sintesi naturale dell’immagine e, in questo caso, super-risoluzione dell’immagine.
Ovviamente, inizi con un’immagine piccola e pixelata (come il immagini sul lato sinistro di ciascuna delle serie di immagini sopra) e finiscono con un’immagine a risoluzione molto più alta che non solo sembra più nitida ma appare reale all’occhio umano, anche se non corrisponde esattamente al 100% all’originale. Per portare a termine il lavoro, Google ha utilizzato due nuovi strumenti di intelligenza artificiale: Super-Resolution tramite Repeated Refinement (SR3) e Modelli di diffusione in cascata (CDM).
Il primo, SR3, aggiunge rumore a un’immagine (sembra simile al o la neve che vedete sullo schermo della TV quando il segnale è debole), quindi inverte il processo. Utilizza un ampio database di immagini e una serie di calcoli di probabilità per mappare l’aspetto di una versione a bassa risoluzione dell’immagine, che il ricercatore di Google Chitwan Saharia approfondisce con qui.
“I modelli di diffusione funzionano corrompendo i dati di addestramento aggiungendo progressivamente rumore gaussiano, cancellando lentamente i dettagli nei dati fino a quando non diventa puro rumore, quindi addestrando una rete neurale per invertire questo processo di corruzione”, ha spiegato Saharia.
Il secondo strumento, CDM, utilizza”condutture”attraverso le quali i vari modelli di diffusione (incluso SR3) possono essere indirizzati per produrre gli aggiornamenti ad alta risoluzione. Questo strumento rende le immagini più grandi dei modelli di miglioramento utilizzando simulazioni accuratamente calcolate basate su probabilità avanzate, che Google ha pubblicato un documento di ricerca su.
Il risultato finale? Quando la ricerca ha presentato le immagini finali alle persone in un test, hanno scelto che i volti generati fossero scambiati per volti reali circa la metà delle volte. Anche se un tasso del 50% potrebbe non sembrare efficace, è in linea con quello che potremmo aspettarci da un algoritmo perfetto. Google afferma che questo metodo produce risultati migliori rispetto ad altre opzioni di miglioramento delle immagini, comprese le reti generative avversarie che utilizzano le reti neurali concorrenti per perfezionare un’immagine.
Google afferma che intende fare di più con questi motori di intelligenza artificiale e le relative tecnologie, oltre l’ambito dell’upscaling delle immagini, come altre aree della modellazione delle probabilità. E mentre questa tecnologia di”ingrandimento e miglioramento”renderà più facile fare cose come vecchie foto di alto livello, ha sicuramente anche un potenziale innegabile, come, beh, ingrandire e migliorare una foto o una targa o qualsiasi altra cosa.
tramite Avviso scientifico