Vous savez comment, dans les films, quand il y a une image sur l’ordinateur et le Le détective qui se tient à côté de The Guy In The Chair dit”Pouvez-vous zoomer et améliorer cette plaque d’immatriculation ? » Cette technologie est maintenant réelle, grâce à Les derniers moteurs d’IA de Google.
Le processus pour ce faire est extrêmement complexe et difficile à maîtriser, car ils sont basés sur modèles de diffusion (et quelques mathématiques très avancées) et travailler pour ajouter des détails à une image qui n’étaient pas là à l’origine. Cela se fait par conjecture à l’aide d’images similaires et est une technique que Google a surnommée synthèse d’image naturelle, et dans ce cas, super-résolution d’image.
Évidemment, vous commencez avec une petite image pixelisée (comme la images sur le côté gauche de chacun des ensembles d’images ci-dessus) et se retrouve avec une image de résolution beaucoup plus élevée qui non seulement semble plus nette, mais apparaît réelle à l’œil humain, même si elle ne correspond pas exactement à 100% à l’original. Pour faire le travail, Google a utilisé deux nouveaux outils d’IA : Super-Resolution via Repeated Refinement (SR3) et Modèles de diffusion en cascade (CDM).
Le premier, SR3, ajoute du bruit à une image (cela ressemble au ou la neige que vous voyez sur un écran de télévision lorsque le signal est faible), puis inverse le processus. Il utilise une grande base de données d’images et une série de calculs de probabilité pour déterminer à quoi ressemble une version basse résolution de l’image, que le chercheur de Google Chitwan Saharia approfondit avec ici.
“Les modèles de diffusion fonctionnent en corrompant les données d’entraînement en ajoutant progressivement du bruit gaussien, effaçant lentement les détails dans les données jusqu’à ce qu’elles deviennent du bruit pur, puis entraîner un réseau de neurones pour inverser ce processus de corruption », expliqué Saharia.
Le deuxième outil, CDM, utilise des « pipelines » par lesquels les différents modèles de diffusion (y compris SR3) peuvent être dirigés pour produire les mises à niveau haute résolution. Cet outil crée des images plus grandes des modèles d’amélioration à l’aide de simulations soigneusement calculées basées sur des probabilités avancées, que Google a publié un article de recherche activé.
Le résultat final ? Lorsque la recherche a présenté les images finalisées aux personnes lors d’un test, elles ont choisi que les visages générés étaient confondus avec de vrais visages environ la moitié du temps. Bien qu’un taux de 50 % puisse ne pas sembler satisfaisant, il est conforme à ce à quoi nous pourrions nous attendre avec un algorithme parfait. Google affirme que cette méthode produit de meilleurs résultats que les autres options d’amélioration d’image, y compris les réseaux contradictoires génératifs qui utilisent des réseaux de neurones concurrents pour affiner une image.
Google dit qu’il a l’intention d’en faire plus avec ces moteurs d’IA et leurs technologies associées, au-delà de la mise à l’échelle d’images, comme d’autres domaines de la modélisation des probabilités. Et bien que cette technologie « zoomer et améliorer » facilitera la réalisation de choses comme des photos anciennes haut de gamme, elle a également un potentiel indéniable, comme, eh bien, zoomer et améliorer une photo ou une plaque d’immatriculation ou toute autre chose.