Google

Sie wissen, wie in Filmen ein Bild auf dem Computer ist und die Der Detektiv, der neben The Guy In The Chair steht, sagt:”Können Sie das Nummernschild vergrößern und verbessern? Diese Technologie ist jetzt real dank Die neuesten KI-Engines von Google.

Der Prozess hierfür ist äußerst komplex und schwer zu meistern, da sie auf Diffusionsmodelle (und einige ernsthaft fortgeschrittene Mathematik) und arbeiten daran, einem Bild Details hinzuzufügen, die ursprünglich nicht vorhanden waren. Dies geschieht durch Vermutungen unter Verwendung ähnlicher Bilder und ist eine Technik, die Google als natürliche Bildsynthese bezeichnet hat, und in diesem Fall als Superauflösung von Bildern.

Natürlich beginnen Sie mit einem kleinen und pixeligen Bild (wie dem Bilder auf der linken Seite jedes der obigen Bildsätze) und erhalten am Ende ein Bild mit viel höherer Auflösung, das nicht nur schärfer aussieht, sondern auch für das menschliche Auge echt erscheint, auch wenn es nicht zu 100% dem Original entspricht. Um die Arbeit zu erledigen, hat Google zwei neue KI-Tools verwendet: Super-Resolution via Repeated Refinement (SR3) und Cascaded Diffusion Models (CDM).

Das erste, SR3, fügt einem Bild Rauschen hinzu (dies sieht ähnlich aus wie das statische oder Schnee, den Sie auf einem Fernsehbildschirm sehen, wenn das Signal schwach ist), dann kehrt der Vorgang um. Es verwendet eine große Bilddatenbank und eine Reihe von Wahrscheinlichkeitsberechnungen, um zu ermitteln, wie eine niedrigaufgelöste Version des Bildes aussieht, auf die Google-Forscher Chitwan Saharia mit hier.

Google

“Diffusionsmodelle funktionieren, indem sie die Trainingsdaten verfälschen, indem sie nach und nach Gaußsches Rauschen hinzufügen und Details langsam auslöschen in den Daten, bis sie zu reinem Rauschen werden, und dann ein neuronales Netzwerk zu trainieren, um diesen Korruptionsprozess umzukehren“, erklärt Saharia.

Das zweite Tool, CDM, verwendet”Pipelines”, durch die die verschiedenen Verbreitungsmodelle (einschließlich SR3) geleitet werden können, um die hochauflösenden Upgrades zu erstellen. Dieses Tool erstellt mithilfe sorgfältig berechneter Simulationen basierend auf erweiterten Wahrscheinlichkeiten größere Bilder der Verbesserungsmodelle, die von Google in einem Forschungspapier an.

Das Endergebnis? Als die Forschung den Menschen in einem Test die fertigen Bilder präsentierte, wählten sie aus, dass die generierten Gesichter in etwa der Hälfte der Fälle mit echten Gesichtern verwechselt wurden. Auch wenn eine Rate von 50 % nicht erfolgreich klingt, entspricht sie dem, was wir von einem perfekten Algorithmus erwarten können. Laut Google liefert diese Methode bessere Ergebnisse als andere Bildverbesserungsoptionen, einschließlich generativer gegnerischen Netzwerke, die konkurrierende neuronale Netzwerke verwenden, um ein Bild zu verfeinern.

Google beabsichtigt, mehr mit diesen KI-Engines und den dazugehörigen Technologien zu tun, die über die Bildskalierung hinausgehen, wie es in anderen Bereichen der Wahrscheinlichkeitsmodellierung der Fall ist. Und während diese „Zoom and Enhance“-Technologie es einfach macht, Dinge wie das Hochskalieren alter Fotos zu tun, hat sie definitiv auch ein gewisses Potenzial, wie zum Beispiel das Vergrößern und Verbessern eines Fotos oder eines Nummernschilds oder irgendetwas anderes.

über Wissenschaftswarnung