Du vet hvordan, i filmer, når det er et bilde på datamaskinen og detektiv som står ved siden av The Guy In The Chair sier”kan du zoome inn og forbedre den lisensplaten?”At teknologien er nå ekte , takket være Googles nyeste AI-motorer.
Prosessen for å gjøre dette er ekstremt kompleks og vanskelig å mestre, ettersom de er basert på diffusjonsmodeller (og noen seriøst avanserte matematikk) og jobber med å legge til detaljer i et bilde som opprinnelig ikke var der. Dette gjøres ved gjetninger ved bruk av lignende bilder og er en teknikk som Google kalte naturlig bildesyntese, og i dette tilfellet bildeoppløsning.
Tydeligvis starter du med et lite og pixelert bilde (som bilder på venstre side av hvert av bildesettene ovenfor) og ender opp med et bilde med mye høyere oppløsning som ikke bare ser skarpere ut, men ser ekte ut for det menneskelige øyet, selv om det ikke er 100% eksakt samsvar med originalen. For å få jobben, brukte Google to nye AI-verktøy: Superoppløsning via Repeat Refinement (SR3) og Cascaded Diffusion Models (CDM).
Den første, SR3, legger til støy i et bilde (dette ligner det statiske eller snø du ser på en TV-skjerm når signalet er svakt), og reverserer deretter prosessen. Den bruker en stor bildedatabase og en rekke sannsynlighetsberegninger for å kartlegge hvordan en lavoppløselig versjon av bildet ser ut, som Google-forsker Chitwan Saharia går mer i dybden med her .
“Diffusjonsmodeller fungerer ved å ødelegge treningsdataene ved gradvis å legge til Gauss-støy og langsomt slette detaljer i dataene til det blir ren støy, og deretter trene et neuralt nettverk for å reversere denne korrupsjonsprosessen, ” forklart Saharia.
Det andre verktøyet, CDM, bruker”rørledninger”som de forskjellige diffusjonsmodellene (inkludert SR3) kan dirigeres gjennom for å produsere høyoppløselige oppgraderinger. Dette verktøyet lager større bilder av forbedringsmodellene ved å bruke nøye beregnede simuleringer basert på avanserte sannsynligheter, som Google publiserte en forskningsartikkel på.
Sluttresultatet? Når forskning presenterte de ferdige bildene for mennesker i en test, valgte de at de genererte ansiktene ble feilaktig med ekte ansikter omtrent halvparten av tiden. Selv om en rate på 50% kanskje ikke høres vellykket ut, er den i tråd med det vi kan forvente med en perfekt algoritme. Google sier at denne metoden gir bedre resultater enn andre alternativer for bildeforbedring, inkludert generative motstridende nettverk som bruker konkurrerende nevrale nettverk for å finpusse et bilde.
Google sier at den har til hensikt å gjøre mer med disse AI-motorene og tilhørende teknologier, utenfor omfanget av oppskalering av bilder, som andre områder med sannsynlighetsmodellering. Og selv om denne”zoom og forsterk”-teknologien vil gjøre det enkelt å gjøre ting som oppskalere gamle bilder, har den definitivt unektelig også potensial, for eksempel, vel, å zoome inn og forbedre et bilde eller en lisens plate eller noe annet.
via Science Alert