Egérből elefántot – a Google új algoritmusa bélyegképből csinál posztert

Írta: MLaca · 2021.08.30

Oké, bevallom, a cím nem egészen passzol a témához, mégis lényegében erre képes a Google mérnökeinek új fejlesztése: pici, alacsony felbontású fotókból készíthetünk hihetetlenül nagyra nagyított, kiváló minőségű felvételeket! A Google AI Blogjában olvasható bejegyzés számol be a kutatók eredményeiről, ami lényegében felér egy sci-fivel. Bizonyára sokan ismertek olyan sorozatot, ahol gyakran elhangzik egy-egy bélyeg méretű videofelvétel kapcsán, hogy „állj, nagyítsd ki a képkockát”, s láss csodát, a járdán nekünk háttal álló bűnöző arcképe, ami a vele szemközti utcaoldalon parkoló autó krómozott visszapillantójáról vetül vissza, hirtelen kristálytiszta felbontásban, torzítások nélkül csodálható meg egy falméretű kijelzőn. Nos, úgy tűnik, hogy az efféle képzeletbeli helyzetek lassan a valóság részévé válnak.

Kép forrása: Google

A „High Fidelity Image Generation Using Diffusion Models” (kb. „élethű képgenerálás diffúziós modellek használatával”) című cikkben magyarázzák el a szakértők, hogyan alakítja át lépésenként az algoritmus a kisfelbontású fotót, hogyan lesz belőle ismételt részekre bontás, majd rekonstrukció által egy nagyfelbontású, élethű kép. Az eljárás első lépésben ismételt finomítások által létrehozza a „szuperfelbontást”, ami nem más, mint az eredeti alacsonyfelbontású forráskép szuperfelbontású diffúziós modellje. Lényegében ez a modell Gauss-zajt alkalmaz egy alacsony felbontású képre, majd zajcsökkentő, zajszűrő eljárásokat vet be, hogy hatékonyan rekonstruálja a közel zajmentes kimeneti képet, amely már négyszer akkora méretű, mint a forráskép.

Kép forrása: Google

Ezután a kutatók lépcsőzetes diffúziós modellek segítségével intelligens módon alkalmazzák a Gauss-zajt és az elmosást a kimeneti képen, mielőtt megismételnék a fent leírt folyamatot. Ez az eljárás, amit a Google „Conditioning Augemntation” (kb. „kondicionáló növelés”) névre keresztelt, olyan szintre emeli a képminőséget, ami túlmutat az összes jelenlegi mesterséges intelligencia által elérhető minőségen (beleértve a BigGAN-deep és a VQ-VAE-2 technológiákat is).

Kép forrása: Google

A Google szerint ez az új technológia komoly mércét állít az arc és a természetes képek átméretezésében, ahol a bemeneti alacsony felbontású kép a folyamat végén akár 4–8-szoros felbontású lehet. Amint az a fenti illusztrációból látható, ez azt jelenti, hogy például egy 64 x 64 pixeles forrásfájlból lenyűgözően tiszta, 1024 x 1024 képpontos fotót hozhatunk létre.