A szavak ereje, avagy így lesz mesterségesen létrehozott fotó egy mondatodból

Nincs fényképezőgéped? Sebaj, a Microsoft új mesterséges intelligenciája akár szavakból is „összerak” neked egy fotót! A Microsoft AttnGAN rendszere ugyanis képes arra, hogy egy-egy begépelt mondat alapján létrehozzon egy teljesen valósághű tárgyat, amiről „fénykép is készül”. Egy példa: „Rajzolj egy sárga madarat, fekete szárnyakkal, rövid csőrrel” – és voilá, máris kiköp a gép egy 256 x 256 pixeles fotót az elképzelt madárról.

„Négy évvel ezelőtt még senki sem hitte volna, hogy lehetséges lenne ilyesmi” – mondta Xiaodong He, a projekt vezető kutatója. Az elmúlt öv évben a kutatók a képek és szavak közti kapcsolatot vizsgálták, tanították a MI-t. Első lépésként a kutató megalkotta a CaptionBotot, ami egy fotó tartalmát szavakba formálva adta vissza. Ezután egy olyan algoritmus készült el, ami egy fénykép kapcsán felmerülő kérdésekre tudott válaszolni. A mostani fejlesztéssel bezárult a kör: az AttnGAN szavakból hoz létre fotorealisztikus képeket.

Csakúgy, mint a legtöbb mai fejlesztés, az AttnGAN is a neurális hálózatokra épül, és a mesterséges intelligencia különleges algoritmusok alapján épít fényképeket a milliónyi online fotó alapján. Azonban az AttnGAN még messze nem tökéletes, hiszen egy-egy témát (pl. a madarat) könnyűszerrel megrajzol, de ha ezt a témát kiemeljük a megszokott kontextusából (környezetéből), akkor összezavarjuk a rendszert, és horrorfilmbe illő (például kubista) kreációk jönnek létre. Erre egy szép példa, hogy a fejlesztők azt kérték az AttnGAN-tól, hogy alkosson egy fotót egy nőről, aki épp egy szelet pizzát eszik:

Még nagyon sokat kell tanulnia a rendszernek ahhoz, hogy minden téren valósághű fényképeket készíthessen szavainkból, de mint ismeretes, minden kezdet nehéz, aztán egyik lépés után a másik jön, és azt vesszük észre, hogy már célba is értünk. A kutatók szerint pár év kitartó fejlesztés árán óriási fejlődés várható. A majd elkészíthető képek nem csak felbontásban, hanem élethűségben is rengeteget fognak fejlődni. Gondoljunk csak bele, hogy milyen lehetőségeket kínál egy ilyen MI vezérelte rendszer: többé nincs szükség stock fotóra, hiszen egy leírt mondat alapján megkapjuk a kívánt képet, de a színészek is lassan csomagolhatnak, ha majd egy szimpla forgatókönyv alapján az AttnGAN lerenderel nekünk egy teljes mozifilmet. (Forrás: fastcodesign.com, blogs.microsoft.com)

Hirdetések:
Weboldal készítés Komel Kft. Matéria Kft.

.

Ezek is érdekelhetnek...