Sådan oprettes realistisk Grand Theft Auto 5-grafik med Deep Learning

Dette projekt er en fortsættelse af min tidligere artikel. I det forklarede jeg, hvordan vi kan bruge CycleGAN til overførsel af billedstil og anvende det til at konvertere Fortnite-grafik og få det til at ligne PUBG.

CycleGAN er en type Generative Adversarial Network, der er i stand til at efterligne den visuelle stil for et billede og overføre det til et andet. Vi kan bruge det til at få et spils grafik til at ligne et andet spil eller den virkelige verden.

I denne artikel ønskede jeg at dele nogle flere resultater ved hjælp af den samme CycleGAN-algoritme, som jeg dækkede i mit tidligere arbejde. Først vil jeg prøve at forbedre GTA 5-grafik ved at tilpasse dem til at ligne den virkelige verden. Dernæst vil jeg dække, hvordan vi kan opnå de samme fotorealistiske resultater uden først at skulle gengive høj detaljeret GTA-grafik.

Til den første opgave har jeg taget skærmbilleder af spillet som vores kildedomæne, som vi vil konvertere til noget fotorealistisk. Måldomænet kommer fra bybilledet, der repræsenterer den virkelige verden (som vi sigter mod at gøre vores spil ligne).

CycleGAN-resultater

Baseret på omkring tre dages træning i cirka 100 epoker ser Cyclegan-modellen ud til at gøre et meget godt stykke arbejde med at tilpasse GTA til det virkelige verdensdomæne. Jeg kan virkelig godt lide, hvordan de mindre detaljer ikke går tabt i denne oversættelse, og billedet bevarer sin skarphed, selv ved en så lav opløsning.

Den største ulempe er, at dette neurale netværk viste sig at være ret materialistisk: det hallucinerer et Mercedes-logo overalt og ødelægger den næsten perfekte konvertering fra GTA til den virkelige verden. (Det skyldes, at datasættet bybilleder blev indsamlet af en Mercedes-ejer.)

Sådan opnås den samme fotorealistiske grafik med mindre indsats

Selvom denne tilgang kan virke meget lovende med hensyn til at forbedre spilgrafik, tror jeg ikke, det virkelige potentiale ligger i at følge denne pipeline. Med det mener jeg, at det virker upraktisk at gengive et så detaljeret billede og derefter konvertere det til noget andet.

Ville det ikke være bedre at syntetisere et lignende kvalitetsbillede, men med meget mindre tid og kræfter på at designe spillet i første omgang? Jeg tror, ​​at det virkelige potentiale ligger i at gengive objekter med lave detaljer og lade det neurale net syntetisere det endelige billede fra denne gengivelse.

Så baseret på de semantiske etiketter, der er tilgængelige i datasættet bybilleder, segmenterede jeg objekter i et skærmbillede af GTA, der gav os en repræsentation af grafik med lav detalje. Overvej dette som en spilgengivelse af kun et par genstande, som vejen, bilen, huse, himlen osv. Uden at designe dem i detaljer. Dette fungerer som input til vores model for overførsel af billedstil i stedet for det meget detaljerede skærmbillede fra spillet.

Lad os se, hvilken kvalitet af de endelige billeder, der kan genereres fra semantiske kort med så detaljerede detaljer ved hjælp af CycleGANs.

Resultater af billedsyntese fra semantiske kort

Her er et par eksempler på, hvordan det ser ud, når vi genskaber GTA-grafik fra semantiske kort. Bemærk, at jeg ikke har oprettet disse kort manuelt. Det virkede kedeligt, så jeg lod simpelthen en anden CycleGAN-model gøre det (det er uddannet til at udføre billedsegmentering ved hjælp af bybilleder-datasættet).

Det ser ud som en god konvertering langt væk, men når man ser nøje, er det ganske indlysende, at billedet er falsk og mangler nogen form for detaljer.

Nu er disse resultater 256p og er genereret på en GPU med 8 GB hukommelse. Forfatterne af det originale papir har imidlertid vist, at det er muligt at oprette et meget mere detaljeret 2048 x 1024p-billede ved hjælp af en GPU med over 24 GB hukommelse. Det bruger den overvågede læringsversion af CycleGAN, kaldet pix2pixHD, der er uddannet til at udføre den samme opgave. Og dreng ser det falske billede ret pænt overbevisende ud!

Konklusion

GAN'er har stort potentiale til at ændre, hvordan underholdningsindustrien vil producere indhold fremover. De er i stand til at producere meget bedre resultater end mennesker og på meget kortere tid.

Det samme gælder også for spilindustrien. Jeg er sikker på, at dette om nogle få år vil revolutionere, hvordan spilgrafik genereres. Det vil være meget lettere at simulere den virkelige verden end at genskabe alt fra bunden.

Når vi først har nået det, vil udrulning af nye spil også være meget hurtigere. Spændende tider forude med disse fremskridt inden for dyb læring!

Flere resultater i videoformat

Alle ovenstående resultater og mere kan findes på min YouTube-kanal og i den video, der er integreret nedenfor. Hvis du kunne lide det, er du velkommen til at abonnere på min kanal for at følge mere af mit arbejde.

Tak fordi du læste! Hvis du kunne lide denne artikel, skal du følge mig på Medium, GitHub eller abonnere på min YouTube-kanal.