Julpyssel med AI

Hur bra är Gemini 3 och nya ChatGPT på bild? Jag har testat.

Googles senaste version av Gemini 3 Pro, med bildverktyget “Nano Banana” har tagit världen med storm och enligt ryktet orsakat “kod röd” hos OpenAI. Nu har svaret precis kommit: ChatGPT Images. Jag blev nyfiken på att testa hur en annan sorts kod röd, nämligen julen, ser ut i AI.

Min utgångspunkt: Fem typiska julinspirerade fall.

Målet: Att se hur bra AI verkligen är på bild utifrån att…

kunna skapa nytt,
bibehålla porträttlikhet,
möjlighet att redigera och
hur verklighetstroget det blir.

Mina testfall:

Skapa julkort
Julhälsning med egen bild
Redigera julfoto
Infografik julmat och tomtehistoria
Julinspirerad video

Utöver Gemini och ChatGPT har jag i vissa fall gjort jämförelser med AI-bildverktyget MidJourney. Testet är gjort på Pro-versioner av samtliga verktyg.

Promptar för bild och text skiljer sig åt så gamla sanningar och checklistor gäller inte. Istället behöver man vara ännu tydligare med vilket resultat man vill åstadkomma, hur det ska användas och hur bilden ska vara uppbyggd visuellt: motiv, ljuskälla, stil, format och så vidare. En tumregel är att tala som en människa, men tänka som en kreatör.

Lyckligtvis går det att hitta bra tips på hur man ska titta online. Google har en utmärkt guide på X med tips på hur man lyckas som även går att använda i de andra verktygen med gott resultat.

Skapa julkort från grunden

Första testet var att skapa julkort från grunden. Jag bestämde mig för att skapa en fotorealistisk bild i ett skandinaviskt vinterlandskap i eftermiddagsljus med texten God Jul och Gott Nytt År, vilket jag beskriver i prompten. Här är resultatet i tre olika verktyg.

Gemini 3

Prompt: Harness native high-fidelity output to craft a breathtaking, atmospheric environment of a beautiful Scandinavian snow covered forest. The sky should be Nordic December red and pink. Command complex lighting effects and delicate textures, ensuring the glistening snow of light is rendered in pixel-perfect resolution suitable for a 4K wallpaper. There should be the text "God jul och gott nytt år" in the picture. a wide silent creek meandering through a winter wood, Christmas card style with the sun setting above a snowy mountain ridge in the background . On the right shore is an old wooden sign with the text "God Jul och Gott Nytt År!"

ChatGPT Images

Midjourney

Prompt: A wide silent creek meandering through a winter wood, Christmas card style with the sun setting above a snowy mountain ridge in the background. On the right shore is an old wooden sign with the text "God Jul och Gott Nytt År!"

Oavsett verktyg blir bilderna bra, men med olika styrkor och svagheter. Geminis version är snygg men texten placeras på en träplanka i bilden, vilket blir lite märkligt i ett julkort. ChatGPT genererade det i mitt tycke vackraste julkortet, men minst realistiskt och i stående format, vilket jag inte bett om men som verkar vara default-läget. Midjourney skapar det den mest verklighetstrogna bilden utifrån en beskrivning av motivet och kan fås i högupplöst format, vilket är nödvändigt för att användas professionellt. Däremot klarar den inte av text utan det skulle behövas hanteras i ett annat verktyg, exempelvis Photoshop. Många väljer kanske att generera bilden direkt i Adobe Firefly, som klarar både text och bild direkt. Alternativt kan man putsa till Midjourney-bilden med Photoshop, vilket många redan gör.

I samtliga fall skulle bilderna förmodligen blivit bättre om jag fortsatt att iterera resultaten och arbeta om prompten, men för den här övningen har jag nöjt mig med de första resultaten.

Tips! Välj verktyg efter användningsområde. Privat duger ChatGPT och Gemini alldeles utmärkt, men för professionell användning är Midjourney fortfarande att föredra, men ovan nämnda förbehåll.

Julhälsning utifrån en egen bild

Mitt andra test var att skapa en julhälsning utifrån mitt eget foto. Än så länge har Gemini varit det AI-verktyg som klarat det bäst, men ChatGPT har börjat komma ikapp och har till och med en färdig mall för julkort i sitt bibliotek.

Jag började med att testa en standardprompt från Google för att generera en bild som rekommenderas som Thumbnail för Youtube, men som jag tyckte kunde passa även som julkort. Det första problemet jag stötte på var att Gemini ansåg att jag var en offentlig person och därför inte kunde skapa bilder med utifrån mitt foto. Det har hänt tidigare att Gemini tror att jag är artisten Lotta Engberg så jag fick testa att ladda upp olika bilder tills en av dem accepterades. Frustrerande så klart och märkligt. Jag tycker ärligt talat inte att jag och Lotta är särskilt lika. Min man, tillika partner på Brainless, håller med. Som före detta klasskamrat till Lotta borde han veta vad han talar om!

Här är originalbilden och resultatet. Jag tycker att porträttlikheten behålls ganska väl men efter ett par iterationer avtar den.

Gemini

Prompt: Design a viral video thumbnail using the person from uploaded image. Keep the person's facial features exactly the same as Image but change their expression to look excited and surprised.: Pose the person on the left side, pointing their finger towards the right side of the frame. On the right side, place a high-quality image of a delicious gingerbread man with frosting. Add a bold red arrow connecting the person's finger to the toast. Text: Overlay massive, pop-style text in the middle: 'Happy Holidays!'. Use a thick white outline and drop shadow. Background: A blurred, bright kitchen background. Cosy like in a luxurious ski cabin. High saturation and contrast."

Jag bad även om en mer traditionell version av julhälsning från samma originalfoto med följande resultat. Inte helt likt men fullt användbart.

Prompt: Please create a Christmas Card featuring the woman in the uploaded image, keep her person's facial features the same. The woman should be dressed in a deep red, white fur trimmed Santa Claus suit. Her facial expression should be friendly, warm and sweet. Since it is a Christmas Card, please have the words "Merry Christmas" in Monserrat font visible in the image. Format 16:9.

ChatGPT

När jag testade med samma orignalbild och prompt i ChatGPT blir resultatet mer porträttlikt, men bilden är lite utdragen ut på ett konstigt sätt, liksom min näsa. Dessutom har AI valt att ge mig fler rynkor och skönhetsfläckar än vad ursprungsbilden visar, vilket inte är så smickrande, men förmodligen skulle kunna förbättras om jag bad om det. En fördel är att ChatGPT genererar bilden mycket snabbare än tidigare versioner. Enligt OpenAI är den fyra gånger snabbare, och snabbare än i Gemini.

I slutändan fungerade det bra att skapa nya AI-bilder utifrån uppladdade fotografier med bibehållen porträttlikhet, men så fort komplexiteten blir resultatet mer generiskt. Jag testade till exempel att ha fler personer i bild, vilket gick bra i båda verktygen, men så fort jag itererade eller lade till ytterligare en bild, som en logotyp, blev det inte lika bra. Porträttlikheten, typsnittet och logotyp höll inte måttet. Ju mer kontroll du behöver, desto svårare blir det..

Tips! Håll det enkelt för att få så bra resultat som möjligt. Fundera på vad som är viktigast – porträttlikhet, font, format – och vilka avkall du kan tänka dig att göra.

Redigera julfoto

Gemini har ibland beskrivits som en utmanare till Photoshop eftersom det går att redigera bilder med verktyget. Med nya ChatGPT finns samma funktionalitet. Jag har testat hur pass bra det faktiskt blir genom att be AI redigera ett foto från julafton 2024.

Det var ingen vit jul förra året. Därför var den första ändringen att göra utomhusmiljön mer vintrig. Här levererar Gemini klart bäst. Medan porträttlikheten och miljön behålls i båda bilderna följer Gemini instruktionen att göra utomhusmiljön vinteranpassad. ChatGPT skapar också snö men inomhus såväl som utomhus. Det var inte riktigt vad jag ville ha, men helt i linje med hur AI fungerar även i andra sammanhang, det vill säga det som kallas hallucinationer och syns för tex, kod och andra tillämpningar.

Gemini till vänster, ChatGPT till höger.

Jag testade att ersätta paketen i fotot med en julbukett i båda verktygen. Här levererade istället ChatGPT något bättre. Buketterna ser visserligen påklistrade ut i båda fallen, men händerna blev klumpigare i Gemini.

Jag kan ändå konstatera att redigeringsfunktionen blir allt bättre i AI-verktygen om man inte har alltför stora krav på att det ska se verklighetstroget ut.

Tips! Fundera på hur du vill använda resultatet och välj verktyg som passar bäst.

Infografik: julmat och tomtehistoria

Det kanske inte är så många som gör infografik inför julen men det kändes roligt att testa, eftersom det är en funktion som Gemini anses vara riktigt bra på. Du har kanske sätt CV:n utformade som kartor av Middle Earth från Sagan on ringen eller bilder på dekonstruerade hamburgare skapade med Geminis infografik?

Janssons frestelse som infografik skapad med Gemini

Jag valde först att ta fram infografik av beståndsdelarna i en Janssons frestelse genom att beställa fotorealistisk bild av de olika lagren med pedagogiska texter om vad de består av. Resultatet blev – en överraskning! Infografiken är visserligen väldigt snygg men samtidigt ser den helt galen ut för en Jansson-älskare, och väldigt kul! Det är uppenbart att AI inte ”förstår” hur en Jansson egentligen är uppbyggd. Jag hade förmodligen kunnat få ett mer realistiskt resultat om jag gett en mer detaljerad beskrivning av hur de olika lagren i en Janssons frestelse ser ut.

Prompt: "Please create a hyper-realistic infographic of ingredients in a traditional Swedish dish called Janssons Frestelse, deconstructed to show the texture of the potatoes, soft cream, the seared salty anchovy, crispy onion. Label each layer with its flavor profile."

Infografik Prinsesstårta...

Desto bättre fungerade det med en traditionell svensk prinsesstårta. Den kanske inte finns på allas julbord men min mormor brukade alltid ha med sig en på julafton. Den här infografiken avbildade på ett bättre sätt de olika lagren i prinsesstårtan, förmodligen en enklare uppgift. Det är fortfarande verklighetstroget lagren ser ut att vara gjorda i plast. Men det är ändå ganska charmigt och en bra användning av AI tycker jag!

...enligt Gemini

Prompt: Create a hyper-realistic infographic of a Swedish Princess Cake, deconstructed to show the texture of the soft sponge cake, the savory layer of strawberry jam, the creamy white whipped double cream, rich layer of vanilla custard and glossy marzipan layer on top with powdered sugar sprinkled over it and crowned with a deep red beautiful marzipan rose. Label each layer with its flavor profile. Bild skapad med Gemini.

,,enligt ChatGPT.

Hur väl står sig ChatGPT? Det blev en fin bild men ännu mindre realistisk.

(Samma prompt som ovan)

Infografik över den svenska jultomtens historia...

...enligt Gemini...

...och enligt ChatGPT.

Jag testade en annan julinspirerad infografik: den svenska jultomtens historia. Instruktionen var att dela upp den i tre moment: tomtens ursprung, svensk tradition och Coca Cola-eran. Den skulle vara i samma stil som Jenny Nyström, som gjort många av de tomte-illustrationer som fortfarande är populära idag. Bild, text och typsnitt skulle vara i stil från tidigt 1900-tal då hon verkade. Här tycker jag faktiskt att ChatGPT lyckades något bättre, men det är en smaksak.ChatGPTs tolkning.

Slutsatsen blir ändå att Geminis infografik är bättre än ChatGPT när det gäller infografik, särskilt fotorealistisk, men att ChatGPT klarar sig hyfsat, eller till och med bättre, för illustrationer.

Tips! Prova dig fram till vilket verktyg som levererar bäst och var så noga som möjligt med instruktionen. AI förstår inte vad den producerar och det kan lätt bli väldigt missvisande. För professionella ändamål skulle jag ändå utgå från Gemini och de prompt-tips för infografik som finns på exempelvis X.

Julinspirerad video

Slutligen har jag testat att skapa en julinspirerad video med Gemini VEO3. Tyvärr har jag fortfarande inte tillgång till Open AIs SORA 2 och kan avgöra hur de skiljer sig åt kvalitetsmässigt.

För prompten har jag använt samma princip som för bilder: tydlig beskrivning av resultat, hur filmen ska användas (i sociala medier), motiv, format et cetera. Jag valde att använda samma profilbild av mig själv som i det första exemplet och har bett om porträttlikhet. Jag bad även AI att skapa matchande julmusik. För att det ska bli bra behöver man även välja alternativet Tänkande modell i promptmenyn.

Nedan är resultatet. Det blev snyggt även om jag ser lite ”uncanny valley” ut. Det är svårt att styra hur jag ska röra mig, var jag ska rikta blicken, leende med mera utan att se overklig ut. Att filmen ”glitchar” mitt i förstärker den overkliga känslan. Jag är ändå nöjd med det Hollywood-glammiga resultatet och att det blev så likt trots att utgångspunkten bara var en profilbild!

Prompt: Please create a video featuring the woman in the uploaded image, keep her person's facial features the same. The woman should be dressed in a deep red, white fur trimmed Santa Claus suit. Her facial expression should be friendly, warm and sweet but not flirty. Let her smile and nod her head a bit while looking at the audience. If possible, add a cheerful Christmas tune to go with the video.

En nackdel med VEO3 är att det maximalt går att skapa tre videos per dygn, vilket innebär att det inte finns så stora marginaler att göra fel. Det är frustrerande, men tvingade mig att faktiskt tänka till på hur prompten skulle se ut för att fungera.

Även om resultatet är bra, går det inte att helt kontrollera resultatet. Det bästa är kanske att inte försöka få det så realistiskt som möjligt – där går AI snabbt bet. Istället kan det vara värt att utnyttja styrkan i AI, att göra till synes omöjliga eller lite galna saker.

En snabb jämförelse med Midjouney. Inte lika många features och svårare att kontrollera, men klart överlägsen bildkvalitet.

Prompt: The woman, keep her person's facial features the same. The woman should be dressed in a deep red, white fur trimmed Santa Claus suit. Her facial expression should be friendly, warm and sweet but not flirty. Let her smile and nod her head a bit while looking at the audience.

Midjourney vill ha en bild som "frö" till videon, och där kom tomten på köpet. Det skapar möjligheter men också begränsningar.

Tips! Använd Geminins ”tänkande modell” för att skapa video. Det tar längre tid men blir bättre resultat eftersom den gör en mer noggrann analys innan videon skapas. Ett annat tips är att låta AI göra tokiga videos som kan få spridning för att de är kul snarare än att bli frustrerad över bristerna.

Summering – bild går framåt men bäst när det syns att det är AI

Kampen hårdnar bland techjättarna om att ta marknadsandelar i AI-racet. Bild ligger i frontlinjen och konkurrensen från Google driven av Gemini Flash (Nano Banana) har varit kännbar för Open AI, även om de fortfarande är marknadsledande.

När det gäller själva AI-verktygen är Midjourney än så länge bäst på att skapa professionella, högupplösta bilder men har sin svaghet inom redigering, porträttlikhet och text. Geminis styrka ligger i att den oftare behåller porträttlikhet men bara om man är extremt tydlig i prompten. Däremot är den långt ifrån den kvalitet som exempelvis Photoshop och Adobe Firefly kan leverera. OpenAIs nya ChatGPT Image ser lovande ut. Det återstår att se hur väl ChatGPT Image kan hävda sig.

Generellt gäller att så länge AI inte förstår vad den gör kan den inte heller leverera exakt de resultat vi vill. Vi stöter på samma begränsningar för bild och video som för till exempel text och kod. Beroende på dina krav på exakthet kan den missa målet att leverera produktionsklar kvalitet. Bäst fungerar det när det får synas att det är AI som gjort jobbet och tillvarata dess styrkor snarare än att irritera sig på begränsningarna.

Hur som helst finns det mycket roligt att prova på kring bild med AI just nu, och mer är att vänta framöver.

Lycka till med julpysslandet, med eller utan AI. Och... man måste inte ha AI för att skapa galna julbilder:

God jul och gott nytt år önskar Brainless!

Tags:

Post by Eva-Mia Westergren
2025-12-18 01:35

AI-strateg, marknadschef, talare

Julpyssel med AI