AI-genererad text i bildform - Varför blir det alltid fel?

2023-10-30, 12:26 #1

Medlem

Reg: Okt 2007

Inlägg: 139

Jag har använt ett par av de vanligaste AI-verktygen för att generera bilder, och det är ju rätt otroligt vad de kan åstadkomma på bara några få sekunder.

Men när det kommer till att generera text i en bild, så blir det nästan alltid felstavat. Hur kommer detta sig, och har ni något tips på vad man kan göra för att det ska bli rätt?

Exempel: Jag promptar en AI bildgenerator med "Skapa en bild på en skylt med texten "Flashback"", och det AI:n spottar ur sig är en bild på en skylt med texten "Flaahbeck" eller valfri variation, det blir nästan adrig rätt, trots att jag använder citat-tecken i min prompt.

Citera

2023-10-30, 12:34 #2

Medlem

Reg: Aug 2023

Inlägg: 1 929

Citat:

Ursprungligen postat av JojjE_

Jag har använt ett par av de vanligaste AI-verktygen för att generera bilder, och det är ju rätt otroligt vad de kan åstadkomma på bara några få sekunder.

Men när det kommer till att generera text i en bild, så blir det nästan alltid felstavat. Hur kommer detta sig, och har ni något tips på vad man kan göra för att det ska bli rätt?

Exempel: Jag promptar en AI bildgenerator med "Skapa en bild på en skylt med texten "Flashback"", och det AI:n spottar ur sig är en bild på en skylt med texten "Flaahbeck" eller valfri variation, det blir nästan adrig rätt, trots att jag använder citat-tecken i min prompt.

Kortfattat för att generativ AI inte vet vad den gör egentligen, den försöker skapa en bild som uppfyller så mycket av prompten den kan baserat på träningsdata men precis som språkmodellerna så ser den inte vad den skapar, den har ingen aning om vad det faktiskt föreställer.

Du kommer ha samma svårigheter om du försöker skapa en viss mängd av objekt eller mer intrikata detaljer på objekten.

Du får lära dig använda photoshop om du vill fixa sådant.

Citera

2023-10-30, 12:40 #3

Medlem

Reg: Jan 2014

Inlägg: 486

Föregående svar är egentligen nog och svarar på TS.
Men kan tillägga för skojs skull det "kinesiska rumsargumentet".

Citat:

Ursprungligen postat av https://plato.stanford.edu/entries/chinese-room/

Searle imagines himself alone in a room following a computer program for responding to Chinese characters slipped under the door. Searle understands nothing of Chinese, and yet, by following the program for manipulating symbols and numerals just as a computer does, he sends appropriate strings of Chinese characters back out under the door, and this leads those outside to mistakenly suppose there is a Chinese speaker in the room.

The narrow conclusion of the argument is that programming a digital computer may make it appear to understand language but could not produce real understanding.

Det understryker egentligen bara vad BeneathTheSurface skrev.
AI:n förstår inte vad den egentligen gör. Den skickar bara ut symboler efter vad den har lärt sig känna igen och detta är nog för att lura oss att tro att den vet vad den gör.

Citera

2023-10-30, 14:03 #4

Medlem

Reg: Okt 2023

Inlägg: 1 126

Fast det är egentligen väldigt knepigt att AIn inte fattar denna enkla sak.
Jag försökte flera gånger göra en företagslogga.
Jag beskrev färg, form etc, och den gjorde det perfekt på så himla många sätt.
Men när jag klart och tydligt förklarar för den att det ska vara en enkel text där det står "Flashback AB" under loggan så slänger den ihop bokstäverna helt och hållet.
Skulle tro att detta var den enklaste delen när AIn är såpass smart, men tydligen inte.

Citera

2023-10-30, 15:01 #5

Medlem

Reg: Mar 2011

Inlägg: 1 046

Citat:

Ursprungligen postat av SmegmaFri

Fast det är egentligen väldigt knepigt att AIn inte fattar denna enkla sak.
Jag försökte flera gånger göra en företagslogga.
Jag beskrev färg, form etc, och den gjorde det perfekt på så himla många sätt.
Men när jag klart och tydligt förklarar för den att det ska vara en enkel text där det står "Flashback AB" under loggan så slänger den ihop bokstäverna helt och hållet.
Skulle tro att detta var den enklaste delen när AIn är såpass smart, men tydligen inte.

AI'n är inte smart, inte på något vis. Att kalla den "artificiell intelligens" var nog det dummaste man kunde göra, det har fått folk att tro på fullaste allvar att det finns någon form av intelligens där.

Citera

2023-10-30, 15:18 #6

Medlem

Reg: Maj 2005

Inlägg: 28 094

haha dezgo gjorde sveriges flagga tvärtom...

Citera

2023-10-30, 18:41 #7

Medlem

Reg: Jun 2007

Inlägg: 1 192

De bildgenererande AI-tjänsterna är olika bra på att skapa text i bilderna. Bäst just nu skulle jag säga är https://www.bing.com/create och https://ideogram.ai/t/trending .

Mitt första försök med prompten "Skapa en bild på en skylt med texten "Flashback" " via Bing/Dall-E 3 gav mig en lyckad, två halvlyckade och en misslyckad bild. https://www.bing.com/images/create/s...P&mode=overlay

__________________
Senast redigerad av Svampspor 2023-10-30 kl. 19:04.

Citera

2023-10-30, 20:52 #8

Medlem

Reg: Jul 2005

Inlägg: 16 551

Citat:

Ursprungligen postat av JojjE_

Jag har använt ett par av de vanligaste AI-verktygen för att generera bilder, och det är ju rätt otroligt vad de kan åstadkomma på bara några få sekunder.

Men när det kommer till att generera text i en bild, så blir det nästan alltid felstavat. Hur kommer detta sig, och har ni något tips på vad man kan göra för att det ska bli rätt?

Exempel: Jag promptar en AI bildgenerator med "Skapa en bild på en skylt med texten "Flashback"", och det AI:n spottar ur sig är en bild på en skylt med texten "Flaahbeck" eller valfri variation, det blir nästan adrig rätt, trots att jag använder citat-tecken i min prompt.

Det beror väl på den associativa karaktären hos bildgeneratorn. Exakt detta har stört mig också när jag bett t.ex. Bing skapa en logotyp. Idiot-programmet kan ju inte ta instruktion på vilket ord som logotypen ska inkludera. Alltid som någon jävla feberdröm.

Citera

2023-10-31, 10:37 #9

Medlem

Reg: Okt 2007

Inlägg: 139

Citat:

Ursprungligen postat av BeneathTheSurface

Kortfattat för att generativ AI inte vet vad den gör egentligen, den försöker skapa en bild som uppfyller så mycket av prompten den kan baserat på träningsdata men precis som språkmodellerna så ser den inte vad den skapar, den har ingen aning om vad det faktiskt föreställer.

Du kommer ha samma svårigheter om du försöker skapa en viss mängd av objekt eller mer intrikata detaljer på objekten.

Du får lära dig använda photoshop om du vill fixa sådant.

Photoshop kostar ju en jäkla massa pengar, hade varit skönt om man slapp lägga ut det bara för att fixa till en felstavning.

Citera

2023-10-31, 10:38 #10

Medlem

Reg: Okt 2007

Inlägg: 139

Citat:

Ursprungligen postat av Svampspor

De bildgenererande AI-tjänsterna är olika bra på att skapa text i bilderna. Bäst just nu skulle jag säga är https://www.bing.com/create och https://ideogram.ai/t/trending .

Mitt första försök med prompten "Skapa en bild på en skylt med texten "Flashback" " via Bing/Dall-E 3 gav mig en lyckad, två halvlyckade och en misslyckad bild. https://www.bing.com/images/create/s...P&mode=overlay

Bing använder väl Dall-E 3, samma som openAI, så den har jag redan testat. Tycker att den gör ganska tråkiga bilder om man jämför med Midjourney 5.

Citera

2023-10-31, 11:27 #11

Medlem

Reg: Jun 2007

Inlägg: 1 192

Citat:

Ursprungligen postat av JojjE_

Bing använder väl Dall-E 3, samma som openAI, så den har jag redan testat. Tycker att den gör ganska tråkiga bilder om man jämför med Midjourney 5.

Dall-E 3 som också går att använda ihop med ChatGPT 4 gör långt ifrån tråkiga bilder. Det enda tråkiga med Dall-E 3 är censuren som känns lite slumpmässig emellanåt. Midjourney kan förvisso göra snygga bilder, men den oskäligt höga prissättningen och den begränsade kontrollen av slutresultatet får mig att välja bort tjänsten. Bing/Dall-E 3 är i dagsläget helt gratis, så länge man har ett Microsoftkonto.

Citera

2023-10-31, 11:59 #12

Medlem

Reg: Aug 2023

Inlägg: 1 929

Sätt upp Stable Diffusion XL på din lokala dator i stället, det är ändå vad midjourney osv bygger på (sen finns det mängder med modeller beroende på vad du vill generera, men det är inte magiskt de kan inte skapa något som de inte redan sett, det kombinerar det dock på sätt som inte setts tidigare, det är också därför du i bland får "signaturer" i nedre högra hörnet på vissa bilder du skapar), har du bara ett hyfsat grafikkort så tar det bara någon minut.

Citera

AI-genererad text i bildform - Varför blir det alltid fel?

Skapa ett konto eller logga in för att kommentera

Skapa ett konto

Logga in