Det som står i titeln tar kål på mig helt och hållet.
Man skriver i prompten om vad för text som ska finnas i bilden, texten blir något helt annat eller så blir det rätt men då blir resten helt knas.
Senast bad jag om en bild som skulle skriva mitt namn, ett namn på 6 bokstäver, vanligt svenskt/kristet namn.
Vad jag fick i bilden var: "Hooegusensw". (DALL-E 3)
Tar gärna emot era erfarenheter av usel textgenerering i bilder samt tips om vilka tjänster som faktiskt är bra på detsamma.
Har testat de stora lokala sakerna under Stable Diffusion (ComfyUI, InvokeAI, Automatic 1111 etc).
Tips på modeller (från t.ex Huggingface) som är bra för bildgenerering med text tas även emot!
FLUX, o.s.v. verkar ju vara jävligt mycket sämre på just det, än modellerna från OpenAI och Google.
Vill du generera en bild med text, testa en annan leverantör. Har själv perplexity och texten i bilderna blev mycket bättre efter att dom bytte från Flux till OpenAI (4o) för bilderna.
A realistic photo of an almost closed cardboard pizza box on a rustic wooden table. Inside the box is a classic pepperoni pizza, with melted cheese and crispy edges, slightly steaming. A ghostly, semi-transparent cat with faint glowing edges is emerging from or hovering just above the box — its form ethereal, with wispy fur and faintly visible bones in some areas. The cat appears to be sniffing or lightly biting a slice of the pizza. The lighting is moody and cinematic, with a soft ambient glow highlighting the steam and spectral form. Subtle shadows enhance the realism. The setting is minimalist, drawing full attention to the surreal moment. Atmospheric particles or faint quantum-like glimmers around the cat add a hint of mystery. With the text Shrödinger's Pizza on the box.
Lokala varianter långt ifrån lika bra, och kräver att man kör stora modeller och gör flera exempel innan man får en bra variant. Men det går.
Jag kör Flux i Forge med största modellen & Text Encoding (fp16, t5xxl_fp16) som kräver att man har mycket resurser, helst 128GB ram, och det fungerar bra ibland med text, men vill man ha text så känns onlinemodellerna bättre. Finns säkert någon LORA som gör Flux bättre, men har inte kollat upp det eftersom jag inte haft det behovet.
Fast detta är bara en fråga om tid. För ett halvår sedan var inte ChatGPT bra på text heller.
Flashback finansieras genom donationer från våra medlemmar och besökare. Det är med hjälp av dig vi kan fortsätta erbjuda en fri samhällsdebatt. Tack för ditt stöd!