Jag har bara kört text2video med Sora, men jag vet att man kan ladda upp bilder som ska kunna användas som bas på något sätt, men vet inte hur det fungerar.
Att fixa till foto är något helt annat. Gpt4o kan göra en del bildbearbetning, men det är främst till för bildgenerering, samt lite extra, som outpainting. Annars finns det kommersiella program, tex från Adobe, men även andra gratis varianter,
För lokala program för video rekommenderar jag Framepack för att animera en befintlig bild, och Wan2.1 för text2video, men även där kan man använda bilder som referens.
När det gäller bildförbättring så rekommenderar jag Finegrain Image Enhancer (clarity-refiners-ui).
Sen kanske även MMAudio, som skapar ljud till ett filmklipp.
Dom lokala varianterna kan man enklast köra via Pinokio:
https://pinokio.computer/
Och där finns även en massa annat, som Flux/Forge eller ComfyUI om man vill hålla på med text2image.
Att köra lokalt kräver att man har resurserna att göra det, men dom flesta av AI systemen kan man komma igång med redan med relativt lite resurser, men för att det ska bli "snabbt" och effektivt så behövs det oftast mer.