Citat:
Ursprungligen postat av
BeneathTheSurface
Ja alltså… modeller som Sora, Sora2 osv kan verka imponerande men eftersom de alla bygger på transformers… så lär det dröja hundratals om inte tusentals år innan hela filmer görs med dom.
(Och det är under förutsättning att allt som genereras är perfekt)
Transformers skalar tyvärr kvadratiskt, det är inte en slump att nästan allt AI genererat enbart är några sekunder, minneskraven (och där med också prestanda) ökar något enormt, 5-10 sekunder är rimligt med ett bra grafikkort idag, 10-20 med det värsta som finns på marknaden….
Så vad kan man göra då? Inget eftersom tekniken är helt trasig i det här hänseendet med vad man vet idag, det går liksom inte generera 10 sekunder och fortsätta med sista bildrutan på sekund 10 och generera 10 sekunder till osv… för modellen förstår inte vad som händer och i stället får man konstiga rörelse, händelser osv.
Så nej inga långfilmer kommer produceras med den tekniken.
Jag tillhör varken skeptiker eller de som är överdrivet övertygade om att AI kan göra allt "nästa år" eller med "nästa modell" men jag vill jag lägga fram en liten tanke. Jag ser inte att vi kommer att gå från att inte kunna göra en hel film till att kunna promta den och få den i ett oneshot. Det klarar precis som du säger inte modellerna. Men jag kan se en teknisk lösning framför sig där den segmenterar och delar upp uppgiften i milestones och använder fler verktyg än bara generering för att göra filmen. Det skulle kunna se ut så här.
Prompt: Gör en 10 minuter lång film om en rosa katt som bygger en raket och flyger till mars.
1. Prompten går först till en LLM som skriver ett manus för en 10 minuter lång film. (kan göras idag)
2. Samma LLM konverterar manus till en shotlist (kan göras idag).
3. LLM gör beskrivningar på objekt som ska vara med i filmen och resonerar sig fram till att den behöver rendera referenser som stillbilder och tar fram en lista på vad som ska få roffar.
4. En bildgenererare renderar ut bilder på den rosa katten, rymdraketen, de andra karaktärerna, lauchpad, Jorden, Mars, interiört rymdraketen, rymddräkten och så vidare
5. En lista med prompts för varje tagning genereras.
6. Listan går in i Sora4/higgsfield6/Runway7 eller whatever tillsammans med reffarna.
7. Varje tagning är ett "eget jobb" och därmed så måste man bara ta höjd för att bildmodellen ska klara 10 kvalitativa sekunder. Inte 10 minuter. (konsistens är key med det börjar bli bra)
8. Nu finns det 150 separata klipp renderade.
9. En ny modell tar över igen och sorterar upp klippen och gör någon form av klippning/trimmning och val av vinklar baserat på att den är tränad på just detta.
10. Fine tuning. Nu är en film grovklippt. Först görs en dialouge-run där filmen åter igen styckas upp och dialog putsas så det matchar ansiktsrörelser. Sedan en SFX run där ljudeffekter läggs på och sedan en music-run för genererad musik.
Det här är ingenting som kommer finnas "nästa år". Jag tror det tar mer tid än vad evangelisterna tror men jag tror att smarta människor kommer att titta på problemet med transformers och lösa det genom smart segmentering.