Citat:
Ursprungligen postat av
Ola Schubert
Fast det var ju just det jag frågade om: En, även LLM-Transformer, som kan tolka bilder, borde ju kunna tolka en bild med text, mer övergripande, precis som vi gör. Du har ju, vid något tillfälle, skrivit att du arbetar med bildbehandlande modeller. Men det kräver å andra sidan att modellerna, själva kan ändra analys sätt beroende på typ av input. Men redan idag kan ChatGPT-4o avgöra om det behövs en webbsökning. Sedan om det alktid blir rätt alla gånger i slutändan, det vet i fan.Det beror ju på val av källa vilket, inte alla gånger, behöver vara forskningsrapporter. Vad gäller tolkning av djurs läten så borde ju god mönsterigenkänning vara till god hjälp. Men om jag diskuterat det på Flashback, kommer jag inte ihåg.
Objekt igenkänning tex ja, men det behövs inga transformers till det och transformer nätverken är ärligt talat markant sämre, i bästa fall kan de tolka en bild men ber du den tex ringa in alla personer med hatt så kan den inte det för den har inte en aning om vad den egentligen ser utan spottar ur sig tränade saker utifrån mönster den känner igen.
Medan de inte har några som helst problem att tex manipulera en text du ger den, de kan heller inte rita om en bild i en annan stil så som tex diffusions modeller kan göra osv. Multimodala språkmodeller är precis lika nischade som övriga modeller även om de försöks säljas in som något annat. Precis som man för drygt två år sedan påstod att språkmodellerna skulle bli fantastiskt smarta när de blev multimodala, de skulle kunna generalisera över flera dimensioner förstå verkligheten... inget av detta var sant och det kunde vem som helst som har minsta förståelse för tekniken räkna ut med röven långt innan det.