Citat:
Ursprungligen postat av
Ola Schubert
Är Japanska, tyska och engelska liknande varandra grammatiskt? Det handlar mer om den underliggande betydelsen i förhållande till andra ord i och mellan olika språk. Och att LLM strukturerar på detta sätt bör man ge modellerna credit för. Sedan är det en annan femma att generativ AI bl.a började just med översättningsprogram.
Tyska och engelska är närbesläktade, Japanska är inte samma språkträd men exemplet som gavs här är ytterst simplistiskt och ger inte speciellt mycket insyn i hur bra språkmodeller är på att översätta mellan engelska, tyska och japanska. (Men för den delen är det inte ett marsspråk och det finns självklart saker som uttrycks liknande där också).
Jag tänkte precis skriva följande:
Medans de här föreläsningarna är generellt korrekta som jag känner till ämnet, så är det så mycket som förenklas till den grad att det öppnar för missförstånd.
Tex Steve Moulds demonstration av hur neuroner fungerar med vätskor är totalt missvisande även om den på sätt är korrekt, det man måste ha klart för sig är att ”hemligheten” i artificiella neuroner är att aktiveringsfunktionen är ickelinjär, vilket inte exemplet här är alls utan i stället egentligen är en demonstration av OCH grindar (AND gates) i booleansk logik, det har inget med neuroner att göra men ändå jämförelsen inte helt ute och cyklar för att demonstrera just att neuroner ”buffrar” impulser tills de aktiverar men inte mer än så.
Precis lika så är demonstrationen av ordvektorer och kurvor (som faktiskt är vad som demonstrerades med glasskivan och språktavlorna), det är helt sant att det blir sådana klustringar men man berättar aldrig varför utan lämnar det öppet för tolkning som får folk att tro att det sker på något magiskt sätt bara neurala nätverk ser orden, det är statistik och ord som frekvent förekommer i samma sammanhang hamnar närmare varandra än ord som inte gör det, en språkmodell har inte en aning om hur en häst ser ut, den har inte en aning om hur en katt ser ut, men däremot har den sätt att ”hästen tillhör familjen hästdjur i hop med zebra, åsna…” osv när du tränar ett nätverk på dessa ofantliga mängder så kommer den ha sett ordet häst betydligt fler gånger ihop med åsna och zebra än ihop med katt, lejon, tiger osv precis som den sannolikt som det bör vara närmare positionerat med bil än med tex katt pga ”hästkrafter” osv.
Struktureringen har inget med LLMs eller det stora artificiella nätverket de har att göra överhuvudtaget och varför ska de ha ”credits” för det? Det är helt och hållet en produkt av word embeddingen (som ja LLMs använder, men word embeddings har använts sedan 2013 och uppfanns med word2vec, det är precis vad word2vec står för att ett ord ersätts med en vektor)
Det är det jag tycker är så fruktansvärt galet med det här överhuvudtaget varför tillskriver man algoritmer ”credits”, om något är det väl de som tagit fram algoritmerna som ska ha credits för det är dom som gjort tänkandet/upptäckten, det är de som vidare utvecklat och insett hur det går att använda.
Det är också felaktigt att stora språkmodeller uppfanns 2017 i och med transformers, det har funnits tidigare också RNN baserade sådana men däremot är det sant att språkmodellerna som finns idag är betydligt större och att transformern (fram tills senaste 2-3 åren) var det enda som kunde hantera så stora nätverk utan att gradienterna blev försvann, som de tidigare RNN modellerna hade problem med.
—
Vad det rör engelska och japansk översättning, så kan du googla på accuracy google translate ”japanese to english” den rankas ligga runt 55%, så tror du fortfarande att det magiskt råkar vara så att transformers (som google translate använder och var vad de dessutom uppfanns för) ”förstår” språken? Nej de hittar bara mönster och i bland fungerar det, i bland inte, det fungerar väldigt bra på närbesläktade språk som sagt.
Och här har du en video som går igenom word2vec väldigt tydligt,
https://www.youtube.com/watch?v=viZrOnJclY0 (Finns massor videos här, sen bli inte lurad av att det är som ett barnprogram, för det här är för vuxna kan jag lova

Och bara för att förtydliga, word embeddings är högst medveten design och inte någon ”emergent egenskap” som uppstått, det använder neurala nätverk också men det hade det inte behövt göra, neurala nätverk är väldigt minneseffektiva när man jobbar med stora mängder data (av anledningar jag inte orkar rabbla nu, men det du betalar för det är tillförlitlighet, det är därför det heter ”predict” i stället för ”lookup” eller dyl, du får inte alltid det värde du förväntat dig tillbaka, vilket i bland är önskvärt, i andra fall är det hela anledningen att man använder neurala nätverk eftersom de kan interpolera fram ett resultat utifrån de inputs de tidigare fått, som inte mer pålitliga tekniker kan alls- eftersom de inte hade varit pålitliga längre om de hittade på sina egna värden)