Citat:
Det går tex. inte att säga "den här dimensionen betyder lycka", inte heller går det att beskriva likheten mellan "hund" och "katt" i vektorrummen, mer än att dom ligger nära varandra eftersom de ofta förekommer i liknande sammanhang.
Så ord som "Doktor" och "Sjuksyster" ligger nära varandra i många vektorrum, inte för att modellen "förstår" medicinsk vård eller kön, utan endast för att dessa ord förekommer i liknande sammanhang i dom texter modellen blivit tränad på.
Så ord som "Doktor" och "Sjuksyster" ligger nära varandra i många vektorrum, inte för att modellen "förstår" medicinsk vård eller kön, utan endast för att dessa ord förekommer i liknande sammanhang i dom texter modellen blivit tränad på.
Det är inte frågan om vektorrum/vektorrymdar, utan en enda stor rymd och vi kan inte visualisera/begripa det eftersom det rör sig om tusentals "dimensioner" i den vektorrymden.
Precis som du säger så grupperas "ord" (egentligen tokens då) som förekommer i samma sammanhang närmare varandra, det är ingen "emergent" egenskap som många verkar tro- dvs att modellerna på något sätt "lär sig" göra detta, det är en konsekvens av embedding (dvs att konvertera tokens till numeriska sekvenser/vektorer).
Som idé funnits sedan 80 talet och word2vec blev den mest kända versionen, 2013.
Citat:
Det stämmer ju inte helt. En populär metod för att förstå LLMs bättre är ju att flytta värdet i en riktning i en av dimensionerna, och då kan man t. ex. se hur ordet går från flicka, tjej, kvinna till tant. Man kan även göra samma med de diffusion modeller och tex ändra just lyckan eller ålder på objektet.
Det är missförstånd så det är galet om sådant här, det hjälper inte förstå "LLMs" ett dugg och det har inget med LLMs att göra alls egentligen som jag skrev i ovanstående citat...