LLM för nybörjare

2023-12-31, 08:26 #13

Medlem

Reg: Sep 2003

Inlägg: 25 962

Citat:

Ursprungligen postat av BeneathTheSurface

Det är väldigt hur ANNs fungerar, för ANNs (undantaget SNNs som fortfarande är på experiment stadie) gör precis motsatsen till vad du säger de avfyrar med ”styrka”.
Och ja hjärnan fungerar inte så utan det kommunicerar med frekventa pulser där både mönster och frekvens spelar roll, så det är mer som morse.

Och det här med ords plats i planet, det har sagts om och om igen här och det är en biprodukt av deras position i meningar, det stämmer inte att det gäller mellan alla mänskliga språk utan enbart mänskliga språk som är grammatiskt relaterade och det är återigen den egenskapen som gjordes att tekniken/transformers utvecklades, det var avsett för att förbättra maskinöversättning mellan språk.

Är Japanska, tyska och engelska liknande varandra grammatiskt? Det handlar mer om den underliggande betydelsen i förhållande till andra ord i och mellan olika språk. Och att LLM strukturerar på detta sätt bör man ge modellerna credit för. Sedan är det en annan femma att generativ AI bl.a började just med översättningsprogram.

Citera

2023-12-31, 08:46 #14

Medlem

Reg: Aug 2023

Inlägg: 1 928

Citat:

Ursprungligen postat av Ola Schubert

Är Japanska, tyska och engelska liknande varandra grammatiskt? Det handlar mer om den underliggande betydelsen i förhållande till andra ord i och mellan olika språk. Och att LLM strukturerar på detta sätt bör man ge modellerna credit för. Sedan är det en annan femma att generativ AI bl.a började just med översättningsprogram.

Tyska och engelska är närbesläktade, Japanska är inte samma språkträd men exemplet som gavs här är ytterst simplistiskt och ger inte speciellt mycket insyn i hur bra språkmodeller är på att översätta mellan engelska, tyska och japanska. (Men för den delen är det inte ett marsspråk och det finns självklart saker som uttrycks liknande där också).

Jag tänkte precis skriva följande:

Medans de här föreläsningarna är generellt korrekta som jag känner till ämnet, så är det så mycket som förenklas till den grad att det öppnar för missförstånd.

Tex Steve Moulds demonstration av hur neuroner fungerar med vätskor är totalt missvisande även om den på sätt är korrekt, det man måste ha klart för sig är att ”hemligheten” i artificiella neuroner är att aktiveringsfunktionen är ickelinjär, vilket inte exemplet här är alls utan i stället egentligen är en demonstration av OCH grindar (AND gates) i booleansk logik, det har inget med neuroner att göra men ändå jämförelsen inte helt ute och cyklar för att demonstrera just att neuroner ”buffrar” impulser tills de aktiverar men inte mer än så.

Precis lika så är demonstrationen av ordvektorer och kurvor (som faktiskt är vad som demonstrerades med glasskivan och språktavlorna), det är helt sant att det blir sådana klustringar men man berättar aldrig varför utan lämnar det öppet för tolkning som får folk att tro att det sker på något magiskt sätt bara neurala nätverk ser orden, det är statistik och ord som frekvent förekommer i samma sammanhang hamnar närmare varandra än ord som inte gör det, en språkmodell har inte en aning om hur en häst ser ut, den har inte en aning om hur en katt ser ut, men däremot har den sätt att ”hästen tillhör familjen hästdjur i hop med zebra, åsna…” osv när du tränar ett nätverk på dessa ofantliga mängder så kommer den ha sett ordet häst betydligt fler gånger ihop med åsna och zebra än ihop med katt, lejon, tiger osv precis som den sannolikt som det bör vara närmare positionerat med bil än med tex katt pga ”hästkrafter” osv.

Struktureringen har inget med LLMs eller det stora artificiella nätverket de har att göra överhuvudtaget och varför ska de ha ”credits” för det? Det är helt och hållet en produkt av word embeddingen (som ja LLMs använder, men word embeddings har använts sedan 2013 och uppfanns med word2vec, det är precis vad word2vec står för att ett ord ersätts med en vektor)
Det är det jag tycker är så fruktansvärt galet med det här överhuvudtaget varför tillskriver man algoritmer ”credits”, om något är det väl de som tagit fram algoritmerna som ska ha credits för det är dom som gjort tänkandet/upptäckten, det är de som vidare utvecklat och insett hur det går att använda.

Det är också felaktigt att stora språkmodeller uppfanns 2017 i och med transformers, det har funnits tidigare också RNN baserade sådana men däremot är det sant att språkmodellerna som finns idag är betydligt större och att transformern (fram tills senaste 2-3 åren) var det enda som kunde hantera så stora nätverk utan att gradienterna blev försvann, som de tidigare RNN modellerna hade problem med.

—

Vad det rör engelska och japansk översättning, så kan du googla på accuracy google translate ”japanese to english” den rankas ligga runt 55%, så tror du fortfarande att det magiskt råkar vara så att transformers (som google translate använder och var vad de dessutom uppfanns för) ”förstår” språken? Nej de hittar bara mönster och i bland fungerar det, i bland inte, det fungerar väldigt bra på närbesläktade språk som sagt.

Och här har du en video som går igenom word2vec väldigt tydligt, https://www.youtube.com/watch?v=viZrOnJclY0 (Finns massor videos här, sen bli inte lurad av att det är som ett barnprogram, för det här är för vuxna kan jag lova

Och bara för att förtydliga, word embeddings är högst medveten design och inte någon ”emergent egenskap” som uppstått, det använder neurala nätverk också men det hade det inte behövt göra, neurala nätverk är väldigt minneseffektiva när man jobbar med stora mängder data (av anledningar jag inte orkar rabbla nu, men det du betalar för det är tillförlitlighet, det är därför det heter ”predict” i stället för ”lookup” eller dyl, du får inte alltid det värde du förväntat dig tillbaka, vilket i bland är önskvärt, i andra fall är det hela anledningen att man använder neurala nätverk eftersom de kan interpolera fram ett resultat utifrån de inputs de tidigare fått, som inte mer pålitliga tekniker kan alls- eftersom de inte hade varit pålitliga längre om de hittade på sina egna värden)

__________________
Senast redigerad av BeneathTheSurface 2023-12-31 kl. 09:16.

Citera

2023-12-31, 09:23 #15

Medlem

Reg: Sep 2003

Inlägg: 25 962

Citat:

Ursprungligen postat av BeneathTheSurface

Tyska och engelska är närbesläktade, Japanska är inte samma språkträd men exemplet som gavs här är ytterst simplistiskt och ger inte speciellt mycket insyn i hur bra språkmodeller är på att översätta mellan engelska, tyska och japanska. (Men för den delen är det inte ett marsspråk och det finns självklart saker som uttrycks liknande där också).

Jag tänkte precis skriva följande:

Medans de här föreläsningarna är generellt korrekta som jag känner till ämnet, så är det så mycket som förenklas till den grad att det öppnar för missförstånd.

Tex Steve Moulds demonstration av hur neuroner fungerar med vätskor är totalt missvisande även om den på sätt är korrekt, det man måste ha klart för sig är att ”hemligheten” i artificiella neuroner är att aktiveringsfunktionen är ickelinjär, vilket inte exemplet här är alls utan i stället egentligen är en demonstration av OCH grindar (AND gates) i booleansk logik, det har inget med neuroner att göra men ändå jämförelsen inte helt ute och cyklar för att demonstrera just att neuroner ”buffrar” impulser tills de aktiverar men inte mer än så.

Precis lika så är demonstrationen av ordvektorer och kurvor (som faktiskt är vad som demonstrerades med glasskivan och språktavlorna), det är helt sant att det blir sådana klustringar men man berättar aldrig varför utan lämnar det öppet för tolkning som får folk att tro att det sker på något magiskt sätt bara neurala nätverk ser orden, det är statistik och ord som frekvent förekommer i samma sammanhang hamnar närmare varandra än ord som inte gör det, en språkmodell har inte en aning om hur en häst ser ut, den har inte en aning om hur en katt ser ut, men däremot har den sätt att ”hästen tillhör familjen hästdjur i hop med zebra, åsna…” osv när du tränar ett nätverk på dessa ofantliga mängder så kommer den ha sett ordet häst betydligt fler gånger ihop med åsna och zebra än ihop med katt, lejon, tiger osv precis som den sannolikt som det bör vara närmare positionerat med bil än med tex katt pga ”hästkrafter” osv.

Struktureringen har inget med LLMs eller det stora artificiella nätverket de har att göra överhuvudtaget och varför ska de ha ”credits” för det? Det är helt och hållet en produkt av word embeddingen (som ja LLMs använder, men word embeddings har använts sedan 2013 och uppfanns med word2vec, det är precis vad word2vec står för att ett ord ersätts med en vektor)
Det är det jag tycker är så fruktansvärt galet med det här överhuvudtaget varför tillskriver man algoritmer ”credits”, om något är det väl de som tagit fram algoritmerna som ska ha credits för det är dom som gjort tänkandet/upptäckten, det är de som vidare utvecklat och insett hur det går att använda.

Det är också felaktigt att stora språkmodeller uppfanns 2017 i och med transformers, det har funnits tidigare också RNN baserade sådana men däremot är det sant att språkmodellerna som finns idag är betydligt större och att transformern (fram tills senaste 2-3 åren) var det enda som kunde hantera så stora nätverk utan att gradienterna blev försvann, som de tidigare RNN modellerna hade problem med.

—

Vad det rör engelska och japansk översättning, så kan du googla på accuracy google translate ”japanese to english” den rankas ligga runt 55%, så tror du fortfarande att det magiskt råkar vara så att transformers (som google translate använder och var vad de dessutom uppfanns för) ”förstår” språken? Nej de hittar bara mönster och i bland fungerar det, i bland inte, det fungerar väldigt bra på närbesläktade språk som sagt.

Och här har du en video som går igenom word2vec väldigt tydligt, https://www.youtube.com/watch?v=viZrOnJclY0 (Finns massor videos här, sen bli inte lurad av att det är som ett barnprogram, för det här är för vuxna kan jag lova

Och bara för att förtydliga, word embeddings är högst medveten design och inte någon ”emergent egenskap” som uppstått, det använder neurala nätverk också men det hade det inte behövt göra, neurala nätverk är väldigt minneseffektiva när man jobbar med stora mängder data (av anledningar jag inte orkar rabbla nu, men det du betalar för det är tillförlitlighet, det är därför det heter ”predict” i stället för ”lookup” eller dyl, du får inte alltid det värde du förväntat dig tillbaka, vilket i bland är önskvärt, i andra fall är det hela anledningen att man använder neurala nätverk eftersom de kan interpolera fram ett resultat utifrån de inputs de tidigare fått, som inte mer pålitliga tekniker kan alls- eftersom de inte hade varit pålitliga längre om de hittade på sina egna värden)

Tack för förtydligandena. Tja jag menade, förstås, att det är tekniken i sig, inklusive människorna bakom den, inte LLM "personligen", som skall ha credit. Men jag står fast vid att modellerna fångat en slags underliggande aspekt av språken som går långt utöver det grammatiska. Där jag jag också stöd av Stephen Wolframs föreläsning på MIT.

Citera

2023-12-31, 09:36 #16

Medlem

Reg: Aug 2023

Inlägg: 1 928

Citat:

Ursprungligen postat av Ola Schubert

Tack för förtydligandena. Tja jag menade, förstås, att det är tekniken i sig, inklusive människorna bakom den, inte LLM "personligen", som skall ha credit. Men jag står fast vid att modellerna fångat en slags underliggande aspekt av språken som går långt utöver det grammatiska. Där jag jag också stöd av Stephen Wolframs föreläsning på MIT.

Det är klart de har, det är precis det jag försöker säga det ligger många decenniums forskning bakom de algoritmer som används idag och de har specifikt utvecklats för att göra vad de gör, det är ingen som bara skrivit några rader kod och så har helt plötsligt systemet börjat fungera som det gör.

Det är snarare konstigt att det inte fungerar bättre än det gör med tanke på de data mängder som man använt, att tro att lösningen är att ge dom än mer data för att det ska framträda nya egenskaper är däremot väldigt naivt och det är vad jag vänt mig mot flera gånger i de här trådarna då det återkommande görs jämförelser med hjärnan osv (ofta i syfte att försöka tillskriva tänkande, medvetande osv) är att man måste förstå att den här tekniken är väldigt fel ute när den tränas på så ofantligt stora data mängder och ändå inte presterar bättre än den faktiskt gör. Att den har användningsområden som den är, är det ingen tvekan om.

Jag menar om en människa behöver göra tex körkortsuppskrivningen 5 gånger innan den får godkänt så skulle de flesta tro det var en fullständig idiot, här sitter vi med algoritmer som tränas motsvarande tusentals människoår för att ens vara i den nivå de är idag och ändå tror folk att AGI är runt knuten.

Citera

2023-12-31, 10:44 #17

Medlem

Reg: Aug 2023

Inlägg: 1 928

En annan sak som kan vara bra att ha i åtanke när man jämför artificiella och biologiska neuron nätverk, med reservation för att jag har ingen bakgrund i biologi alls utan detta är enbart sådant jag läst om på egenhand.

I artificiella neurala nätverk så har du oftast samma typ av artificiell neuron överallt medans aktiveringsfunktionen kan skilja mellan lager (men den är alltid samma inom ett lager), och kortfattat varje inkommande signal multipliceras med ett värde (kallas parameter eller vikt) resultatet efter detta adderas och skickas in i aktiveringsfunktionen, som kan vara så enkel som om resultatet är större än 0 så skickas resultatet vidare annars 0 (just den aktiveringsfunktionen heter ReLU). Det är allt som sker i en enskild neuron, detta görs så klart över tusentals neuroner i flera lager.

Biologiska neuroner kan ses fungera så om man förenklar dom grymt, men de är långt mer komplexa än vi har någon som helst AI som använder (inte ens SNNs som försöker efterlikna det betydligt närmare är ens i närheten av att vara så komplexa).
En biologisk neuron tar emot en nervsignal, inuti är det en kemisk process, där det släpps ut en signal substans (ur blåsor(vesiklar) som cellen har) den tar sig över synaps klyftan och binder till receptorn som när någon viss koncentration uppnåtts avfyrar en impuls (det är vad aktiveringsfunktionen i en artificiell neuron försöker efterlikna), signal substansen kan återupptas i blåsorna efter detta eller diffuseras och brytas ner osv. Poängen är att det går se det som att en biologisk neuron har effektivt ett dynamiskt tröskelvärde (och inte ett statiskt som dagens ANNs har), det innebär också att en neuron som precis avfyrat kan vara väldigt mycket mindre benägen att göra det igen om den precis gjort det också, inget av detta är något som artificiella neuroner efterliknar på något sätt.
Utöver det kan det ske sponana avfyrningar, alltså utan yttre/inkommande signaler och något motsvarande finns inte alls i artificiella nätverk.

Så vad är min poäng med detta? Poängen är att det är så väldigt många som har någon missuppfattning av vad ”inspiration av hjärnan” betyder när det nämns, många verkar dessutom tro det är en direkt mjukvarukopia av hur neuroner fungerar och detta är bara sådant som vi idag känner till om neuroner, och vad jag förstått så är det fortfarande en heldel vi inte förstår oss på om dom.

Men låt säga att man skulle göra en artificiell neuron som gör samma sak som man idag känner till, eller rättare sagt varför gör man inte det då?

Jag har nämnt SNNs flera gånger, som är betydligt närmare hur neuroner kommunicerar externt, redan där har vi problem för tekniker som backpropagation som används för traditionella nätverk går inte använda, man har vad jag vet fortfarande ingen bra metod att träna dessa effektivt och redan där är det ett problem, men ett större är att de är så tunga att köra att det är svårt att få acceptable prestanda när nätverken blir större.

Låt säga man skulle modellera det än närmare och prestandan vi har idag kommer vara helt bortblåst, vi skulle vara tillbaka på kanske 70 talet i termer av storlek som datorerna skulle orka simulera för att få ut ett meningsfullt resultat från dom.

Så summeringen är den att de som gapar mest om att vi är nära AGI är nära osv, är de som är insyltade i diverse produktbolag som försöker göra pengar på sina idéer.
Att dagens ANNs med backpropagation är ens i närheten är inte alls något som majoriteten av AI forskare tror på, alls.

Dagens ANNs är motsvarande en snickare som slår i spik med en skruvmejsel, det fungerar bra i vissa tillämpningar, inte alls i andra.

Språkmodeller gör det hela än mer förvillande eftersom man blandat in språk som ger illusionen av att det finns en tänkande entitet bakom det, det kommer både det ena och det andra absurda påståendet om att de förstår världen, känslor, abstrakt tänkande osv allt detta är ett resultat av word embedding och extraherar relationer utifrån mänskligt användande av ord. Och än mer fascinerande tycker jag det är när alla foliehattar börjar skriva till AI och tror de ska vara ”objektiva” och stödja deras världsuppfattning, då har man verkligen inte förstått att datamängderna representerar vad mänskligheten skriver om och vad den producerar därför blir statistiskt viktad i samma riktning som dess träningsdata. (Precis som språkmodeller som blivit tränade på obskyra delar av 4chan osv genererar rasistiskt innehåll osv, det ska inte tolkas som att en dator är objektiv och säger sanningen, det enda den gör är att försöka hitta på det mest sannolika ordet i sekvens utifrån vad träningsdatan lärt den)

Citera

2023-12-31, 11:53 #18

Medlem

Reg: Aug 2018

Inlägg: 6 843

Citat:

Ursprungligen postat av BeneathTheSurface

En annan sak som kan vara bra att ha i åtanke när man jämför artificiella och biologiska neuron nätverk, med reservation för att jag har ingen bakgrund i biologi alls utan detta är enbart sådant jag läst om på egenhand.

I artificiella neurala nätverk så har du oftast samma typ av artificiell neuron överallt medans aktiveringsfunktionen kan skilja mellan lager (men den är alltid samma inom ett lager), och kortfattat varje inkommande signal multipliceras med ett värde (kallas parameter eller vikt) resultatet efter detta adderas och skickas in i aktiveringsfunktionen, som kan vara så enkel som om resultatet är större än 0 så skickas resultatet vidare annars 0 (just den aktiveringsfunktionen heter ReLU). Det är allt som sker i en enskild neuron, detta görs så klart över tusentals neuroner i flera lager.

Biologiska neuroner kan ses fungera så om man förenklar dom grymt, men de är långt mer komplexa än vi har någon som helst AI som använder (inte ens SNNs som försöker efterlikna det betydligt närmare är ens i närheten av att vara så komplexa).
En biologisk neuron tar emot en nervsignal, inuti är det en kemisk process, där det släpps ut en signal substans (ur blåsor(vesiklar) som cellen har) den tar sig över synaps klyftan och binder till receptorn som när någon viss koncentration uppnåtts avfyrar en impuls (det är vad aktiveringsfunktionen i en artificiell neuron försöker efterlikna), signal substansen kan återupptas i blåsorna efter detta eller diffuseras och brytas ner osv. Poängen är att det går se det som att en biologisk neuron har effektivt ett dynamiskt tröskelvärde (och inte ett statiskt som dagens ANNs har), det innebär också att en neuron som precis avfyrat kan vara väldigt mycket mindre benägen att göra det igen om den precis gjort det också, inget av detta är något som artificiella neuroner efterliknar på något sätt.
Utöver det kan det ske sponana avfyrningar, alltså utan yttre/inkommande signaler och något motsvarande finns inte alls i artificiella nätverk.

Så vad är min poäng med detta? Poängen är att det är så väldigt många som har någon missuppfattning av vad ”inspiration av hjärnan” betyder när det nämns, många verkar dessutom tro det är en direkt mjukvarukopia av hur neuroner fungerar och detta är bara sådant som vi idag känner till om neuroner, och vad jag förstått så är det fortfarande en heldel vi inte förstår oss på om dom.

Men låt säga att man skulle göra en artificiell neuron som gör samma sak som man idag känner till, eller rättare sagt varför gör man inte det då?

Jag har nämnt SNNs flera gånger, som är betydligt närmare hur neuroner kommunicerar externt, redan där har vi problem för tekniker som backpropagation som används för traditionella nätverk går inte använda, man har vad jag vet fortfarande ingen bra metod att träna dessa effektivt och redan där är det ett problem, men ett större är att de är så tunga att köra att det är svårt att få acceptable prestanda när nätverken blir större.

Låt säga man skulle modellera det än närmare och prestandan vi har idag kommer vara helt bortblåst, vi skulle vara tillbaka på kanske 70 talet i termer av storlek som datorerna skulle orka simulera för att få ut ett meningsfullt resultat från dom.

Så summeringen är den att de som gapar mest om att vi är nära AGI är nära osv, är de som är insyltade i diverse produktbolag som försöker göra pengar på sina idéer.
Att dagens ANNs med backpropagation är ens i närheten är inte alls något som majoriteten av AI forskare tror på, alls.

Dagens ANNs är motsvarande en snickare som slår i spik med en skruvmejsel, det fungerar bra i vissa tillämpningar, inte alls i andra.

Språkmodeller gör det hela än mer förvillande eftersom man blandat in språk som ger illusionen av att det finns en tänkande entitet bakom det, det kommer både det ena och det andra absurda påståendet om att de förstår världen, känslor, abstrakt tänkande osv allt detta är ett resultat av word embedding och extraherar relationer utifrån mänskligt användande av ord. Och än mer fascinerande tycker jag det är när alla foliehattar börjar skriva till AI och tror de ska vara ”objektiva” och stödja deras världsuppfattning, då har man verkligen inte förstått att datamängderna representerar vad mänskligheten skriver om och vad den producerar därför blir statistiskt viktad i samma riktning som dess träningsdata. (Precis som språkmodeller som blivit tränade på obskyra delar av 4chan osv genererar rasistiskt innehåll osv, det ska inte tolkas som att en dator är objektiv och säger sanningen, det enda den gör är att försöka hitta på det mest sannolika ordet i sekvens utifrån vad träningsdatan lärt den)

Kanoninlägg. Vill bara lägga till att hjärnan inte bara består av ca 90 miljarder neuroner, utan även av lika många glia-celler (i olika varianter). Och dessa glia-celler har många funktioner, däribland att manipulera och modulera neurotransmission. Jag håller med om att nuvarande AI paradigm's modeller av neurala nätverk som bestående av nätverk med binära noder är otroligt naiva. En enda neuron, eller cell, är så otroligt komplex att man bara dånar. Lägg sedan på ett signalsystem mellan cellerna som moduleras av samspel i hela systemet - och man är beyond att baxna. Frågan känns lika ofattbar som att försöka förstå avstånd i universum.

Men... om man är övertygad om att stjärnor bara är lampor som blinkar och som kan ramla ner.. så är det förstås lättare att "förstå" sin omvärld.

Citera

2023-12-31, 11:55 #19

Medlem

Reg: Sep 2003

Inlägg: 25 962

Citat:

Ursprungligen postat av BeneathTheSurface

Det är klart de har, det är precis det jag försöker säga det ligger många decenniums forskning bakom de algoritmer som används idag och de har specifikt utvecklats för att göra vad de gör, det är ingen som bara skrivit några rader kod och så har helt plötsligt systemet börjat fungera som det gör.

Det är snarare konstigt att det inte fungerar bättre än det gör med tanke på de data mängder som man använt, att tro att lösningen är att ge dom än mer data för att det ska framträda nya egenskaper är däremot väldigt naivt och det är vad jag vänt mig mot flera gånger i de här trådarna då det återkommande görs jämförelser med hjärnan osv (ofta i syfte att försöka tillskriva tänkande, medvetande osv) är att man måste förstå att den här tekniken är väldigt fel ute när den tränas på så ofantligt stora data mängder och ändå inte presterar bättre än den faktiskt gör. Att den har användningsområden som den är, är det ingen tvekan om.

Jag menar om en människa behöver göra tex körkortsuppskrivningen 5 gånger innan den får godkänt så skulle de flesta tro det var en fullständig idiot, här sitter vi med algoritmer som tränas motsvarande tusentals människoår för att ens vara i den nivå de är idag och ändå tror folk att AGI är runt knuten.

Jag kan hålla med om att modellerna är väldigt ineffektiva med tanke på den mängd data, datorkraft och tid de behöver på sig innan det börjar hända saker och ting under grundträning en, men sedan blir det ändå imponerande med tanke på generaliseringsförmågan jämfört med det vi hade innan LLM.

Citat:

Ursprungligen postat av BeneathTheSurface

En annan sak som kan vara bra att ha i åtanke när man jämför artificiella och biologiska neuron nätverk, med reservation för att jag har ingen bakgrund i biologi alls utan detta är enbart sådant jag läst om på egenhand.

I artificiella neurala nätverk så har du oftast samma typ av artificiell neuron överallt medans aktiveringsfunktionen kan skilja mellan lager (men den är alltid samma inom ett lager), och kortfattat varje inkommande signal multipliceras med ett värde (kallas parameter eller vikt) resultatet efter detta adderas och skickas in i aktiveringsfunktionen, som kan vara så enkel som om resultatet är större än 0 så skickas resultatet vidare annars 0 (just den aktiveringsfunktionen heter ReLU). Det är allt som sker i en enskild neuron, detta görs så klart över tusentals neuroner i flera lager.

Biologiska neuroner kan ses fungera så om man förenklar dom grymt, men de är långt mer komplexa än vi har någon som helst AI som använder (inte ens SNNs som försöker efterlikna det betydligt närmare är ens i närheten av att vara så komplexa).
En biologisk neuron tar emot en nervsignal, inuti är det en kemisk process, där det släpps ut en signal substans (ur blåsor(vesiklar) som cellen har) den tar sig över synaps klyftan och binder till receptorn som när någon viss koncentration uppnåtts avfyrar en impuls (det är vad aktiveringsfunktionen i en artificiell neuron försöker efterlikna), signal substansen kan återupptas i blåsorna efter detta eller diffuseras och brytas ner osv. Poängen är att det går se det som att en biologisk neuron har effektivt ett dynamiskt tröskelvärde (och inte ett statiskt som dagens ANNs har), det innebär också att en neuron som precis avfyrat kan vara väldigt mycket mindre benägen att göra det igen om den precis gjort det också, inget av detta är något som artificiella neuroner efterliknar på något sätt.
Utöver det kan det ske sponana avfyrningar, alltså utan yttre/inkommande signaler och något motsvarande finns inte alls i artificiella nätverk.

Så vad är min poäng med detta? Poängen är att det är så väldigt många som har någon missuppfattning av vad ”inspiration av hjärnan” betyder när det nämns, många verkar dessutom tro det är en direkt mjukvarukopia av hur neuroner fungerar och detta är bara sådant som vi idag känner till om neuroner, och vad jag förstått så är det fortfarande en heldel vi inte förstår oss på om dom.

Men låt säga att man skulle göra en artificiell neuron som gör samma sak som man idag känner till, eller rättare sagt varför gör man inte det då?

Jag har nämnt SNNs flera gånger, som är betydligt närmare hur neuroner kommunicerar externt, redan där har vi problem för tekniker som backpropagation som används för traditionella nätverk går inte använda, man har vad jag vet fortfarande ingen bra metod att träna dessa effektivt och redan där är det ett problem, men ett större är att de är så tunga att köra att det är svårt att få acceptable prestanda när nätverken blir större.

Låt säga man skulle modellera det än närmare och prestandan vi har idag kommer vara helt bortblåst, vi skulle vara tillbaka på kanske 70 talet i termer av storlek som datorerna skulle orka simulera för att få ut ett meningsfullt resultat från dom.

Så summeringen är den att de som gapar mest om att vi är nära AGI är nära osv, är de som är insyltade i diverse produktbolag som försöker göra pengar på sina idéer.
Att dagens ANNs med backpropagation är ens i närheten är inte alls något som majoriteten av AI forskare tror på, alls.

Dagens ANNs är motsvarande en snickare som slår i spik med en skruvmejsel, det fungerar bra i vissa tillämpningar, inte alls i andra.

Språkmodeller gör det hela än mer förvillande eftersom man blandat in språk som ger illusionen av att det finns en tänkande entitet bakom det, det kommer både det ena och det andra absurda påståendet om att de förstår världen, känslor, abstrakt tänkande osv allt detta är ett resultat av word embedding och extraherar relationer utifrån mänskligt användande av ord. Och än mer fascinerande tycker jag det är när alla foliehattar börjar skriva till AI och tror de ska vara ”objektiva” och stödja deras världsuppfattning, då har man verkligen inte förstått att datamängderna representerar vad mänskligheten skriver om och vad den producerar därför blir statistiskt viktad i samma riktning som dess träningsdata. (Precis som språkmodeller som blivit tränade på obskyra delar av 4chan osv genererar rasistiskt innehåll osv, det ska inte tolkas som att en dator är objektiv och säger sanningen, det enda den gör är att försöka hitta på det mest sannolika ordet i sekvens utifrån vad träningsdatan lärt den)

Jag är för dåligt insatt i skalningslagarna för att våga uttala mig. Men fran till GPT-4 och dess möjliga interna specialisering i olika moduler så har det lönat sig att skala upp. Fransmännen lär ha en modell som bara arbetar med moduler och som verkar klarar sig bra i konkurrensen, speciellt med tanke på dess begränsade storlek.

Hur som helst så tvivlar jag på att enbart uppskalning kommer att hålla i längden. När det kommer till neuroner så är de skillnader du nämner mellan dessa och parametrar/vikter, intressanta. Vi vet Iof inte hur dessa skillnader påverkar vårt tänkande. Rör det sig om grundläggande funktioner för uppkomsten av t.ex kreativitet, känslor och medvetande, eller rör det sig om evolutionära begränsningar grundat på hela den totala historiska evolutionen?

Citera

2023-12-31, 12:21 #20

Medlem

Reg: Aug 2023

Inlägg: 1 928

Citat:

Ursprungligen postat av HomoDeus

Men... om man är övertygad om att stjärnor bara är lampor som blinkar och som kan ramla ner.. så är det förstås lättare att "förstå" sin omvärld.

Ja precis, sen finns det så klart alltid ett värde i förenklingar för att kommunicera idéer och koncept, men jag tycker man bör vara tydlig med det och det är vad jag anser många bolag inte är utan i stället använder det som marknadsföringstrick för att sälja in sin vision. Vilket inte hjälper alls i längden, jag tycker i stället man borde vara väldigt tydlig med var man befinner sig för oavsett hur skeptisk jag kan låta så är det ingen tvekan om att det finns mängder med tillämpningar för den AI teknik som finns idag och språkmodellerna också (speciellt med RAG osv), men jag ogillar starkt att det framställs som något det inte är.

Citera

2023-12-31, 12:34 #21

Medlem

Reg: Aug 2018

Inlägg: 6 843

Citat:

Ursprungligen postat av BeneathTheSurface

Ja precis, sen finns det så klart alltid ett värde i förenklingar för att kommunicera idéer och koncept, men jag tycker man bör vara tydlig med det och det är vad jag anser många bolag inte är utan i stället använder det som marknadsföringstrick för att sälja in sin vision. Vilket inte hjälper alls i längden, jag tycker i stället man borde vara väldigt tydlig med var man befinner sig för oavsett hur skeptisk jag kan låta så är det ingen tvekan om att det finns mängder med tillämpningar för den AI teknik som finns idag och språkmodellerna också (speciellt med RAG osv), men jag ogillar starkt att det framställs som något det inte är.

Jag håller med dig till 100%. Det är en spännande tid vi har framför oss och tillämpningarna kommer bli otroligt coola och bra.

Men jag ogillar också starkt hur AI-teknik framställs, eller tillåts framställas.

Citera

2023-12-31, 12:42 #22

Medlem

Reg: Aug 2023

Inlägg: 1 928

Citat:

Ursprungligen postat av Ola Schubert

Jag är för dåligt insatt i skalningslagarna för att våga uttala mig. Men fran till GPT-4 och dess möjliga interna specialisering i olika moduler så har det lönat sig att skala upp. Fransmännen lär ha en modell som bara arbetar med moduler och som verkar klarar sig bra i konkurrensen, speciellt med tanke på dess begränsade storlek.

Med fransmännen menar du Mistral AI antar jag? (som i sin tur baserar sina modeller på Meta/Facebooks Llama2).

Ja men problemet är att det är de små modellerna som förbättrar sin prestanda, de stora gör det inte nämnvärt, Mistral 7x8b (som är en MoE modell, alltså ett antal små modeller var och en specialiserad på olika områden) är någonstans mellan gpt-3.5-turbo och gpt-4 i prestanda/kapacitet.

Deras (enkel lager modell) mistral 7b (och för övrigt Intels neural chat) är inte långt ifrån där heller, men det dyker däremot inte upp några modeller som totalt utklassar den ena eller den andra längre, det rör sig om enstaka procent i olika tester.
Det som verkar gjort störst skillnad här överlag är snarare olika tekniker som används för fine tuning, det var främst runt augusti/september de stora stegen kom här och sedan dess har det vara subprocent skillnader på de senaste open source modellerna så jag tror det är ganska sannolikt de är väldigt nära maximal kapacitet av vad de kan prestera med nuvarande arkitektur.

Stora modeller har det inte hänt ett skit med sedan GPT-4 släpptes, Jag skrev det till dig i ett annat inlägg för ett tag sedan men Google, om något företag skulle ha bevisat om det varit så att modellerna blir bättre med skalning för de har allt du behöver, kompetens, hårdvara, pengar osv Det finns inte en enda ursäkt för Geminis (rent av kassa prestanda), det enda de vinner på är marknadsföringen med deras 35-shot benchmarks (som bara i sig är underlag för att skratta) då Gemini Ultra (som inte är släppt ännu) presterade knappt bättre än GPT-4 som inte ens är en multimodal model vilket gemini är.
I övrigt är det inte så många företag som är intresserade av att göra enormt stora modeller eftersom de är dyra och tidskrävande att utveckla och drifta, det är ingen slump att Intel, Mistral osv fokuserar på små modellerna, för det finns ett enormt kommersiellt intresse att kunna köra små kapabla modeller i många sammanhang, de enda som inte gillar detta kan jag lova är OpenAI (för de ser sin marknad av konsumenter som köper tokens till deras GPT-3.5 endpoint försvinna när dessa kan drifta egna modeller billigare, GPT-4 tokens är mycket mycket för dyra för att användas i någon automatisering av signifikans).

(Och för att förtydliga där, multimodal är att modellen kan få in en bild, ljud eller text och den direkt kan tolka det utan något översättningslager, som GPT-4 som inte är multimodal (men av någon anledning skriver OpenAI det) men ser ut så för användaren- så när du laddar upp en bild så översätts bilden till en text som sedan språkmodellen jobbar på)
Syftet med (riktig) multimodal ska vara att modellen ska dra nytta av generaliserande mellan text/bild/ljud domän och det verkar ju uppenbarligen inte bidragit med något av värde eftersom situationen är som den är med just Gemini kontra GPT-4.

Citera

LLM för nybörjare

Skapa ett konto eller logga in för att kommentera

Skapa ett konto

Logga in