Stora språkmodeller - Teknik och Utveckling

2023-11-26, 00:54 #1

Medlem

Reg: Aug 2023

Inlägg: 810

Skapar denna tråd för jag inte hittar någon lämplig och syftet är snarast att diskutera teknik och utveckling av språkmodeller.

Detta är en lista på nuvarande offentliga språkmodeller med unik arkitektur.

Transformer baserade
- Google Bard - (PaLM2 - encoder/decoder arkitektur) - https://bard.google.com/chat
- OpenAI ChatGPT - (GPT - decoder arkitektur) - http://chat.openai.com/
- Meta Llama2 - (Llama - decoder arkitektur) - https://ai.meta.com/llama/
- Anthropic Claude - (Okänt - Okänt) https://claude.ai/
RNN baserade
- RWKV Foundation RWKV - (Receptance Weighted Key Value + RNN) - https://www.rwkv.com
Övriga
- Ingen produkter offentlig gjorda i nuläget

Citera

2023-11-26, 10:48 #2

Medlem

Reg: Oct 2023

Inlägg: 669

Om förmågan att utveckla tankegångar uppstod spontant i dessa modeller, vad hindrar då andra förmågor från att också uppstå spontant?

Då TS gärna låter påskina att hen har kännedom om företagshemligheter så vill jag gärna veta mer om LLaMA 3 - Yann LeCun´s ögonsten - och vad det är som får den att stå stark jämte Google DeepMind och OpenAI?

Det är sällan man ser någon som uttrycker sig så självsäkert kring hypotetiska modeller som Yann. Av naturliga skäl så önskar man ju veta mer kring denna modell. Om inte annat för att bättre kunna skatta allvarlighetsgraden i de mothugg som Yann tvingas parera. Vecka efter vecka. Som din förebild, den oförbätterlige Gary Marcus.

https://twitter.com/TonyZador/status...97984329826575

Citera

2023-11-26, 12:49 #3

Medlem

Reg: Jun 2009

Inlägg: 1 373

https://arxiv.org/pdf/2311.13165.pdf

Ett problem om man vill avancera dessa språkmodeler kommer vara kring lärning vid interaktion med användaren och vilken data man tränar algoritmen på. Specifikt hur språkmodelen lär sig och oönskat beteende som vid exempelvis "Tay"

Att isolera algoritmen till specifik inlärd-data kommer innebära att datorn kommer aldrig ha förmåga till förståelse utan endast finna relationer mellan data där nyans samt förståelse lider

Sedan sårbarhet kring "Adversarial machine learning" och hur användaren kommer manipulera algoritmen till deras favör alternativt hur algoritmen är sårbar alls och slutar betee enligt förväntning

Man behöver finna ett sätt där datorn kan lära sig med mänskligt skapt data, för att accelerera tiden spenderat på lärning och samtidigt tillåta datorn vara tillräckligt sårbar för manipulation då den kan lära sig efter erfarenhet där användaren ska i god tro, rätta algoritmen på ett ansett "korrekt" sätt

Och nu menar jag endast frontend

Citera

2023-11-26, 13:01 #4

Medlem

Reg: Aug 2023

Inlägg: 810

Citat:

Ursprungligen postat av M.Murati

Om förmågan att utveckla tankegångar uppstod spontant i dessa modeller, vad hindrar då andra förmågor från att också uppstå spontant?

Spekulationer hör inte hemma i denna tråd, du kan posta dina twitter länkar i övriga trådar.

Citat:

Ursprungligen postat av M.Murati

Då TS gärna låter påskina att hen har kännedom om företagshemligheter så vill jag gärna veta mer om LLaMA 3 - Yann LeCun´s ögonsten - och vad det är som får den att stå stark jämte Google DeepMind och OpenAI?

Är det "Ingen produkter offentlig gjorda i nuläget" du misstolkar så ligger denna där för att det finns papper från både Microsoft (RetNet) och Apple (AFT) som inte är använda i några kända produkter för närvarande.
Övriga spekulationer kan du återigen ta i en annan tråd.

Citera

2023-11-26, 13:37 #5

Medlem

Reg: Aug 2023

Inlägg: 810

Varför är det överhuvudtaget intressant att nämna andra arkitekturer än Transformers som GPT?

Forskningen senaste 3 åren har fokuserat mer och mer på andra tekniker, Transformer var ett stort framsteg i NLP när den släpptes men det har framkommit många brister och en av de mest problematiska är den väldigt dyra inferenskostnaden är kvadratisk med in sekvenslängden och det är också svårt att parallellisera algoritmen.

Av den anledningen så jobbas det febrilt på att få till lösningar på detta, inte minst för att det dels gör det svårt och extremt dyrt att skala upp tekniken men det är också svårt att använda den på mindre kraftfulla enheter som smart klockor, mobiltelefoner osv där redan idag NLP för både "Hey Google", "Siri" osv görs on device till största del.

Google (som även ligger bakom Transformer) har gjort bland annat följande vidareutvecklingar
Reformer - https://arxiv.org/abs/2001.04451
Performer - https://arxiv.org/abs/2009.14794

Microsoft
RetNet - https://arxiv.org/abs/2307.08621

Apple
AFT - https://arxiv.org/abs/2105.14103

Samtliga av dessa är presterar lika bra eller bättre än transformers (vid nätverk av samma storlek) men är betydligt billigare.

Samtidigt efter AFT presenterades så tog forskningen fart på en äldre teknik igen, RNN (recurrent neural networks) som har många fördelar mot transformers (men som allt annat finns det nackdelar också men det är främst detta som AFT hjälpte att mitigera), en RNN är mycket simplare än en transformer "neuron" och dessa nätverk har vad inte transformers har, feedback loopar vilket gör dom mycket närmare den biologiska motsvarigheten än transformern (som är ett feedforward nätverk).

RWVK är ett exempel på en sådan lösning som dessutom är publik och open source, inte nog med att det är en billigare algoritm så presterar det magnituder bättre än transformers på samma nätverk storlek (något som iofs är gemensamt för de flesta ovannämnda lösningar)

Citera

2023-11-27, 22:08 #6

Medlem

Reg: Aug 2023

Inlägg: 810

Köra språkmodeller lokalt?

Eftersom Metas Llama2 modell är open source så har mängder med företag, individer och organisationer fortsätt att fin träna denna basmodell ytterligare.
Llama2 släpptes i storlekar som 7b 13b och 70b (och Llama2 Coder i 30b) (detta är alltså antalet vikter i det neurala nätverket), du kan estimera hur mycket RAM som behövs för en given modell genom att multiplicera antalet vikter med kvantiseringsnivån du väljer att använda.

Exempel
I grundutförandet används FP16 eller FP32 (alltså 16/32 bit flyttal), en byte = 8 bit så 32/8 = 4, 7*4 = 28GB (eller 16/8=2, 7*2 = 14GB för FP16) , dvs ca 28GB (FP32) eller 14GB (FP16) skulle behövas för att få plats med modellen i minne och utföra inferns i full hastighet.

För att minska kraven har tekniker används som kvantiserar vikterna och med detta kan minnesanvändningen sänkas dramatiskt, det kommer självfallet med en kostnad av precision (vilket i sig kan göra att modellen svammlar mer eller har svårare att hålla sig till ämnet).
En bra kompromiss är Q4_K_M eller Q5_K_M, vid Q4 så tar en vikt 4 bits (och det innebär att en 7GB modell i regel ligger runt 4-5GB RAM när den är i minnet).

Som nämndes tidigare så trodde man inledningsvis att storleken på nätverket var det väsentliga, det har visat sig att även små modeller kan prestera väldigt bra om de tränas länge med mycket data.
Modeller som mistral 7b (Mistral AI är ett Fransk företag som brukar kallas Frankrikes OpenAI och deras modeller har väldigt bra prestanda, även 7b modellen slår ChatGPT 3.5 på de flesta uppgifter och den ger bättre resultat än GPT-4 vissa andra) eller neural-chat (Som är Intels vidare tränade av mistral modell) som är den senaste och återsatte en ny standard för små modeller.

Så för att köra en sådan modell lokalt är det enklaste att bygga llama.cpp, (alternativt om du inte vill kompilera själv så kan du ladda ner en färdig produkt som använder llama.cpp i botten som tex Faraday (faraday.dev) eller LM Studio (lmstudio.ai)

Du behöver ladda ner modellen (enklast är att hämta en förkvantiserad version som tex TheBloke har mängder av tex https://huggingface.co/TheBloke/neur...t-7B-v3-1-GGUF ) och placera den i mappen för modeller för respektive program, det sista och kanske mest avgörande för bra prestanda är att använda rätt prompt template.
(Vill du av någon anledning kvantisera själv så kan du använda quantize verktyget i llama.cpp, det tar bara någon minut att kvantisera en modell för den delen men det finns ingen större anledning i och med att de finns färdiga)

Prompt templaten står i regel på huggingface sidan för respektive modell, för tex neural chat är templaten
"### System:
{system_message}

### User:
{prompt}

### Assistant:"

Detta är extremt viktigt att få rätt annars kommer du få en modell som beter sig konstigt, pratar med sig själv, spårar ur totalt osv.

Om du väljer att kompilera själv så kan du tex använda följande för att starta en konversation med neural chat och få en konversation på svenska.

./main -m models/neural-chat-7b-v3-1.Q4_K_M.gguf --instruct --color -r "### User:" --in-prefix " " --in-suffix "### Assistant:" -p "### System:\n\nA chat between a user and an artificial intelligence assistant. The assistant gives helpful and detailed answers to the user's questions. You will answer in Swedish.\n\n"

(Exempel på hur modellen svarar https://imgur.com/a/M7jpgsI )

__________________
Senast redigerad av BeneathTheSurface 2023-11-27 kl. 22:29.

Citera

2023-11-27, 22:41 #7

Medlem

Reg: Nov 2011

Inlägg: 5 023

Jag har väldigt svårt att tro på att verklig maskin-intelligens existerar, på det att översättning mellan Svenska och Isländska är så djävla värdelös, bara knappt begriplig.

Norska, Danska och Svenska, som är så lika, där fungerar översättningen bättre av enkla skäl, eftersom språken är till förväxling lika, om man bortser från olika sätt att stava, att uttala, samt små detaljer och vissa enskilda ord som är annorlunda.

En Svensk behöver bara komma ihåg några ord: kanske / måske / olika/ forskellig och så vidare.

Kanske 25 ord som är olika, annars är det bara dialekt / uttal.

__________________
Senast redigerad av Knivur-273 2023-11-27 kl. 22:47.

Citera

2023-11-27, 22:48 #8

Medlem

Reg: Aug 2023

Inlägg: 810

Citat:

Ursprungligen postat av Knivur-273

Jag har väldigt svårt att tro på att verklig maskin-intelligens existerar, på det att översättning mellan Svenska och Isländska är så djävla värdelös, bara knappt begriplig.

Norska, Danska och Svenska, som är så lika, där fungerar översättningen bättre av enkla skäl, eftersom språken är till förväxling lika, om man bortser från olika sätt att stava, små detaljer och vissa enskilda ord som är annorlunda.

Nej det existerar inte ännu, och precis som du säger översättningen bygger på strukturer och när besläktade språk är närbesläktade som sagt.
Men det hindrar inte att tekniken är användbar precis som ms word är användbar trots den inte kan skriva en rad själv.

Dagens språkmodeller är ganska fantastiska på att sammanfatta text, de är väldigt bra på klassificera texter, de är ganska bra att verifiera fakta från existerande texter (dock betydligt sämre att skriva fakta enlig text) och det finns massvis som går automatisera med det, men med det sagt ja de gör fel i bland.

Dagens språkmodeller (så som de fungerar i dagsläget alltså) kommer troligtvis försvinna om några år, men konceptet kommer leva kvar och sannolikt bli bättre och någon dag så kanske de får riktig intelligens och inte enbart härmar den de läst i sina träningstexter.

Citera

2023-11-27, 23:00 #9

Medlem

Reg: Nov 2011

Inlägg: 5 023

Jag undrar hur lång tid det kan tänkas ta, innan maskinöversättning kan tolka olika dialekter av till exempel Danska, Engelska och Tyska.

Jag kan tro att det är en omöjlighet.

Låt vara att jag personligen anser att jag enkelt förstår i stort sett alla Svenska dialekter utan större problem.

Jag talade med en gammal Kone i Hardangervidda om vägen till sjön. Hon talade rotvälska och jag och min fru förstod icke ett endaste ord... Trots att vi båda talar Norsk / Svenska /Nordiska

Nu körde vi bilen vidare och träffade på en man, som talade vanlig Norsk. Nu fick vi veta vägen, och den saken var synnerligen enkel att förstå för oss båda. Ingen tvekan, haha.

__________________
Senast redigerad av Knivur-273 2023-11-27 kl. 23:44.

Citera

2023-11-27, 23:27 #10

Medlem

Reg: Nov 2011

Inlägg: 5 023

Det finns en Science-Fiction Novell, som heter Echopraxia, som handlar om en en främmande entitet, som saknar medvetande, men som är högt intelligent.

Citera

2023-11-27, 23:29 #11

Medlem

Reg: Nov 2011

Inlägg: 5 023

För mig, så är medvetandet kronan av djurens utveckling.

Citera

2023-11-27, 23:37 #12

Medlem

Reg: Nov 2011

Inlägg: 5 023

Kan en maskin icke översätta mellan Svenska och Islendska, så kan man kasta den i soptunnan, för det vore ju så etymologiskt enkelt via Norskan, Svenskan och Danskan, och andra Germanska språk.

Bo. Vikingur.

__________________
Senast redigerad av Knivur-273 2023-11-27 kl. 23:42.

Citera

Stora språkmodeller - Teknik och Utveckling

Stöd Flashback