Citat:
Ursprungligen postat av
BeneathTheSurface
Enda anledningen man satsat enormt mycket pengar på språkmodeller är löftet om att låser upp AGI med skalning, nu har det visat sig att det inte är så och att arkitekturen inte gör eller åstadkommer något annat än vad den arkitekturellt borde åstadkomma.
Ja, tidigare hade man en naiv tro på, ren uppskalning. Det var inte speciellt konstigt: Det skalades fint mellan GPT-2 och GPT-3, sedan vidare till GPT-4, låt vara att de modellen kanske innehåller specialiserade moduler. Men sedan visar skalningslagarna att ren, allmän, uppskalning ger nästan ingen effekt, åtminstone på de variabler man testade. En annan sak som spelade in var att evolutionär så såg man att dvärgchimpanshjärnan skalade upp fint till människohjärna där, i princip bara språkcentra tillkom, förutom större hjärnbark. Det man glömde bort var att även aphjärnan är avsevärt mer komplex än en LLM-Transformer. Men t. o.m Illya Sutskriver, kanske den främsta förespråkare för allmän uppskalning medger nu att "det beror på, vad, man skalar upp". Så nu användas den ökade beräkningskaciteten till inferens så att modellerna "tänker igenom" en uppgift och kanske väljer ibland de mest troligt bästa output. Vad som i övrigt händer i labben känner jag inte till, förutom att man provar träning under uppgiftfasen genom att låta modeller justera tillfälligt öppna parametrar själva.
Och, tydligen, så fortsätter investerare att ösa pengar över AI-företagen, trots det ändrade paradigmet. Kanske vet det något som inte du känner till?
Citat:
Du har uppenbart inte förstått rapporten du själv länkade till med de argument du för, dessutom är det rent av löjligt att referera till något som de facto inte klarar "61%" eftersom först och främst testet i pappret gjorts på ett subset av ARCs offentliga exempel frågor, dessutom inte påvisar något eftersom dessa teoretiskt kan innefattas i språkmodellens träningsdataset vilket är en av de största anledningarna ARC utförs på ett icke offentligt dataset.
Visst jag, kan ju, ha missuppfattat rapporten, men som jag fattar det så klarade den största modellen som testades (8 miljarder parametrar) strax över 70 procent av uppgifterna, vilket också är det mänskliga genomsnittet. Vad jag fattar så fick modellerna, först, prova helt öppna exempel ARC pussel med vissa parametrar öppna. Innan dess så hade de blivit tränade på allmänna resonerade uppgifter. Sedan fick de ge sig på ARC-pussel, (jag tror att det var 40 av totalt 200), och som jag fattade så kunde inte dessa funnits i modellernas ursprungliga träningsdata, även fast rapporten inte helt uteslöt lägage i några fall.
Citat:
Och hela ditt resonemang är fruktansvärt löjligt och naivt eftersom det klart och tydligt understryker att du vare sig förstår poängen med ARC, språkmodeller eller hur dessa faktiskt fungerar.
Jo, jag förstår poängen med ARC-pussel, de avser mäta en synnerligen avgränsad intelligensförmåga/resonerande-logiska som ARC-pusslens skapare anser finns hos människan. Men det vet vare sig han, jag eller du! Sedan hävda du ständigt att alla som argumenterar emot dig eller arbeta för att utveckla LLM-Transformers är okunniga om dess grundläggande funktioner. Jag själv försökte under något år att sätta mig in i detta, förutom den rena matematiken bakom det hela. Jag hävdar att jag inte är, helt, okunnig om detta.
Citat:
Det är totalt irrelevant vad din definition av AGI är, hur du tror eller hur du upplever att språkmodeller fungerar... Skulle vetenskap bygga på subjektiva åsikter så hade vi inte kommit någonstans. Tvärtom så är det vid det här laget ganska uppenbart att vi kommer inte komma mycket längre vad det gäller intelligens med dagens teknik, det är alldeles bevisat att vi inte skalar något exponentiellt vilket är vad som utlovats, det har läckt progress information från i stort sett varenda stor AI leverantör där samtliga säger precis samma sak att de nya modellerna de utvecklat inte avancerar mot redan existerande modeller, det är flera kända profiler som nu erkänt att "vi har nått en platå" och det behövs ny teknik för att ta oss vidare, något som flera också sagt sedan dag 1.
Under den absoluta största delen av mänsklighetens historia så har vi varit sociala och känslomässiga varelser. Den moderna vetenskapen är ett synnerligen nytt påfund. Och det tog väldigt lång tid för teknologiska framsteg att slå igenom innan dess, framför allt innan 1000-1500-talet. Så jag tycker, ändå, att det är smått fantastiskt att en maskin, sömlöst kan hantera språk, lyda under socialpsykologiska mekanismer och simulera empati. Och, ja, det behövs ny teknologi för att ta oss vidare. Enda frågan är om den ändå kan bygga vidare på LLM-Transformers teknologin eller om en helt ny teknologisk paradigm måste till.
Citat:
Men det är så klart mer intressant för dig, vad du själv tycker och vad din uppfattning av språkmodellerna är eftersom du suttit och bollat idéer och blivit klappad på ryggen av dessa och tror dig ha med hjälp av dessa stakat ut en väg framåt, precis som om språkmodellen skulle veta detta redan. Det påminner om alla idioter som trott att man kan skriva en prompt för att få slut eller filtrera bort hallucinationer osv.
Jo, det är sant att jag, personligen, lärt mig mycket och fått nya ideer och infallsvinklar när jag chattat med LLM-Transformers. En erfarenhet jag delar med många, men tydligen inte med dig.