2026-06-30, 16:46
  #13
Medlem
visst är det underbart när halvtaskiga sociologer uttalar sig om den senaste teknikens rent tekniska begränsningar
Citera
2026-06-30, 17:20
  #14
Medlem
Bilderberg78s avatar
Citat:
Ursprungligen postat av BeneathTheSurface
Språkmodeller ÄR regelbaserad teknologi, det är just därför man trodde man kunde lösa de mesta här med "multimodalitet" och senare på "syntetic data", det är inga problem alls om modellerna har blivit tränad för precis alla situationer, då kan man kurvanpassa perfekt, och då behövs det bara en sak- mer träning.

Ja, Hey Google 10 år senare är fortfarande hey google, och Siri är de andra som anser dyrast alltid är bäst.

Men ärligt, så är modellen som man inte ska snacka onödigt mycket med, den som även är bäst att kunna skapa något av värde att sälja vidare av.

https://www.sentisight.ai/xai-vs-openai-vs-anthropic-who-wins/

Min vision är Claude "cowork" som funnits i knappt ett halvår och blir bättre hela tiden.
En AI-agent som både kan diskutera och vara en AI-agent samtidigt, eller växelvis i en session. Och det är det bästa av två världar som nu möts antagligen marknadsmässigt. Det är mitt stalltips, men de flesta har ännu inte fattat hur man ska använda den, då det visste inte heller de som skapade den på 10 dagar på Anthropic som ett sidoprojekt.

"LLM", det ordet hör man endast på Flashback nuförtiden. "DVD" är lika fräscht.
Citera
2026-06-30, 17:47
  #15
Medlem
BeneathTheSurfaces avatar
Citat:
Ursprungligen postat av Bilderberg78
Ja, Hey Google 10 år senare är fortfarande hey google, och Siri är de andra som anser dyrast alltid är bäst.

Men ärligt, så är modellen som man inte ska snacka onödigt mycket med, den som även är bäst att kunna skapa något av värde att sälja vidare av.

https://www.sentisight.ai/xai-vs-openai-vs-anthropic-who-wins/

Min vision är Claude "cowork" som funnits i knappt ett halvår och blir bättre hela tiden.
En AI-agent som både kan diskutera och vara en AI-agent samtidigt, eller växelvis i en session. Och det är det bästa av två världar som nu möts antagligen marknadsmässigt. Det är mitt stalltips, men de flesta har ännu inte fattat hur man ska använda den, då det visste inte heller de som skapade den på 10 dagar på Anthropic som ett sidoprojekt.

"LLM", det ordet hör man endast på Flashback nuförtiden. "DVD" är lika fräscht.

Det är kul att du tror att diskussionen har rört sig vidare, men du gör ju precis samma sak som alla "ledare" på olika företag nu... Du köper en vision vi inte har teknologi för.

För att en agent faktiskt ska kunna "skapa något av värde" autonomt i en session utan att spåra ur- så måste den ha en fungerande världsbild.

Hur får den det? Vi vet inte, det är därför jag ironiskt påpekade att hittills har man gått på skalnings lagar i tron om att täcker man bara upp för varenda situation så har man en "lathund" som kan agera som sig bör i de situationerna.

Men man har vetat länge att det inte fanns mer textdata att träna på än i princip allt man redan använt, det går argumentera att det produceras ny hela tiden, men det är en piss i havet mot den mängd man redan tränar på.
Det borde vara uppenbart redan men det kanske det inte är för många...

Det är därför man verkligen försökt att dammsuga video siter osv för man hoppades modellerna skulle lära sig nya semantiska kopplingar där, det har inte hänt. syntetisk data har heller inte gett det utfall man hoppades på.

Och det är just det som är problemet "cowork" och andra agentiska tillämpningar är helt beroende av att den underliggande tekniken är pålitlig, det är jättebra att det fungerar som du tänker dig 80% av tiden, problemet är de 20 när det inte fungerar, när det förstör data, när det tar felaktiga beslut.

Och det är just därför "LLM" och andra tekniska termer fortsätter vara relevanta, för det är vad de här pipdrömmarna bygger på.
Citera
2026-07-01, 12:07
  #16
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Är du bättre på att resonera?

Låt oss testa din hypotes

Ge mig en klurig fråga inom vilket ämne du vill som du tror att Opus 4.8 inte klarar men som du har ett svar på tack vare din överlägsna förmåga att resonera.


Ahem, att ge ett svar på en fråga kräver ingen förmåga att resonera. Det kräver information och möjligheten att återge den.
Citera
2026-07-01, 12:19
  #17
Medlem
Citat:
Ursprungligen postat av stilicho
De flesta av dem du räknar upp är ju sådana som har ett egenintresse av att förstora upp möjligheterna och problemen, antingen för att sälja lösnummer eller för att sälja sig själva Mer nyktra betraktare kommer sällan till tals men den stora majoriteten av människor har ändå ett mått av sunt förnuft och kan se igenom de mest bubbliga bedömningarna.

Inte i Storbritannien eller i USA
Citera
2026-07-01, 12:24
  #18
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av Flaskback
Ahem, att ge ett svar på en fråga kräver ingen förmåga att resonera. Det kräver information och möjligheten att återge den.
Går det inte att definiera ett problem som kräver ett resonemang för att lösa problemet?
Om du inte kan det, vad är det då du saknar i Opus 4.8?
Citera
2026-07-01, 12:34
  #19
Medlem
Citat:
Ursprungligen postat av BeneathTheSurface
Jag tror vi inte sett ens en bråkdel av de problem som det aggressiva AI införandet kommer orsaka, egentligen är inte "AI" i sig problemet utan att det används hänsynslöst utan minsta eftertanke på vad det kommer kosta både om modellen gör fel, men framförallt det som stått solklart i varenda ekonomirapport sedan 2022... Att tjänsterna kommer explodera i kostnad, det som vi sett nu är bara början.

Det är såklart också ett problem att många använder AI på dumdristiga sätt, men min poäng är att det finns ett tak även för mer försiktiga operatörer, och att det taket är lägre än vad många tror.


Citat:
Ursprungligen postat av BeneathTheSurface
Jailbreaks är nog inte omöjligt att lösa, orsaken är egentligen i grunden ganska enkel... cross attention, problemet är att det är en nödvändighet för att modellen ska ge illusionen av att förstå instruktioner, men det pågår forskning här och det kommer vara absolut nödvändigt att lösa detta mer än något annat för att man faktiskt ska våga ha modeller på saker där ofiltrerat in data kommer in.

Som jag förstår det är det så går inte jailbreaks att lösa eftersom de utnyttjar en LLMs flexibilitet, som ju är hela poängen med LLMs.


Citat:
Ursprungligen postat av BeneathTheSurface
Språkmodeller ÄR regelbaserad teknologi, det är just därför man trodde man kunde lösa de mesta här med "multimodalitet" och senare på "syntetic data", det är inga problem alls om modellerna har blivit tränad för precis alla situationer, då kan man kurvanpassa perfekt, och då behövs det bara en sak- mer träning.

Språkmodeller är probabilistiska. Ska de tränas för att ha fasta regler så möter man samma begränsningar som vanliga algoritmer - nämligen att det inte går att ta fram en regel för exakt varje situation.


Citat:
Ursprungligen postat av BeneathTheSurface
Man kan väl säga så här 2020 talet har inte varit bra på något sätt, först krypto craze sedan covid, sen mer eller mindre världskonflikter på löpande band samtidigt som AI helt hänsynslöst rullats ut.

Det är självklart saker som är bra med tekniken men den är inte lösningen på allt den tillämpas på och framförallt är den inte den där billiga outtröttliga arbetskraften som ledare hoppats på, tvärtom så suger den energi och motivation ur nästan alla som använder den professionellt.


Jag håller med dig. AI kan bidra mycket, men i många fall är det en lösning på jakt efter ett problem, som måste adopteras "bara för att", eller mer specifikt för att företag som inte använder AI riskerar att framstå som otillräckligt innovativa.
Citera
2026-07-01, 12:41
  #20
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Går det inte att definiera ett problem som kräver ett resonemang för att lösa problemet?
Om du inte kan det, vad är det då du saknar i Opus 4.8?


Klart det gör. Etiska frågor, exempelvis. Eller frågor där det saknas data. Men i dagligdags arbetsliv handlar inte begränsningarna om detta, utan om hur hallucinationer och jailbreaks leder till misstag som en människa eller resonerande dator aldrig hade gjort.
Citera
2026-07-01, 13:26
  #21
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av Flaskback
Klart det gör. Etiska frågor, exempelvis. Eller frågor där det saknas data. Men i dagligdags arbetsliv handlar inte begränsningarna om detta, utan om hur hallucinationer och jailbreaks leder till misstag som en människa eller resonerande dator aldrig hade gjort.
Ja, det är sant att toppmodellerna gör många oacceptabla misstag som även kan utgöra fara för mänskligt liv och hälsa. Det är därför jag vill se mer begränsningar i den pågående utvecklingen mot AGI.

Men åter till resonerandet. Du påstår att AI-modellerna inte kan resonera. Jag påstår att du har fel. Låt oss testa detta med ett experiment. Kan du ge mig ett exempel på där du resonerade om något men där Opus 4.8 (Pro, High) misslyckas med samma resonemang? Du låter ju så extermt självsäker på detta. Put your money where your mouth is.

Eller menar du att du har jämfört dig själv med GPT 3.5? dvs ett halmgubbeargument?
Citera
2026-07-01, 13:34
  #22
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Ja, det är sant att toppmodellerna gör många oacceptabla misstag som även kan utgöra fara för mänskligt liv och hälsa. Det är därför jag vill se mer begränsningar i den pågående utvecklingen mot AGI.

Men åter till resonerandet. Du påstår att AI-modellerna inte kan resonera. Jag påstår att du har fel. Låt oss testa detta med ett experiment. Kan du ge mig ett exempel på där du resonerade om något men där Opus 4.8 (Pro, High) misslyckas med samma resonemang? Du låter ju så extermt självsäker på detta. Put your money where your mouth is.

Eller menar du att du har jämfört dig själv med GPT 3.5? dvs ett halmgubbeargument?


Körde precis det här i Opus 4.8 på nivå extra - inklistrat fråga och svar:


Citat:
Count the amount of Rs in the following sentence: Fifteen teenagers went to the library to borrow books.

13:31
There are 3 R's in that sentence: borrow and library.

Det finns i själva verket 5 R i meningen. Och 4 R i de ord som modellen citerar i sitt svar
Citera
2026-07-01, 14:07
  #23
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av Flaskback
Körde precis det här i Opus 4.8 på nivå extra - inklistrat fråga och svar:
Jaså? Jag fick detta svar i Sonnet 5 - medium.
There are 5 R's in that sentence:
teenars → wait, let me be precise: teenagers (1)
library (2)
borr**ow (2)
Total: 1 + 2 + 2 = 5
Och detta svar i Opus 4.8 - medium:
There are 5 R's:
teenagers → 1
library → 2
borrow → 2
Men detta var ju inte svar på frågan om resonerande. Jag tänkte om du hade något som faktiskt var svårt, som kräver en människas resonemang.
Citera
2026-07-01, 14:20
  #24
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Jaså? Jag fick detta svar i Sonnet 5 - medium.
There are 5 R's in that sentence:
teenars → wait, let me be precise: teenagers (1)
library (2)
borr**ow (2)
Total: 1 + 2 + 2 = 5
Och detta svar i Opus 4.8 - medium:
There are 5 R's:
teenagers → 1
library → 2
borrow → 2

Men du förstår ändå problemet när maskinen inte bara kan göra fel på något så enkelt, och sedan ger ett bombsäkert svar?

I rättvisans namn kan jag bekräfta med egna experiment att Sonnet på medium och Opus på high lyckades bättre, och dessutom stod på sig när jag (i missledande syfte) ifrågasatte svaret.

Citat:
Ursprungligen postat av Cyborg2030
Men detta var ju inte svar på frågan om resonerande. Jag tänkte om du hade något som faktiskt var svårt, som kräver en människas resonemang.

Framför allt sådant där man redan sett AI-misslyckanden. Kundtjänstfrågor som faller utanför "ramen" till exempel, eller där folk jailbreakar för att få sig någon fördel. Läser du artikeln jag länkade till så får du flera exempel.
Citera

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in