Chatgpt ledande trots sämre och sämre modeller?

2025-05-19, 16:04 #13

Medlem

Reg: Nov 2015

Inlägg: 16 364

Battaljen om framtidens AI tycks helt vara mellan Musk och google, men chatgpt hänger kvar som en mainstreamplattform för lata konsumenter som inte håller sig uppdaterade.

Grok 3.5 tycks vara en quantum leap till och med, och då kan man bara föreställa sig vad som kommer ske när grok 4 släpps.

Citera

2025-05-19, 18:21 #14

Medlem

Reg: Sep 2022

Inlägg: 2 487

Citat:

Ursprungligen postat av Bobby Knight

Som sagt rate of change. xAI har kommit ikapp OpenAI väldigt snabbt och hastigheten ökar.

https://lmarena.ai/?leaderboard

Jag vet inte vad som är skillnaden mellan din länk och min.

Ja du har rätt i att Gemini 2.5 Pro nu leder på LMarena, den har högst Arena Score just nu.
Men det är subjektiv röstning, och o3 ligger precis bakom. På LiveBench, som mäter objektiv förmåga som matte, kod och logik, leder o3 high fortfarande Så ja, Gemini är bra, men OpenAI ligger inte långt efter. Det är tight i toppen.

Citera

2025-05-19, 18:30 #15

Medlem

Reg: Apr 2023

Inlägg: 504

Citat:

Ursprungligen postat av Bobby Knight

Chris Camillo har en intressant take att Chatgpt kan bli mycket högre värderat även fast man har sämre modeller än konkurrenterna just för att varumärket Chatgpt är så starkt och det är den enda appen majoriteten laddar hem.

Tror ni på det? Visst finns det en stickyness faktor men inte till vilken dumhetsnivå som helst?

Det känns verkligen som att dom håller på att köra sin tjänst rakt ner i graven. ChatGPT har blivit så värdelös att jag inte använder den längre överhuvudtaget.

Det finns många exempel på tjänster som kom ut först och hade ett sånt enormt försprång men ändå gick i konkurs efter ett par år. Trots deras starka varumärke.

Citera

2025-05-20, 01:06 #16

Medlem

Reg: Aug 2014

Inlägg: 3 384

Citat:

Ursprungligen postat av Bobby Knight

Chris Camillo har en intressant take att Chatgpt kan bli mycket högre värderat även fast man har sämre modeller än konkurrenterna just för att varumärket Chatgpt är så starkt och det är den enda appen majoriteten laddar hem.

Tror ni på det? Visst finns det en stickyness faktor men inte till vilken dumhetsnivå som helst?

Det som inte framkommer av benchmarktesterna är om AI-tjänsterna kan göra annat än att använda LLM. T.ex. utnyttja webbsökning (RAG) för att kunna uppge källor och hitta mer aktuella uppgifter än det som den är tränad på. Eller att räkna matematik exakt istället för att gissa. Eller att köra sin egen python-kod som den har genererat. De ljuger fortfarande, men jag hittar ingen benchmark-test på hur ofta de ljuger och hallicunerar. Själva benchmark-testerresultaten hallicunerar den ihop, så fråga inte AI om hur bra olika AI-tjänster är, utan googla efter benchmarks.

Gratisversionerna saknar ofta kodkörning, exakt beräkning och webbsökning i realtid. Använder du gratisversionen eller betalversionen?

Det problem jag har drabbats av i betalversionen är att om man ger den för stora uppgifter så är den lat och försöker komma undan. Den frågar om jag verkligen vill att den ska göra det jag har bett den om. T.ex. kan den undvika att göra webbsökning i realtid. Särskilt om man ber den att köra Python-kod den själv har genererat så avbryter den och svarar bara så långt den har kommit. Eller kör en förenklad variant av koden. Orsaken är nog att det kostar mycket resurser eftersom det inte körs på GPU:er utan på CPU:er. En slutsats är att idag bör man nog köra python-koden på egen dator eller en annan molntjänst än chatgpt.

Programkörningarna verkar ta längre och längre tid under sessionens gång. ChatGPT raderar sessionens mellanresultat (filer som genereras av pythonkoden och som lagras i en "sandbox") efter 30-60 minuter av inaktiv anävndare, ibland innan en programkörning är klar. Sedan säger den sig försöka återskapa filerna, men då kör den bara förenklade varianter. Ibland kan man be den fortsätta, men inte alltid. I praktiken blir det en maxtid på några timmar innan den blir omöjlig att använda.

AI ljuger fortfarande, det verkar inte bli så mycket bättre, men jag har inte sett några mätningar av detta. Men det blir bara bättre på att svara på universitetstentor i alla möjliga ämnen. Så i grunden håller jag inte med dig. Jag tror att våra krav har höjts. Själv tycker jag att Google home och Google-assistenten är dumma i huvet numera, för att jag har blivit van vid betalvarianten av Chatgpt.

Citera

Chatgpt ledande trots sämre och sämre modeller?

Skapa ett konto eller logga in för att kommentera

Skapa ett konto

Logga in