Citat:
Ursprungligen postat av
Bobby Knight
Chris Camillo har en intressant take att Chatgpt kan bli mycket högre värderat även fast man har sämre modeller än konkurrenterna just för att varumärket Chatgpt är så starkt och det är den enda appen majoriteten laddar hem.
Tror ni på det? Visst finns det en stickyness faktor men inte till vilken dumhetsnivå som helst?
Det som inte framkommer av benchmarktesterna är om AI-tjänsterna kan göra annat än att använda LLM. T.ex. utnyttja webbsökning (RAG) för att kunna uppge källor och hitta mer aktuella uppgifter än det som den är tränad på. Eller att räkna matematik exakt istället för att gissa. Eller att köra sin egen python-kod som den har genererat. De ljuger fortfarande, men jag hittar ingen benchmark-test på hur ofta de ljuger och hallicunerar. Själva benchmark-testerresultaten hallicunerar den ihop, så fråga inte AI om hur bra olika AI-tjänster är, utan googla efter benchmarks.
Gratisversionerna saknar ofta kodkörning, exakt beräkning och webbsökning i realtid. Använder du gratisversionen eller betalversionen?
Det problem jag har drabbats av i betalversionen är att om man ger den för stora uppgifter så är den lat och försöker komma undan. Den frågar om jag verkligen vill att den ska göra det jag har bett den om. T.ex. kan den undvika att göra webbsökning i realtid. Särskilt om man ber den att köra Python-kod den själv har genererat så avbryter den och svarar bara så långt den har kommit. Eller kör en förenklad variant av koden. Orsaken är nog att det kostar mycket resurser eftersom det inte körs på GPU:er utan på CPU:er. En slutsats är att idag bör man nog köra python-koden på egen dator eller en annan molntjänst än chatgpt.
Programkörningarna verkar ta längre och längre tid under sessionens gång. ChatGPT raderar sessionens mellanresultat (filer som genereras av pythonkoden och som lagras i en "sandbox") efter 30-60 minuter av inaktiv anävndare, ibland innan en programkörning är klar. Sedan säger den sig försöka återskapa filerna, men då kör den bara förenklade varianter. Ibland kan man be den fortsätta, men inte alltid. I praktiken blir det en maxtid på några timmar innan den blir omöjlig att använda.
AI ljuger fortfarande, det verkar inte bli så mycket bättre, men jag har inte sett några mätningar av detta. Men det blir bara bättre på att svara på universitetstentor i alla möjliga ämnen. Så i grunden håller jag inte med dig. Jag tror att våra krav har höjts. Själv tycker jag att Google home och Google-assistenten är dumma i huvet numera, för att jag har blivit van vid betalvarianten av Chatgpt.