Citat:
Ursprungligen postat av
marcuse
Upplever samma som du.
Stora fel på tillsynes väldigt basala frågor.
Jag har betalversionen.
Har även svårt att processa info från tex små pdf filer som man laddar upp
ChatGPT är ett halvfärdigt verktyg - en prototyp - ett "proof of concept" om att mer är möjligt.
Jag laddade upp en PDF eller JPEG och bad den extrahera texten ur den.
Så ChatGPT skrev ett python-skript som den själv sedan köra inom sin egna server.
Den misslyckades någonstans och gav mig python-koden och svaret "Sorry, I failed to extract text out of JPEG, let my try another method..."
sen skrev den ny python-kod lite annorlunda än den tidigare och sa
"Seems like I failed again - do you want me to try another method (en annan typ av kod) för att göra uppgiften?"
Jag bara: "ja."
Sen lyckades den.
Så den körde fel ett par gånger, insåg att den misslyckats, försökte på andra sätt, och ett tredje sätt lyckades göra exakt vad jag ville. Man skulle ju kunna tro att en AI-maskin som hanterar maskiner (kod) skulle ha koll på koden från första början, men ChatGPT är som sagt ett halvfärdigt verktyg. Man kan säga till den "You failed, try again and succeed this time." så är det mycket möjligt att den lyckas med allt.
Sedan så föredrar jag
https://aistudio.google.com/prompts/new_chat Google Gemini Flash 2 Experimental Thinking mer än ChatGPT, men kan inte säga exakt varför. Kanske för att man ibland har nytta av att den kan lyssna på ens röst i mikrofonen samt se ens skärm och berätta hur man gör dittan och dattan i okända program - från meta-nivå makroorganisering till detaljstyrning på individuella-klick -nivå dvs mikronivå. Sen kan man i mikrofonen fråga den "what exactly are we doing right now?" så svarar den med sitt resonemang/analys. Eller så kan man säga t.ex. "I want to ... in order to get the result that ..., how do I do that?" så bekräftar den frågar och svarar på den, så man vet vad/hur den tänker så att man har kontroll över vart den styr en.
Ibland krashar AIn men då får man bara klicka på att återuppta sessionen, så fortsätter man från där man var. Det är m.a.o. också en halvfärdig produkt (men den ser och hör och resonerar, och kan svara i ljud/dess röst - så man kan ha den i bakgrunden som assistent).
Ett use-case är att man har en PDF med säg 60 sidor, och man letar efter frasen "uncle" i den. Då gör man så Gemini ser skärmen, sen säger man till den "I´m gonna scroll through this PDF, tell me which pages the word uncle is on." så scrollar man skitsnabbt genom alla 60 sidor. Då blir svaret typ "the word uncle was on pages 9, 11 and 28" och kollar man så stämmer det.
Man kan säker ha Gemini i bakgrunden (seendes ens skärm och hörandes ens röst, och svarandes i audio genom högtalarna) när man skriver inlägg på Flashback, och be den redogöra vad som är bra/dåligt och vad som är sant och vad som... analysera/kommentera/hjälpa till i ens utformning av inlägg. Kom på det nyss så ska testa det nu...
Med allt det sagt så är en möjlig poäng/slutsats att: Gemini är bara 1 steg (av utvecklarna Google) från att göra själva klickandet och skrivandet åt en, dvs styra ens mus och tangenter. Det i sin tur är, i.om. att den redan ser och hör och pratar, ett steg från humanoida robotar.