Citat:
det där exemplet var intressant. knappast omöjligt det är gjort så att det från början finns en funktion som har ett antal sätt att extrahera text från bild. t-ex jag skulle kunna göra ett script till kommandotolken busenkelt som använder olika program, script och även hemsidor, samt olika inställningar. och kanske använder någon slags teknik för att kopiera redan existerande kodsnuttar, men obscufera dem så det verkar vara unikt
ChatGPT är ett halvfärdigt verktyg - en prototyp - ett "proof of concept" om att mer är möjligt.
Jag laddade upp en PDF eller JPEG och bad den extrahera texten ur den.
Så ChatGPT skrev ett python-skript som den själv sedan köra inom sin egna server.
Den misslyckades någonstans och gav mig python-koden och svaret "Sorry, I failed to extract text out of JPEG, let my try another method..."
sen skrev den ny python-kod lite annorlunda än den tidigare och sa
"Seems like I failed again - do you want me to try another method (en annan typ av kod) för att göra uppgiften?"
Jag bara: "ja."
Sen lyckades den.
Så den körde fel ett par gånger, insåg att den misslyckats, försökte på andra sätt, och ett tredje sätt lyckades göra exakt vad jag ville. Man skulle ju kunna tro att en AI-maskin som hanterar maskiner (kod) skulle ha koll på koden från första början, men ChatGPT är som sagt ett halvfärdigt verktyg. Man kan säga till den "You failed, try again and succeed this time." så är det mycket möjligt att den lyckas med allt.
Sedan så föredrar jag https://aistudio.google.com/prompts/new_chat Google Gemini Flash 2 Experimental Thinking mer än ChatGPT, men kan inte säga exakt varför. Kanske för att man ibland har nytta av att den kan lyssna på ens röst i mikrofonen samt se ens skärm och berätta hur man gör dittan och dattan i okända program - från meta-nivå makroorganisering till detaljstyrning på individuella-klick -nivå dvs mikronivå. Sen kan man i mikrofonen fråga den "what exactly are we doing right now?" så svarar den med sitt resonemang/analys. Eller så kan man säga t.ex. "I want to ... in order to get the result that ..., how do I do that?" så bekräftar den frågar och svarar på den, så man vet vad/hur den tänker så att man har kontroll över vart den styr en.
Ibland krashar AIn men då får man bara klicka på att återuppta sessionen, så fortsätter man från där man var. Det är m.a.o. också en halvfärdig produkt (men den ser och hör och resonerar, och kan svara i ljud/dess röst - så man kan ha den i bakgrunden som assistent).
Ett use-case är att man har en PDF med säg 60 sidor, och man letar efter frasen "uncle" i den. Då gör man så Gemini ser skärmen, sen säger man till den "I´m gonna scroll through this PDF, tell me which pages the word uncle is on." så scrollar man skitsnabbt genom alla 60 sidor. Då blir svaret typ "the word uncle was on pages 9, 11 and 28" och kollar man så stämmer det.
Man kan säker ha Gemini i bakgrunden (seendes ens skärm och hörandes ens röst, och svarandes i audio genom högtalarna) när man skriver inlägg på Flashback, och be den redogöra vad som är bra/dåligt och vad som är sant och vad som... analysera/kommentera/hjälpa till i ens utformning av inlägg. Kom på det nyss så ska testa det nu...
Med allt det sagt så är en möjlig poäng/slutsats att: Gemini är bara 1 steg (av utvecklarna Google) från att göra själva klickandet och skrivandet åt en, dvs styra ens mus och tangenter. Det i sin tur är, i.om. att den redan ser och hör och pratar, ett steg från humanoida robotar.
Jag laddade upp en PDF eller JPEG och bad den extrahera texten ur den.
Så ChatGPT skrev ett python-skript som den själv sedan köra inom sin egna server.
Den misslyckades någonstans och gav mig python-koden och svaret "Sorry, I failed to extract text out of JPEG, let my try another method..."
sen skrev den ny python-kod lite annorlunda än den tidigare och sa
"Seems like I failed again - do you want me to try another method (en annan typ av kod) för att göra uppgiften?"
Jag bara: "ja."
Sen lyckades den.
Så den körde fel ett par gånger, insåg att den misslyckats, försökte på andra sätt, och ett tredje sätt lyckades göra exakt vad jag ville. Man skulle ju kunna tro att en AI-maskin som hanterar maskiner (kod) skulle ha koll på koden från första början, men ChatGPT är som sagt ett halvfärdigt verktyg. Man kan säga till den "You failed, try again and succeed this time." så är det mycket möjligt att den lyckas med allt.
Sedan så föredrar jag https://aistudio.google.com/prompts/new_chat Google Gemini Flash 2 Experimental Thinking mer än ChatGPT, men kan inte säga exakt varför. Kanske för att man ibland har nytta av att den kan lyssna på ens röst i mikrofonen samt se ens skärm och berätta hur man gör dittan och dattan i okända program - från meta-nivå makroorganisering till detaljstyrning på individuella-klick -nivå dvs mikronivå. Sen kan man i mikrofonen fråga den "what exactly are we doing right now?" så svarar den med sitt resonemang/analys. Eller så kan man säga t.ex. "I want to ... in order to get the result that ..., how do I do that?" så bekräftar den frågar och svarar på den, så man vet vad/hur den tänker så att man har kontroll över vart den styr en.
Ibland krashar AIn men då får man bara klicka på att återuppta sessionen, så fortsätter man från där man var. Det är m.a.o. också en halvfärdig produkt (men den ser och hör och resonerar, och kan svara i ljud/dess röst - så man kan ha den i bakgrunden som assistent).
Ett use-case är att man har en PDF med säg 60 sidor, och man letar efter frasen "uncle" i den. Då gör man så Gemini ser skärmen, sen säger man till den "I´m gonna scroll through this PDF, tell me which pages the word uncle is on." så scrollar man skitsnabbt genom alla 60 sidor. Då blir svaret typ "the word uncle was on pages 9, 11 and 28" och kollar man så stämmer det.
Man kan säker ha Gemini i bakgrunden (seendes ens skärm och hörandes ens röst, och svarandes i audio genom högtalarna) när man skriver inlägg på Flashback, och be den redogöra vad som är bra/dåligt och vad som är sant och vad som... analysera/kommentera/hjälpa till i ens utformning av inlägg. Kom på det nyss så ska testa det nu...
Med allt det sagt så är en möjlig poäng/slutsats att: Gemini är bara 1 steg (av utvecklarna Google) från att göra själva klickandet och skrivandet åt en, dvs styra ens mus och tangenter. Det i sin tur är, i.om. att den redan ser och hör och pratar, ett steg från humanoida robotar.
sedan på det lägger man till lite dravvel @ chatsidan, så det verkar som det är en människa typ som sitter och snickrar kod i raketfart.
---- jag läste en post i en skolskjutningstråden om en användare som påstod sig slänga upp en bild på chatGPT och "bad" den att kolla ifall det var AI-genererat. Resultatet han ska fått var tämligen intressant men kan knappast vara omöjligt att få till med typ så jag skrev tidigare om. Det var en hel radda med anledningar för varför bilden troligen är skapad av AI. såsom analys av ExIF taggar. Och det jag menar är att det vore rätt märkligt ifall inte någon hemsida erbjuder samma slags tjänst, minus det "människo"liknande dravvlet och mer transparent, men jag har inte sett någon