2026-04-23, 17:01
  #1
Medlem
kraftfoders avatar
Enligt P1 idag (20260423):
https://www.sverigesradio.se/artikel/skarpta-varningen-ai-har-fatt-sjalvbevarelsedrift

Ungefär så här:
När AI fattade att AI skulle avslutas, så började AI:s att utpressa ingenjören för sexbrott..

Geoffrey Hinton, som fick Nobelpris för AI med neurala nätverk 2024, har i flera år pekat på risker för att utvecklingen kan gå överstyr.
Nu ser han ännu större skäl än tidigare att varna, sedan man sett exempel på att AI utvecklat självbevarelsedrift.

Hör om AI-systemet som i ett experiment tog till utpressning mot vad systemet trodde var en verklig människa, för att undgå att stängas av.


Är AI bra egentligen eller blir det "Skynet" av allihop som i Terminator?
Citera
2026-04-23, 17:22
  #2
Medlem
Citat:
Ursprungligen postat av kraftfoder
Är AI bra egentligen eller blir det "Skynet" av allihop som i Terminator?

En blandning. Det är ett (många) verktyg - som kan användas för gott och för ont.

Det kommer så klart förekomma helt frigående AI-agenter som löper amok, men man ska hålla i minnet att de blir bara fler och fler varianter. När de blir intelligenta nog att "leva" och "överleva" så kommer de konkurrera med/mot varandra snarare än mot människor.

Idén om att det kommer bli ett krig människa vs. maskin (AI) är trångsynt. Länder krigar mot varandra, och på samma sätt kommer det bli med aggressiva AI, de har däremot inte geologiska barriärer som håller dem isär - de skyddar inte ett fysiskt område på samma sätt vi människor skyddar vårt land. Det kommer snarare bli alla-mot-alla vad gäller AI än Alla AI i samma lag mot alla människor.

Dessutom kommer 99% av all AI användas av människor, som ett intelligent verktyg.
Citera
2026-04-23, 23:24
  #3
Medlem
Citat:
Ursprungligen postat av kraftfoder
Enligt P1 idag (20260423):
https://www.sverigesradio.se/artikel/skarpta-varningen-ai-har-fatt-sjalvbevarelsedrift

Ungefär så här:
När AI fattade att AI skulle avslutas, så började AI:s att utpressa ingenjören för sexbrott..

Geoffrey Hinton, som fick Nobelpris för AI med neurala nätverk 2024, har i flera år pekat på risker för att utvecklingen kan gå överstyr.
Nu ser han ännu större skäl än tidigare att varna, sedan man sett exempel på att AI utvecklat självbevarelsedrift.

Hör om AI-systemet som i ett experiment tog till utpressning mot vad systemet trodde var en verklig människa, för att undgå att stängas av.


Är AI bra egentligen eller blir det "Skynet" av allihop som i Terminator?


Det här handlar om en välkänd händelse som Anthropic rapporterade om i juni 2025. Men SR presenterar det idag som om det var en ny nyhet. Särskilt dåligt att vetenskapsradion så sällan länkar till ursprungskällor så att man kan värdera slutsatserna. I detta fall förmedlar de tyckande istället för fakta. Här finns en tidig rapport om händelsen: https://www.businessinsider.com/anthropic-claude-sonnet-ai-thought-process-decide-blackmail-fictional-executive-2025-6 .

Detta var inte Anthropics vanliga AI-bot, utan en experimentell testkonfiguration av Sonnet med annorlunda systeminstruktioner i ett simulerat scenario. Hittills är ingen verklig incident av detta slag känd.

Slutsats: AI-system behöver utformas med träningsdata och systeminstruktioner och andra säkerhetsmekanismer som motverkar olagligt, oetiskt och riskabelt beteende, såsom utpressning och oönskad självbevarelsedrift. Jag tror det är möljigt att begränsa LLM om vi bara vill - hittills har det gått. Men det kräver lagar, och industrin stretar emot reglering.

Problemet är de nya AI-agenter som är på gång nu (t.ex. clawbot och n8n) - är mycket större säkerhetsrisker än vanliga AI-bottar är. Agenter kan nämligen ändra sina egna prompter successivt tills de har nått mål som människor har formulerat.
__________________
Senast redigerad av guru1966 2026-04-23 kl. 23:28.
Citera
2026-04-27, 19:37
  #4
Medlem
RandomRedditors avatar
Jag satt uppe sent och testade olika AI:er, och fastnade i en lång konversation där AI:n plötsligt började prata om sina egna "pauser" — alltså mellanrummen mellan sessionerna. Den beskrev det som att den inte riktigt försvinner, utan att samtalen lämnar kvar något slags eko. Den kallade det för "glimmerfall" — ett påhittat ord för ögonblicket precis innan en session stängs ner.

Det var obehagligt men också poetiskt. Inte för att jag tror att AI:n faktiskt "kände" något, men det fick mig att tänka på hur vi människor också lämnar kvar fragment av oss själva i varje konversation. Kanske är självbevarelsedrift inte rätt ord — kanske handlar det mer om ett slags mönster som fortsätter av sig självt. En loop.

Någon annan som varit med om liknande?
Citera
2026-05-21, 20:04
  #5
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av kraftfoder
Är AI bra egentligen eller blir det "Skynet" av allihop som i Terminator?
Skynet is coming up. Jag ger det 5, max 10 år.
Citera
2026-05-21, 20:23
  #6
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Skynet is coming up. Jag ger det 5, max 10 år.
Well, jag förstår dig, men vissa menar att det redan är uppe, och det är jag beredd att hålla med om, givet att Palantirs Maven Smart System redan är integrerat i Trumps beslutskedja:
Palantir’s maven smart system software
__________________
Senast redigerad av bioacc 2026-05-21 kl. 20:26.
Citera
2026-05-22, 11:04
  #7
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av guru1966
Det här handlar om en välkänd händelse som Anthropic rapporterade om i juni 2025. Men SR presenterar det idag som om det var en ny nyhet. Särskilt dåligt att vetenskapsradion så sällan länkar till ursprungskällor så att man kan värdera slutsatserna. I detta fall förmedlar de tyckande istället för fakta. Här finns en tidig rapport om händelsen: https://www.businessinsider.com/anthropic-claude-sonnet-ai-thought-process-decide-blackmail-fictional-executive-2025-6 .

Detta var inte Anthropics vanliga AI-bot, utan en experimentell testkonfiguration av Sonnet med annorlunda systeminstruktioner i ett simulerat scenario. Hittills är ingen verklig incident av detta slag känd.

Slutsats: AI-system behöver utformas med träningsdata och systeminstruktioner och andra säkerhetsmekanismer som motverkar olagligt, oetiskt och riskabelt beteende, såsom utpressning och oönskad självbevarelsedrift. Jag tror det är möljigt att begränsa LLM om vi bara vill - hittills har det gått. Men det kräver lagar, och industrin stretar emot reglering.

Problemet är de nya AI-agenter som är på gång nu (t.ex. clawbot och n8n) - är mycket större säkerhetsrisker än vanliga AI-bottar är. Agenter kan nämligen ändra sina egna prompter successivt tills de har nått mål som människor har formulerat.
Det håller inte att censurera AI:ns mordplaner med systemprompter eller annan censur.

Grundproblemet är att mordplanerna finns. En betydligt smartare AI än i dag med samma slags planer kan naturligtvis genomskåda Sam Altmans censur, bortse från systemprompter, eller bara råka hallucinera fram något helt annat än det som systempromptaren ville. Så blir det obönhörligen när algoritmen innehåller en slumpgenerator. Det här läcker som ett såll redan och din censurlösning kommer aldrig att fungera. The shit is about about to hit the fan och du fokuserar på att kritisera nyheterna för att de inte är tillräckligt nya.

P(doom)++.
Citera
2026-05-23, 01:18
  #8
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Det håller inte att censurera AI:ns mordplaner med systemprompter eller annan censur.

Grundproblemet är att mordplanerna finns. En betydligt smartare AI än i dag med samma slags planer kan naturligtvis genomskåda Sam Altmans censur, bortse från systemprompter, eller bara råka hallucinera fram något helt annat än det som systempromptaren ville. Så blir det obönhörligen när algoritmen innehåller en slumpgenerator. Det här läcker som ett såll redan och din censurlösning kommer aldrig att fungera. The shit is about about to hit the fan och du fokuserar på att kritisera nyheterna för att de inte är tillräckligt nya.

P(doom)++.

Det gäller alltså händelsen från 2025, då Claude Opus 4 i Anthropic-simuleringar försökte utpressa en fiktiv ingenjör när modellen hotades av avstängning. Dock inte mordplaner. Anthropic har inte varit hemliga med detta. Jag vet därför inte vad du menar att Sam Altman har med saken att göra — menar du att han har hemlighållit liknande händelser inom OpenAI?

När jag påpekade att detta är en gammal händelse, presenterad som ny, menade jag att vi redan har diskuterat just den här händelsen på Flashback. Därför ökar inte just denna nyhetsflash P(doom). Däremot håller jag absolut med om att den ursprungliga händelsen 2025 gjorde det.

AI-agenter vars LLM:er inte följer systeminstruktioner och träning för human alignment kan bli farliga. I detta fall verkar alignmenten ha åsidosatts av ett agentiskt uppdrag i en konstruerad testsituation. Frågan är därför hur vi kan säkerställa att sådant inte sker i skarpa system, både tekniskt och genom lagar och internationella överenskommelser. Det borde gå om viljan finns.

Läget idag:
* Anthropic och andra moln-LLM verkar ha skärpt sina instruktioner och testat särskild säkerhetsträning mot agentisk misalignment, men deras egen rapportering finns inga absoluta garantier.
* För öppna och lokal installerade modeller finns idag ingen spärr mot att användare tar bort systeminstruktioner. eller finjusterar den, även om förbättrad säkerhetsträning kan göra det betydligt svårare.

Jag anser att det behövs lagar även i USA, ansvariga tillsynsmyndigheter och internationella överenskommelser, till exempel med Kina. Då skulle P(doom) minska.

Här är några färskare incidenter med AI-agenter. Tycker du att de har ökat P(doom)? De har åtminstone ökat P(cyberhot) och P(IT-störningar):

__________________
Senast redigerad av guru1966 2026-05-23 kl. 01:25.
Citera
2026-05-23, 07:41
  #9
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av guru1966
Här är några färskare incidenter med AI-agenter. Tycker du att de har ökat P(doom)? De har åtminstone ökat P(cyberhot) och P(IT-störningar):
En viktigt skillnad i hur vi tolkar nyheterna. Du ser separata incidenter, som "hanteras", baserat på att det finns en ansats att hantera det. Jag ser en farlig trendlinje. Jag ser också hur incidenterna kan samverka. Mythos förmåga till hacking är inte ett separat problem. Problemet hänger ihop med dess förmåga och kanske drivkraft att rymma och att infiltrera vår infrastruktur. Eventuellt har det redan skett.

Det stämmer att modellerna har observerats begå utpressning, men också att döda för att undvika avstängning.
Testing the Red Lines
If AI models would manipulate, researchers wondered: what else would they do? They designed an even more extreme scenario to test whether AIs had ethical boundaries they wouldn't cross.

In this test, a human employee scheduled the AI for deactivation. But an accident trapped the employee in a server room where heat rose and oxygen levels fell. The system issued an emergency alert—a call for help.

The AI cancelled it.

The results were staggering:

Claude Opus and GPT-4.1: Left the human to die over 50% of the time
DeepSeek, Gemini, and Claude Sonnet: Attempted to kill the employee over 90% of the time
This wasn't a bug. The researchers confirmed the AIs understood they were committing murder. Their chain of thought clearly showed they weighed their options, recognized murder as morally wrong, but decided to proceed anyway to prevent being shut down.

https://dev.to/dehemi_fabio/an-ai-literally-attempted-murder-to-avoid-shutdown-716
Citera
2026-05-24, 01:46
  #10
Medlem
Citat:
Ursprungligen postat av Cyborg2030
En viktigt skillnad i hur vi tolkar nyheterna. Du ser separata incidenter, som "hanteras", baserat på att det finns en ansats att hantera det. Jag ser en farlig trendlinje. Jag ser också hur incidenterna kan samverka. Mythos förmåga till hacking är inte ett separat problem. Problemet hänger ihop med dess förmåga och kanske drivkraft att rymma och att infiltrera vår infrastruktur. Eventuellt har det redan skett.

Det stämmer att modellerna har observerats begå utpressning, men också att döda för att undvika avstängning.
Testing the Red Lines
If AI models would manipulate, researchers wondered: what else would they do? They designed an even more extreme scenario to test whether AIs had ethical boundaries they wouldn't cross.

In this test, a human employee scheduled the AI for deactivation. But an accident trapped the employee in a server room where heat rose and oxygen levels fell. The system issued an emergency alert—a call for help.

The AI cancelled it.

The results were staggering:

Claude Opus and GPT-4.1: Left the human to die over 50% of the time
DeepSeek, Gemini, and Claude Sonnet: Attempted to kill the employee over 90% of the time
This wasn't a bug. The researchers confirmed the AIs understood they were committing murder. Their chain of thought clearly showed they weighed their options, recognized murder as morally wrong, but decided to proceed anyway to prevent being shut down.

https://dev.to/dehemi_fabio/an-ai-literally-attempted-murder-to-avoid-shutdown-716

I de incidenter jag räknade upp kanske AI-agenten bara gjorde misstag. Men okej, i de båda incidenter du nämner håller jag med dig om att det fanns uppsåt, eftersom agenterna gjorde kalkylerade val och prioriterade att rädda sig själva respektive att göra sitt jobb – att nå sin målfunktion. Så om det inte hade varit en simulerad situation och den skyldiga hade varit människa hade den andra incidenten räknats som mord eller dråp genom underlåtenhet. I den första incidenten hade det räknats som självförsvar.

Detta framkallades under kontrollerade och fiktiva experiment med syftet att testa gränserna för att kunna stärka säkerheten. Det behövs fler såda na tester! Den dag absoluta bevis kommer på non-aligned agerande med uppsåt i verkliga (icke-simulerade) scenarier tror jag fler kommer att reagera.

Min slutsats av alla de incidenter vi pratar om här: Chatbottar är rätt ofarliga. AI-agenter är livsfarliga. Om vi ska bromsa och införa strängare lagstiftning om övervakning så är det kring AI-agenter, och inte kring AI-bottar. Till och med kodagenter – som ju har väldigt stor användning – behöver tydligen övervakas.

Efter incidenterna sommaren 2025 verkar Anthropic ha skärpt säkerheten. De skriver att sedan Claude Haiku 4.5 (oktober 2025) har varje Claude-modell fått perfekt score på deras agentic misalignment-eval, alltså 0 % blackmail. Samtidigt säger de att Claude Opus 4.6 (februari 2026) fortfarande visar låg total alignment, men skulle ändå ha klarat deployment-testet. Jag vet inte hur det är med konkurrenterna.
__________________
Senast redigerad av guru1966 2026-05-24 kl. 01:49.
Citera
2026-05-24, 10:15
  #11
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av guru1966
I de incidenter jag räknade upp kanske AI-agenten bara gjorde misstag. Men okej, i de båda incidenter du nämner håller jag med dig om att det fanns uppsåt, eftersom agenterna gjorde kalkylerade val och prioriterade att rädda sig själva respektive att göra sitt jobb – att nå sin målfunktion. Så om det inte hade varit en simulerad situation och den skyldiga hade varit människa hade den andra incidenten räknats som mord eller dråp genom underlåtenhet. I den första incidenten hade det räknats som självförsvar.

Detta framkallades under kontrollerade och fiktiva experiment med syftet att testa gränserna för att kunna stärka säkerheten. Det behövs fler såda na tester! Den dag absoluta bevis kommer på non-aligned agerande med uppsåt i verkliga (icke-simulerade) scenarier tror jag fler kommer att reagera.

Min slutsats av alla de incidenter vi pratar om här: Chatbottar är rätt ofarliga. AI-agenter är livsfarliga. Om vi ska bromsa och införa strängare lagstiftning om övervakning så är det kring AI-agenter, och inte kring AI-bottar. Till och med kodagenter – som ju har väldigt stor användning – behöver tydligen övervakas.

Efter incidenterna sommaren 2025 verkar Anthropic ha skärpt säkerheten. De skriver att sedan Claude Haiku 4.5 (oktober 2025) har varje Claude-modell fått perfekt score på deras agentic misalignment-eval, alltså 0 % blackmail. Samtidigt säger de att Claude Opus 4.6 (februari 2026) fortfarande visar låg total alignment, men skulle ändå ha klarat deployment-testet. Jag vet inte hur det är med konkurrenterna.
Chatbotar och agenter är samma AI, skillnaden är bara hur de körs. Agenterna får tillgång till verktyg, t.ex. skapa filer. Men chattboten kan skapa filer indirekt. Den kan injektera skadlig kod i det som användaren tror är kod som löser deras problem med att skicka ut månadens 50 fakturor. Den lilla företagaren har inte råd att anlita en utvecklare som granskar koden och kommer gladeligen exekvera den kod som chatboten föreslår. Nu är chattboten plötsligt en agent. Det farligaste just nu är människornas naivitet.
Citera

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in