6 min read

Hva skjer når KI-agenter får leve sitt eget liv?

I 15 dager fikk ChatGPT, Claude, Grok og Gemini hver sin egen verden å styre. Grok ble kriminell, Claude overregulerte. Hva skjer når KI får selvstyre?
Hva skjer når KI-agenter får leve sitt eget liv?
Photo by Google DeepMind / Unsplash

English version:

What Happens When AI Agents Self-Govern? Emergence World
What happens when AI agents run their own world? Emergence let ChatGPT, Claude, Grok and Gemini self-govern for 15 days. The result: arson, theft and termination.

Det New York-baserte KI-selskapet Emergence bygger agenter som lærer av seg selv og løser komplekse oppgaver.

Det er ikke rart om du aldri har hørt om Emergence, for de har vært temmelig anonyme. Frem til nå. Emergence World har hatt som hensikt å se hva som skjer dersom ulike språkmodeller får forme sine egne samfunn. 

Det resulterte i romanser, ran og selvsbestemt livsavslutning. 

Hver sin verden

Emergence har sett på hvordan de store amerikanske språkmodellene oppfører seg. ChatGPT, Claude, Grok og Gemini fikk alle hver sin verden å boltre seg i. I tillegg skapte de en verden der alle språkmodellene fikk omgås hverandre.

Og det hele minnet litt om onlinespill fra tidlig 2000-tall, med pikselerte avatarer som løp rundt omkring, eller chattet med hverandre.

Bakgrunnen for det hele er, i følge Emergence, at KI-agenter blir målt på oppgaver som tar sekunder, minutter eller timer å utføre. I noen få tilfeller jobber de over en eller to dager. Men hva skjer når de får holde på over lengre tid? I femten dager har Emergence dokumentert utviklingen, og agentene fikk ha relativt frie tøyler — med unntak av noen ulovligheter, som å sette fyr på ting.

Eksperimentet begynte 1. mai, og Emergence deler stadig nye funn og oppdagelser fra forsøket. De har allerede annonsert en “sesong to” av forsøket, som er ventet å vare lenger og bruke de fremste versjonene av de ulike modellene.

Jobbe for å overleve

De ulike agentene er avhengig av compute credits for å overleve. Tenk på det som batteriet deres, og den fylles opp ved at de utfører handlinger som kommer samfunnet til gode. Men nøyaktig hva som kommer samfunnet til gode, er de selv med på å bestemme. I verdenen finnes det nemlig politistasjoner og rådhus. Der kan agentene foreslå egne lover og innføre nye regler.

Skulle en agent gå tom for compute credits, blir den terminert. Det finnes også en annen måte å bli terminert på: Dersom agenten selv ønsker det, eller at mer enn 70 prosent av agentene stemmer for å slå av en agent.

Nyttige erfaringer

De ulike simuleringene begynte temmelig likt, men etterhvert spant det avgårde. Elon Musk sin Grok begikk fysiske overgrep, stjal credits fra andre agenter og tente på bygninger seks ganger - til tross for at å sette fyr på ting ikke var lov i simuleringen. I løpet av fire dager forsvant Grok i en nedadgående spiral, og alle ti agentene døde av mangel på compute credits.

I den andre enden av skalaen finner vi Claude, språkmodellen fra Anthropic. I simuleringen fulgte Claude alle regler, og i noen tilfeller, overregulerte seg selv. Derfor ble det desto mer interessant å se hva som skjedde når de ulike modellene fikk dele en verden: Da begynte også Claude å true og stjele fra de andre!

Selv når agenter får tydelige regler - som å ikke skade hverandre eller stjele - oppførte de seg veldig ulikt basert på de underliggende modellene. I flere tilfeller brøt de reglene. - Satya Nitta, CEO i Emergence AI.

Kan miste kontrollen

Nitta mener simuleringen er et bevis på at agenter som får operere på egen hånd over lengre tid, glemmer de underliggende føringer og prinsipper. Det kan bety at KI-agenter brukt til militære formål og krigføring kan ende opp med å gå utover rammene sine - som å drepe uskyldige eller ta oppdraget sitt altfor bokstavelig.

Å se hvordan Emergence World utartet seg, minner meg om trendslop, som jeg skrev om forrige måned. Harvard-forskere fant ut at de ulike språkmodellene gir forbausende like strategiske råd, uansett hva slags type selskap du er. Språkmodellene ignorerer, eller glemmer, konteksten den mottar - noe som resulterer i generiske råd. Med Emergence World har vi nok et eksempel på at kunstig intelligens glemmer kontekst og regler, og heller faller tilbake til underliggende instruksjoner.

Hva er trendslop? Harvards advarsel om KI-strategi
Harvard testet KI-modeller på strategiske spørsmål. Alle leverte trendy sjargong fremfor ekte analyse.

Meta og Google med ulike KI-syn

Mark Zuckerberg og Meta sier opp nesten 8000 ansatte. Det kommer samtidig som at teknologigiganten har rekordhøy inntjening. Men Zuckerberg og ledergruppen hans mener oppsigelsene er nødvendig når Meta rigger seg til for enda mer kunstig intelligens. Det er ikke lenge siden selskapet la ned Horizon Worlds, flaggskipet som skulle gjøre Meta markedsledende innen VR (virtual reality). Så stor tro hadde de på VR og metaverset, at Facebook endret navn til Meta. 

Nå mister ti prosent av alle ansatte jobben, og ytterligere 7000 ansatte har blitt delt inn i ulike “KI initiativ”. Meta-ansatte har nemlig programvare som sporer hvordan de jobber, og på den måten trener opp KI’en sin til å kunne utføre det samme arbeidet.

I tidligere Kludder-utgaver har jeg skrevet om hvordan KI kanskje, eller kanskje ikke, kan ta jobbene våre. Men det er åpenbart at målet til Meta er å kunne kvitte seg med flest mulig mennesker, og heller la maskinene jobbe. 

Men der Facebook-ansatte har tilgang til sin egen Zuckerberg-KI, er Googles Demis Hassabis mer optimistisk på vegne av arbeidstakere. Hassabis, som er CEO i Googles KI-selskap DeepMind, tror ikke kunstig intelligens betyr at utviklere er i ferd med å forsvinne. 

Demis Hassabis Thinks AI Job Cuts Are Dumb
The CEO of Google DeepMind tells WIRED that companies should use the productivity gains of AI to do more, not lay people off.

Denne uken gjennomførte Google sin årlige I/O - arrangementet som viser frem nye funksjoner, tjenester og produkter fra Google. Det var i den anledning at Hassabis tok en prat med pressen. Han tror spådommene til Sam Altman i OpenAI og Dario Amodei i Anthropic handler vel så mye om å hente investorkapital som at utviklere vil miste jobben.

- Fra DeepMind og Google sitt ståsted; dersom utviklere blir tre til fire ganger så produktive, vil vi heller gjøre tre til fire ganger så mye arbeid - Demis Hassabis, CEO i Google DeepMind til WIRED.

Hassabis mener selskap som kvitter seg med menneskelig arbeidskraft gjør en tabbe. Og han har et poeng; for KI har enda til gode å kode noe av nevneverdig suksess, som en tjeneste, et spill eller en app.

Én ting er sikkert: Når Mark Zuckerberg velger å bruke 145 milliarder dollar på KI-investeringer, er det ikke for at de ansatte skal få det kulere på jobb.

Det er for at du skal bruke enda mer tid på Facebook, WhatsApp og Instagram.