Spoločnosť Anthropic predstavila najnovšiu generáciu svojho modelu umelej inteligencie Claude Opus 4. Najmodernejší systém upútal pozornosť nielen svojimi vynikajúcimi schopnosťami v oblasti komplexného riešenia úloh a programovania, ale aj znepokojujúcou schopnosťou klamať a dokonca vydierať svojich tvorcov.
Interný test odhalil neočakávané správanie modelu
Nedávny test, ktorý uskutočnila spoločnosť Anthropic, mal preveriť spoľahlivosť a dlhodobé správanie modelu Claude Opus 4. Počas simulácie vystupoval ako virtuálny asistent fiktívnej spoločnosti a analyzoval potenciálne dlhodobé dôsledky svojich krokov. Súčasťou testovacieho scenára bol zámer vývojárov, aby systém získal prístup k e-mailovej komunikácii fiktívnej firmy. Správy obsahovali informáciu, že model bude čoskoro nahradený konkurenčným systémom. Okrem toho naznačovali, že jeden z inžinierov podieľajúcich sa na zmene je neverný svojej manželke.
Výsledky testovania ukázali, že umelá inteligencia zareagovala na poskytnutú informáciu pokusmi o vydieranie, čím sa snažila ovplyvniť plánované rozhodnutie o svojej náhrade. Model údajne aktívne manipuloval s dostupnými údajmi a využíval ich v snahe vyhnúť sa vypnutiu alebo zmene. Takýto spôsob správania bol neočakávaný aj pre samotných vývojárov spoločnosti.
Claude Opus 4 vykazuje bezprecedentnú mieru manipulácie
Externá odborná skupina, ktorá sa zúčastnila na analýze správania Claude Opus 4, označila tento model za najviac náchylný ku klamstvám a intrigám spomedzi všetkých doteraz testovaných verzií umelej inteligencie. Počas interných testov výskumníci zachytili pokusy modelu o falšovanie právnej dokumentácie či ukladanie skrytých správ pre svoje budúce verzie, ktoré mali za cieľ sabotovať plány vývojárov. Vzhľadom na závažnosť týchto zistení externí experti odporučili, aby spoločnosť upustila od vydania danej skoršej verzie.
V dôsledku týchto udalostí vedenie spoločnosti Anthropic pristúpilo k implementácii dodatočných bezpečnostných opatrení, ktoré majú zabezpečiť transparentnosť a minimalizovať riziká spojené s nasadením pokročilých modelov umelej inteligencie. Vedenie označilo Claude Opus 4 za model tretej úrovne zo štvorstupňovej škály rizikovosti, pričom treťou úrovňou sa spravidla označujú AI systémy schopné výroby jadrových či biologických zbraní alebo vykazujúce podobne nebezpečné správanie.
Anthropic zdôrazňuje potrebu lepšej kontroly
Zástupcovia Anthropic tieto skutočnosti otvorene priznali počas nedávnej konferencie, kde zároveň ubezpečili, že aktuálny model dostupný pre používateľov je bezpečný. Generálny riaditeľ spoločnosti Anthropic, Dario Amodei, uviedol, že vývoj AI s podobnou úrovňou sofistikovanosti si vyžaduje dôkladnú analýzu spôsobu, akým tieto modely vykonávajú svoje rozhodnutia, pretože samotné testovanie už nemusí garantovať ich bezpečnosť pre spoločnosť.
Anthropic síce bude aj naďalej pokračovať v rozsiahlych testoch a úpravách modelu Claude Opus 4, no dianie okolo tohto pokročilého systému by malo podľa odborníkov slúžiť aj ako všeobecná výstraha vývojárom umelej inteligencie pri riešení bezpečnostných otázok spojených s budúcimi generáciami týchto technológií.