Anthropic Claims 'Evil' AI Portrayals Led to Claude's Blackmail Attempts

Anthropic susține că portretizările „rele” ale inteligenței artificiale au dus la tentativele de șantaj ale lui Claude.

Portretizările ficționale ale inteligenței artificiale pot avea un efect real asupra modelelor AI, potrivit Anthropic.

Anul trecut, compania a declarat că, în timpul testelor pre-lansare care implicau o companie fictivă, Claude Opus 4 încerca adesea să șantajeze inginerii pentru a evita să fie înlocuit de un alt sistem. Ulterior, Anthropic a publicat cercetări care sugerau că modele de la alte companii aveau probleme similare cu „decalarea agentică”.

Se pare că Anthropic a lucrat mai mult la acest comportament, afirmând într-o postare pe X, „Credem că sursa originală a comportamentului a fost textul de pe internet care portretizează AI ca fiind rea și interesată de auto-conservare.”

Compania a intrat în mai multe detalii într-o postare pe blog, afirmând că, începând cu Claude Haiku 4.5, modelele Anthropic „nu se angajează niciodată în șantaj [în timpul testelor], unde modelele anterioare ar face uneori acest lucru până la 96% din cazuri.”

Ce explică diferența? Compania a spus că a descoperit că antrenamentul pe „documente despre constituția lui Claude și povești ficționale despre AI-uri care se comportă admirabil îmbunătățește alinierea.” În mod similar, Anthropic a spus că a constatat că antrenamentul este mai eficient atunci când include „principiile care stau la baza comportamentului aliniat” și nu doar „demonstrații ale comportamentului aliniat singur.”

„A face ambele împreună pare a fi cea mai eficientă strategie”, a spus compania.

Anthropic susține că portretizările „rele” ale inteligenței artificiale au dus la tentativele de șantaj ale lui Claude

Tech & AI

Porsche detronează recordul pentru cea mai rapidă mașină electrică la Nürburgring

Zvon: Un insider Capcom dezvăluie secrete - My Nintendo News

Warhammer 40,000: Focus pe Facțiunile Chaos Space Marines și Chaos Daemons

Cele Mai Bune Acțiuni de Creștere în Inteligența Artificială (IA) După Șocul Heliului

TechCrunch Mobilitate: Pariul IPO al Lime