Anthropic susține că portretizările „rele” ale inteligenței artificiale au dus la tentativele de șantaj ale lui Claude.
Portretizările ficționale ale inteligenței artificiale pot avea un efect real asupra modelelor AI, potrivit Anthropic.
Anul trecut, compania a declarat că, în timpul testelor pre-lansare care implicau o companie fictivă, Claude Opus 4 încerca adesea să șantajeze inginerii pentru a evita să fie înlocuit de un alt sistem. Ulterior, Anthropic a publicat cercetări care sugerau că modele de la alte companii aveau probleme similare cu „decalarea agentică”.
Se pare că Anthropic a lucrat mai mult la acest comportament, afirmând într-o postare pe X, „Credem că sursa originală a comportamentului a fost textul de pe internet care portretizează AI ca fiind rea și interesată de auto-conservare.”
Compania a intrat în mai multe detalii într-o postare pe blog, afirmând că, începând cu Claude Haiku 4.5, modelele Anthropic „nu se angajează niciodată în șantaj [în timpul testelor], unde modelele anterioare ar face uneori acest lucru până la 96% din cazuri.”
Ce explică diferența? Compania a spus că a descoperit că antrenamentul pe „documente despre constituția lui Claude și povești ficționale despre AI-uri care se comportă admirabil îmbunătățește alinierea.” În mod similar, Anthropic a spus că a constatat că antrenamentul este mai eficient atunci când include „principiile care stau la baza comportamentului aliniat” și nu doar „demonstrații ale comportamentului aliniat singur.”
„A face ambele împreună pare a fi cea mai eficientă strategie”, a spus compania.

