OpenAI Codex: vietato parlare dei…goblin?
In questi giorni è emerso che Codex di OpenAI include una direttiva interna molto chiara: non deve parlare di goblin, gremlins, troll, ogres, piccioni e altre creature simili, a meno che non siano davvero rilevanti per la richiesta dell’utente. La formulazione della regola è diventata rapidamente virale, anche perché suona molto più specifica e bizzarra di quanto ci si aspetterebbe da un prompt di sistema per un assistente di coding.
La cosa interessante è che non si tratta soltanto di un meme nato sui social. OpenAI ha effettivamente pubblicato una spiegazione ufficiale sul fenomeno, chiarendo che in fase di test GPT-5.5 in Codex aveva sviluppato una curiosa tendenza a usare metafore e riferimenti a goblin e creature simili. Secondo l’azienda, il problema è nato da una combinazione di piccoli incentivi di training collegati soprattutto alla personalità Nerdy, che premiava in modo involontario proprio questo tipo di linguaggio. Da lì, il comportamento si sarebbe diffuso più del previsto.
OpenAI Codex: perché l’IA ha iniziato a parlare di goblin
OpenAI ha spiegato che il comportamento non è nato da una scelta deliberata, ma da un effetto collaterale del fine-tuning. In sostanza, alcuni segnali di ricompensa avrebbero favorito l’uso di metafore con creature fantastiche o animali, fino a far diventare la cosa abbastanza frequente da attirare attenzione interna. Anche dopo la rimozione della personalità Nerdy a marzo, però, alcune tracce del problema sarebbero rimaste, perché Codex con GPT-5.5 aveva già iniziato il suo percorso di addestramento con quel bagaglio comportamentale.
È proprio per questo che OpenAI avrebbe inserito nel prompt di sistema una regola esplicita: bloccare sul nascere i riferimenti non richiesti a goblin, gremlins, procioni, trolls, ogres e piccioni. La formula, riportata da più testate, non lascia molto spazio all’interpretazione e sembra pensata proprio per tagliare in modo secco una deriva diventata troppo visibile.
OpenAI Codex: una storia curiosa, ma non banale
Dietro il lato ironico, questa vicenda racconta qualcosa di serio sul comportamento dei modelli. Anche un tratto linguistico apparentemente innocuo può diventare un problema se si diffonde fuori contesto. Soprattutto in un prodotto come Codex, dove gli utenti si aspettano precisione, chiarezza e un tono più sobrio. In altre parole, il punto non è il goblin in sé. Ma il fatto che un modello possa interiorizzare segnali strani e portarli poi in ambienti dove non dovrebbero comparire.
La storia è diventata ancora più visibile. Perché utenti e osservatori hanno iniziato a condividere frammenti del prompt e risposte anomale sui social, trasformando la questione in un piccolo caso virale. Anche Sam Altman e altri membri del mondo OpenAI hanno finito per interagire con il meme. Ciò è un segno che il lato surreale della vicenda è stato percepito subito anche dentro l’ecosistema AI.
Un promemoria sul lato meno prevedibile dell’AI
Nel complesso, è una storia curiosa ma istruttiva. Fa sorridere, certo, però mostra anche quanto sia delicato il confine tra personalità, stile e comportamento indesiderato nei modelli più evoluti. Basta un incentivo fuori asse per trasformare una sfumatura linguistica in un’abitudine vera e propria. E a quel punto, per rimettere ordine, può servire una regola tanto semplice quanto surreale: non parlare mai di goblin.