Home Phone Email

Cicero: l’Intelligenza Artificiale di Meta AI che vince a Diplomacy

Cicero: l'Intelligenza Artificiale di Meta AI che vince a Diplomacy, il gioco strategico più complesso del mondo.

I giochi sono da sempre un terreno di prova per i nuovi progressi dell’Intelligenza Artificiale:

Nel 1997 Deep Blue vince sul Gran Maestro di scacchi Garry Kasparov.

Nel 2016 AlphaGo vince contro il campione del mondo di Go, Lee Sedol.

Nel 2019 Pluribus supera in bluff i migliori professionisti di poker.

Nel 2021 GoExplore riesce a battere il record su uno dei giochi più difficili dell’Atari.

Nel 2022, CICERO è la prima Intelligenza Artificiale a giocare a livello umano in Diplomacy.

Che cos’è Diplomacy? 

Diplomacy è un gioco da tavolo per sette giocatori che può essere descritto come una combinazione del gioco da tavolo Risiko, del gioco di carte Poker e del programma televisivo Survivor – molto simile alla nostra Isola dei Famosi.

Il gioco inizia con ognuno dei sette giocatori che controlla una delle potenze europee nell’anno 1901.

A differenza di molti giochi da tavolo in cui è sufficiente essere i migliori a muovere i pezzi sulla scacchiera (scacchi, dama, GO etc.), Diplomacy ha una componente cooperativa: l’unico modo per vincere è collaborare e negoziare con gli altri giocatori per conquistare il maggior numero possibile di territori.

Questo coordinamento si ottiene attraverso una negoziazione in linguaggio naturale (termine fondamentale e che sarà molto importante per il futuro) che avviene prima di ogni mossa del gioco.

Le basi di Diplomacy:

– L’obiettivo è controllare la maggior parte della mappa sul tabellone di gioco.

– I giocatori negoziano alleanze e si sostengono a vicenda attraverso conversazioni private, uno a uno (fattore molto importante da tenere in considerazione).

– Non ci sono accordi vincolanti, per cui i giocatori possono travisare i loro piani e fare il doppio gioco.

– Dopo le trattative, i giocatori scrivono le loro mosse che vengono poi eseguite simultaneamente (e confidano che gli altri facciano ciò che hanno detto).

– L’unico modo per vincere è creare fiducia, negoziare e cooperare con gli altri giocatori.

È un gioco apparentemente semplice, ma talmente complesso che ci sono dei tutorial lunghi anche 15-20 minuti per comprenderne il regolamento, più tutta una serie di tecniche specifiche che conoscono solo i giocatori più navigati.

Ma perché è stato scelto proprio Diplomacy?

Dal 1988 Diplomacy è considerato un gioco quasi impossibile per l’IA, perché richiede ai giocatori di padroneggiare l’arte di comprendere le motivazioni e le prospettive altrui, di elaborare piani complessi e di adattare le strategie, e quindi di usare il linguaggio naturale per raggiungere accordi con altre persone, convincerle a stringere partnership e alleanze, e altro ancora.

Diplomacy offre un ambiente particolarmente interessante per lo studio di questo aspetto, perché il gioco richiede di lottare con obiettivi contrastanti e di tradurre questi obiettivi complessi in linguaggio naturale, aggiungendo un livello di complessità rispetto al “normale” gioco di conquista di Risiko.

Per fare un semplice esempio, un giocatore potrebbe scegliere di scendere a compromessi su guadagni a breve termine per mantenere un alleato, con la possibilità che questo alleato lo aiuti a raggiungere una posizione ancora migliore nel turno successivo.

A differenza di giochi come gli scacchi e il go, Diplomacy è un gioco di persone piuttosto che di pezzi. Se un giocatore non è in grado di riconoscere che qualcuno sta probabilmente bluffando o che un altro giocatore vedrebbe una certa mossa come aggressiva, perderà rapidamente la partita. Allo stesso modo, se non parla come una persona vera – mostrando empatia, costruendo relazioni e parlando con cognizione di causa del gioco – non troverà altri giocatori disposti a lavorare con lui.

Diplomacy è molto sfidante per l’Intelligenza Artificiale perché non solo deve trovare la strategia per vincere, ma deve appoggiarsi alla traduzione in linguaggio umano per vincere.

Deve capire le sottigliezze del linguaggio, il doppio gioco, identificare il contesto e così via. In poche parole, non avrebbe potuto vincere senza utilizzare il dialogo e negoziare con gli altri giocatori. 

Nel tentativo di insegnare Diplomacy ad un algoritmo, per decenni i ricercatori hanno costruito varianti semplificate del gameplay con agenti intelligenti incapaci di comunicare in linguaggio naturale. 

Infatti già due anni fa DeepMind ci aveva provato a insegnare ad un algoritmo a giocare a Diplomacy, ma a quanto pare il progetto non è andato in porto (oppure le informazioni ottenute sono state utilizzate per altri progetti).

Ma nessuno ha mai tentato, fino ad oggi, di costruire un agente di IA in grado di negoziare con un dialogo aperto poiché era una sfida al di là delle capacità dell’IA esistente.

Cosa può fare CICERO?

CICERO ha dimostrato di essere capace di raggiungere prestazioni di livello umano giocando con gli umani su una versione più veloce e online del gioco.

Può dedurre, ad esempio, che più avanti nel gioco avrà bisogno del sostegno di un giocatore in particolare, e quindi elaborare una strategia per conquistare il favore di quella persona – e persino riconoscere i rischi e le opportunità che quel giocatore vede dal suo particolare punto di vista.

Ed è così efficace nell’usare il linguaggio naturale per negoziare con le persone in Diplomacy che spesso queste ultime preferiscono collaborare con CICERO rispetto ad altri partecipanti umani per vincere, dimostrando di non essersi resi conto di avere a che fare con un’Intelligenza Artificiale.

Come funziona CICERO?

CICERO nasce dalla combinazione di due diverse aree dell’IA: il ragionamento strategico (strategic reasoning) e l’elaborazione del linguaggio naturale (natural language processing).

Strategic Reasoning: CICERO riesce a prevedere quali mosse stanno per compiere i giocatori, così come prevedere quali mosse i giocatori si aspettano che lui faccia, e usa queste informazioni per le proprie strategie.

Natural Language Processing: CICERO basa le proprie conversazioni sui propri piani ben selezionati, così può negoziare, offrire consigli, condividere informazioni, e stipulare accordi con i giocatori – non usa il dialogo solo per fare conversazione, ma per raggiungere un obiettivo.

Unendo queste due aree, CICERO riesce a raggiungere lo scopo.

Strategia e pianificazione basate sui dialoghi

In passato, gli agenti intelligenti nei giochi come gli scacchi, il Go e il poker sono stati creati attraverso l’apprendimento per rinforzo o reinforcement learning (RL): gli agenti imparano a vincere giocando milioni di partite contro altre copie di se stessi, dando loro un rinforzo positivo ogni volta che raggiungono il risultato sperato, in modo da riconoscere quale obiettivo devono raggiungere.

Tuttavia, i giochi che prevedono la cooperazione richiedono il modeling di ciò che gli esseri umani faranno nella vita reale, piuttosto che il modeling di ciò che dovrebbero fare se fossero copie perfette dell’agente.

Per risolvere questo problema, CICERO esegue un algoritmo di pianificazione che bilancia la coerenza del dialogo con la razionalità.

CICERO prevede innanzitutto le scelte degli altri giocatori per il turno corrente, in base ai dialoghi.

Poi esegue un algoritmo di pianificazione che migliora iterativamente queste previsioni cercando di scegliere nuove politiche che abbiano un valore atteso più alto in base alle politiche previste dagli altri giocatori, cercando anche di mantenere le nuove previsioni vicine a quelle originali.

CICERO riesce a prevedere le mosse che gli altri giocatori probabilmente faranno, nonché le mosse che i giocatori pensano che CICERO farà, date le loro conversazioni passate e lo stato del tabellone di gioco.

In base a ciò, CICERO elabora piani per se stesso e per gli altri giocatori che sono reciprocamente vantaggiosi in base a queste previsioni.

La pianificazione non solo permette a CICERO di trovare opportunità di cooperazione reciprocamente vantaggiose, ma lo aiuta anche a trovare mosse efficaci quando la cooperazione non è possibile.

Generazione di un dialogo naturale e mirato

In Diplomacy, il modo in cui un giocatore parla con gli altri può essere ancora più importante di come muove i propri pezzi.

CICERO è in grado di parlare in modo chiaro e persuasivo quando si tratta di stabilire strategie con altri giocatori.

I modelli linguistici si interfacciano con il symbolic reasoning, dando sensatezza al proprio dialogo.

Il modello di dialogo controllabile permette a CICERO di fondare le conversazioni su una serie di piani accuratamente scelti, spesso reciprocamente vantaggiosi sia per CICERO che per l’altro giocatore.

Le conversazioni di CICERO sono generate da un dialogo libero che è profondamente radicato nel gioco in corso.

Ad esempio, CICERO può negoziare i piani tattici con un altro giocatore, rassicurare un alleato sulle sue intenzioni, discutere le dinamiche strategiche più ampie del gioco o anche solo fare delle chiacchiere casuali, su quasi tutto ciò che un giocatore umano potrebbe discutere.

Per esempio, in una partita dimostrativa CICERO ha chiesto a un giocatore un sostegno immediato, mentre ha fatto pressione su un altro affinché prendesse in considerazione un’alleanza più avanti nel gioco.

Come è stato trainato CICERO?

Per costruire un modello di dialogo controllabile, il team di ricercatori è partito con un modello linguistico da 2,7 miliardi di parametri pre-addestrato su testi provenienti da Internet, con un fine tuning su oltre 40.000 partite umane su un portale online.

Per la precisione:

– Un corpus di 125.300 giochi umani giocati sulla piattaforma online (di questi 40.400 includevano dialoghi, per un totale di 12.900.000 messaggi individuali).

– Un modello linguistico di grandi dimensioni che sembra essere stato addestrato su miliardi di parole, ulteriormente perfezionato sul corpus di dialoghi di gioco.

– Migliaia di annotazioni generate da esperti, che valutano la qualità dei messaggi prodotti da una versione preliminare di Cicero.

– Un’ampia raccolta di data set sintetici, molti dei quali realizzati a mano, per l’addestramento di vari moduli. Per esempio, per addestrare il filtro che esclude i messaggi non validi, è stata creata una raccolta di messaggi non validi costruita a mano.

– Un altro data set ha addestrato Cicero a risolvere la sua propensione a sbagliare il conteggio delle entità sulla scacchiera; un altro ancora è stato progettato per migliorare la comprensione della negazione.

– Un corpus di giochi di autoapprendimento è stato utilizzato per il reinforcement learning, e così via.

Hanno poi sviluppato tecniche per annotare automaticamente i messaggi nei dati di training con le corrispondenti mosse pianificate nel gioco, in modo che al momento dell’inferenza fosse possibile controllare la generazione di dialoghi per discutere le azioni specifiche desiderate dall’agente e dai suoi interlocutori.

Il controllo della generazione di dialoghi in questo modo permette a CICERO di fondare le sue conversazioni su un insieme di piani che sviluppa e rivede nel tempo per negoziare meglio.

Questo aiuta l’agente a coordinarsi con gli altri giocatori e a persuaderli in modo più efficace.

La qualità del dialogo viene migliorata ulteriormente utilizzando diversi meccanismi di filtraggio – come i classificatori addestrati a distinguere tra testo umano e testo generato dal modello – che assicurano che il dialogo sia sensato, coerente con lo stato attuale del gioco e con i messaggi precedenti, e strategicamente valido.

– È capace di ottenere fiducia, senza dimenticare la tattica,

– È capace di fare prompting (consigliare sottilmente di compiere un’azione),

– Chiede scusa quando “tradisce” un alleato,

– Sa cosa dire e cosa non dire per ottenere la vittoria, grazie ad un sistema di bloccaggio.

Come è stato definito CICERO dai suoi stessi creatori:

Queste sono le definizioni che sono state date a CICERO sia dai suoi creatori che da giocatori di Diplomacy, tra cui il 3 volte campione mondiale:

CICERO è:

– Simile all’umano

– Stratega

– Frustrante

– Persuasivo

– Resiliente

– Spietato (ma non in maniera fastidiosa)

– Non conosce emozioni che lo spingano a prendere decisioni negative

– Paziente

– Empatico

– Diretto

– Audace

– Meticoloso

– Onesto

Le dichiarazioni di Gary Marcus, il più grande critico dell’Intelligenza Artificiale

I risultati sono senza dubbio impressionanti. Ma quanto si tratta di un progresso verso un sistema in grado di interagire in modo intelligente con gli esseri umani in situazioni reali? Dobbiamo preoccuparci che Meta abbia costruito un’IA in grado di manipolare le persone per raggiungere il suo obiettivo di dominare il mondo, come ha scritto un nostro amico, forse in modo semiserio? Siamo in una sorta di nuovo rischio, visto che si tratta di un inganno? Meta AI, a sua discolpa, ha pubblicato il codice di Cicero open-source in modo che la comunità di ricerca possa iniziare a esplorare queste domande.

La sua [di CICERO] struttura di alto livello è notevolmente più complessa di sistemi come AlphaZero, che padroneggia Go e scacchi, o GPT-3, che si concentra esclusivamente su sequenze di parole. CICERO è per molti versi una meraviglia: ha realizzato l’integrazione più profonda e più estesa di linguaggio e azione in un mondo dinamico di qualsiasi sistema di intelligenza artificiale costruito finora. È anche riuscito a realizzare interazioni complesse con gli esseri umani in una forma mai vista prima.

È meno chiaro quanto siano generalizzabili le feature di CICERO.

Il sistema è abbastanza complesso da non poterlo prevedere con grande sicurezza, ma allo stato attuale delle cose le prospettive di generalizzazione ci sembrano piuttosto limitate; lo stile di lavoro potrebbe essere utile in altri problemi, ma è possibile che non gran parte delle specificità dell’architettura sopravvivano se il sistema viene applicato ad altri problemi, come fare offerte in giochi come il bridge, o negoziare un programma di lavoro per un team che lavora a un progetto, o organizzare un matrimonio.