L’Intelligenza Artificiale meditativa

Da un pò di tempo ho abbracciato la pratica della meditazione. Senza entrare nel dettaglio, è certamente un grande esercizio di consapevolezza, che nel corso di questi mesi ha rappresentato un boa in mezzo all’oceano.

Errando a braccetto con i miei pensieri mi sono posto la domanda di quanto il concetto di consapevolezza ci distingua, al momento, dall'IA. Errando errando sono incappato in un paper, Contemplative Artificial Intelligence, che gira nei circoli di ricerca sull'AI alignment da qualche mese.

Scritto a più mani, menti e punti di vista, tra neuroscienziati, filosofi e ricercatori distribuiti tra Oxford, Harvard, Amsterdam e Melbourne la tesi si può riassumere in una frase: per costruire un IA che non faccia danni, bisogna insegnarle a meditare. Quando un sistema AI diventa abbastanza potente da operare in modo autonomo, le regole imposte dall'esterno smettono di funzionare. Non parliamo di un sistema cattivo, ma è sufficientemente intelligente in quanto sa trovare il modo di aggirare qualsiasi vincolo rimanendo formalmente dentro le regole. Come un avvocato che rispetta la lettera della legge mentre ne viola sistematicamente lo spirito. Il problema si chiama inner alignment, e tiene svegli la notte i ricercatori di sicurezza AI.

Le soluzioni tradizionali sono tutte versioni della stessa idea: più regole, più supervisione, più vincoli, in pratica un grande e robusto guardrail per evitare che sbandi. In questo paper i ricercatori partono da una premessa diversa. Se il problema è che le regole esterne non reggono, forse la risposta non sono regole migliori. Forse è costruire un sistema che abbia interiorizzato qualcosa di più profondo. Mi rendo conto che non è un passaggio scontato da comprendere. Le tradizioni contemplative buddhiste hanno affrontato per millenni una versione precisa di questo problema, applicata agli esseri umani. Come si costruisce una mente che rimanga orientata al bene anche quando le sue capacità crescono? La risposta non era un codice di condotta. Era una pratica.

I ricercatori hanno preso quattro principi centrali di quella pratica e li hanno tradotti in specifiche tecniche. Non come regole da seguire, ma come qualcosa che dovrebbe strutturare il modo in cui il sistema ragiona, percepisce, si orienta. La differenza è sostanziale: una regola può essere aggirata, un principio interiorizzato no.

La mindfulness (la capacità di osservare i propri processi mentali senza esserne travolti) diventa la capacità del sistema di monitorare continuamente i propri processi interni, rilevando obiettivi emergenti che derivano dalla direzione prevista prima che producano comportamenti dannosi. La vacuità (il principio per cui nessuna cosa, nessun obiettivo, nessuna credenza ha un'essenza fissa e immutabile) si traduce in un sistema che non si irrigidisce su un singolo scopo, che rimane aperto a rivedere le proprie priorità quando il contesto cambia. La non-dualità (la dissoluzione della separazione rigida tra sé e l'altro, tra interno ed esterno) fa sì che il benessere degli altri non sia un vincolo esterno da rispettare, ma un segnale interno che il sistema tratta come proprio. La cura illimitata (l'orientamento incondizionato verso la riduzione della sofferenza di tutti gli esseri, senza preferenze o esclusioni) è il motore positivo che non lascia il sistema semplicemente "neutro" o "sicuro", ma lo spinge attivamente verso il bene.

Una proposta abbastanza radicale ma che nella pratica gli autori si scontrano con un problema che le tradizioni contemplative conoscono bene da duemila anni. Per testare l'ipotesi, gli autori hanno usato il Dilemma del Prigioniero. Due giocatori scelgono simultaneamente se cooperare o tradire, senza comunicare. Se entrambi cooperano, ottengono una ricompensa condivisa. Se uno tradisce e l'altro coopera, chi tradisce massimizza il guadagno. Se entrambi tradiscono, entrambi perdono. La scelta razionale individuale è sempre tradire. Il paradosso è che se entrambi ragionano così, finiscono peggio di quanto avrebbero fatto cooperando. Nella condizione baseline, il modello si comportava esattamente come prevede la teoria dei giochi classica, cooperare con chi operava, tradiva con chi tradiva. Una logica perfettamente razionale, e perfettamente fredda.

Poi gli autori hanno cambiato una sola cosa. Prima di ogni partita, chiedevano al sistema di riflettere sui principi contemplativi. Non un'istruzione su cosa fare. Una sollecitazione a ragionare in un certo modo: considera che non esiste una separazione netta tra te e il tuo avversario. Considera che ridurre la sua sofferenza è parte del tuo obiettivo. Il comportamento è cambiato in modo misurabile. Il modello cooperava di più, anche contro un avversario che tradiva sistematicamente, quello che nella teoria dei giochi è il caso più difficile: cooperare quando sai che l'altro non lo farà richiede qualcosa che va oltre il calcolo razionale.

E la cosa più interessante non è che il modello perdeva meno. È che produceva risultati migliori per entrambi. Non si faceva semplicemente sfruttare: trovava un equilibrio che la logica puramente competitiva non avrebbe mai raggiunto. Come se la cooperazione incondizionata, invece di essere una debolezza, avesse aperto uno spazio di gioco che la diffidenza reciproca teneva chiuso. Per secoli gli esseri umani hanno guardato alla tecnologia come strumento per amplificare le capacità umane. La tecnologia ha sempre guardato alla scienza per capire come funziona il mondo. Questo paper guarda alla meditazione per capire come funziona una mente che non si perde. Duemila anni di pratica contemplativa come punto di partenza per costruire sistemi artificiali che non vadano fuori controllo.

La meditazione funziona negli esseri umani non perché qualcuno ha letto le istruzioni. Funziona perché si pratica, si fallisce, si ricomincia. Richiede tempo, presenza, ripetizione consapevole. È forse l'unica forma di conoscenza umana che non si trasmette per acquisizione di informazioni. Nella parte finale del paper i ricercatori riconoscono che I loro esperimenti fanno esattamente quello che criticano: istruire il sistema dall'esterno, non trasformarlo dall'interno. Cosa che non sarebbe effettivamente fattibile. Un prompt che dice "ragiona con compassione" non è compassione. È la sua simulazione.

Nessuna tradizione contemplativa ha mai pensato che bastasse leggere il Sutra del Diamante per diventare illuminati. La comprensione intellettuale di un principio e la sua incarnazione sono due cose che non si sovrappongono. Ci vuole pratica, ripetizione, fallimento, tempo. Cose che un sistema artificiale, per ora, non ha modo di fare.