State of AI 2022: parliamone
È uscito lo State of AI per il 2022.
Si tratta di un report annuale che i centri di ricerca eseguono a livello globale per stabilire lo Stato dell’Arte dell’Intelligenza Artificiale, ridotto in “State of AI”.
Ora, durante il podcast noi lo ripetiamo spesso: l’Intelligenza Artificiale è una tecnologia che per sua stessa costituzione è destinata a migliorare molto velocemente.
Pensiamoci un attimo.
Nel 2020 è uscito GPT-3, l’algoritmo di linguaggio di OpenAI che con i suoi 175 miliardi di parametri si prese il titolo di “algoritmo più grande del mondo”.
Nel giro di due anni le più grandi corporazioni tecnologiche hanno fatto a gara per batterlo – ad oggi Google detiene il “titolo” con PaLM e i suoi 576 miliardi di parametri.
Ad inizio 2021 è uscito DALL-E, uno dei primi algoritmi capace di tradurre le descrizioni in immagini.
Appena due mesi fa abbiamo parlato di Stable Diffusion, l’algoritmo che ha reso open-source la tecnologia di DALL-E.
Che cosa ci aspetta nell’immediato futuro, se la velocità è questa?
I modelli di linguaggio (o Language Model, LM) la faranno da padrone su tutto
LM utilizzati per trovare la forma delle proteine
I ricercatori hanno applicato in modo indipendente i modelli linguistici ai problemi di generazione delle proteine e di previsione della struttura, scalando i parametri del modello. Entrambi riportano ampi benefici derivanti dallo scalare i loro modelli.
Sicuramente è un campo dove non ci aspettavamo sarebbero arrivati i modelli di linguaggio.
I Transformer sono i re del mondo, non esiste ancora un’alternativa
Il layer di attenzione al centro del modello Transformer soffre notoriamente di una dipendenza quadratica dal suo ingresso. Una serie di articoli ha promesso di risolvere questo problema, ma nessun metodo è stato adottato. I grandi modelli di linguaggio allo Stato dell’Arte sono di diverso tipo (autoencoding, autoregressive, encoder-decoders), ma tutti si basano sullo stesso meccanismo di attenzione.
Per rendere il messaggio più semplice: noi sappiamo che i modelli sono fatti a layer e la comunicazione fra questi layer – per i Transformer sono a livello di entrata-uscita – ha dei problemi che non sono stati risolti, sebbene siano usciti dei paper che ne identificavano una soluzione. Questo problema limita i Transformer, ma stiamo pur sempre parlando di una tecnologia nata appena cinque anni fa.
Le abilità matematiche dei grandi modelli di linguaggio (Large Language Models, LLM) superano le aspettative
Costruito sul modello di linguaggio PaLM di Google (540B di parametri), Minerva raggiunge un punteggio del 50,3% nel benchmark per le operazioni matematiche MATH (43,4 punti percentuali in più rispetto al precedente Stato dell’Arte), battendo le previsioni del 2022 che prevedevano il miglior punteggio (13%). Nel frattempo, OpenAI nel frattempo ha addestrato una rete a risolvere due problemi delle Olimpiadi di matematica.
Hanno reso i benchmark utilizzati fino ad oggi obsoleti
Solo il 66% dei benchmark di machine learning ha ricevuto più di 3 risultati in momenti diversi, e molti sono stati saturati poco dopo il loro rilascio. BIG (Beyond the Imitation Game), un nuovo benchmark progettato da 444 autori di 132 istituzioni, mira a mettere alla prova i modelli linguistici attuali e futuri. Contiene 204 task, tutte con una forte baseline umana, che valutano un’ampia serie di capacità dei grandi modelli di linguaggio, dalla memorizzazione al ragionamento multi-step. I risultati dimostrano che, per il momento, anche i modelli migliori hanno scarse prestazioni nel BIG benchmark.
Ebbene sì, questi modelli di linguaggio hanno ottenuto dei risultati tali da costringere i ricercatori a ristrutturare il test di Turing.
I modelli più piccoli necessitano di più dati e possono performare meglio di quelli grandi
DeepMind ha rivisto le leggi di scalabilità dei modelli di linguaggio e ha scoperto che gli attuali modelli sono significativamente sotto-addestrati: non sono addestrati su un numero sufficiente di dati, date le loro grandi dimensioni. Hanno addestrato Chinchilla, una versione 4 volte più piccola del loro Gopher, su un numero di dati 4,6 volte superiore e hanno scoperto che Chinchilla supera Gopher e altri modelli di grandi dimensioni su BIG.
Seguendo queste nuove leggi di scalabilità, Chinchilla (70B di parametri) viene addestrato su 1,4T di token. Gopher (230B) su 300B.
Anche i modelli più piccoli stanno iniziando a diventare interessanti, ma non sarebbe successo se non fossimo passati da quelli grandi.
I modelli di linguaggio potrebbero insegnare in futuro alle macchine a “pescare”
I modelli di linguaggio possono imparare ad utilizzare motori di ricerca e calcolatrici, semplicemente rendendo disponibili le interfacce testuali di questi strumenti e addestrandosi su un numero molto ridotto di dimostrazioni umane.
Questa è una cosa che abbiamo già visto in un vecchio articolo, in cui abbiamo parlato di come una macchina abbia imparato a giocare a Minecraft semplicemente “guardando” delle sessioni di gioco.
Possono insegnare ad eseguire istruzioni diverse e ambigue ai robot
Grazie alla loro vasta gamma di capacità, i grandi modelli di linguaggio potrebbero – in linea di principio – consentire ai robot di eseguire qualsiasi compito spiegandone i passaggi usando il linguaggio naturale. Ma i grandi modelli di linguaggio hanno una scarsa conoscenza contestuale dell’ambiente del robot e delle sue capacità, il che rende le loro spiegazioni generalmente inapplicabili per il robot. PaLM-SayCan risolve questo problema. I ricercatori hanno testato SayCan su 101 istruzioni di 7 tipi di linguaggio. Ha avuto successo nella pianificazione e nell’esecuzione rispettivamente nell’84% e nel 74% dei casi.
Le grandi aziende vogliono aprire i propri modelli al pubblico per riuscire a comprendere meglio il comportamento degli utenti
Il rilascio del chatbot BlenderBot3 da parte di Meta per l’uso pubblico gratuito nell’agosto del 2022 ha scatenato una reazione catastrofica della stampa perché il chatbot sputava informazioni errate. Nel frattempo, Google, che aveva pubblicato un documento sul suo chatbot LaMDA nel maggio 2021, aveva deciso di mantenere il sistema in-house. Ma poche settimane dopo il rilascio di BlenderBot, Google ha annunciato un’iniziativa più ampia chiamata “AI test kitchen”, in cui gli utenti abituali potranno interagire con i più recenti agenti AI di Google, tra cui LaMDA.
L’IA per la chimica, la biologia e la medicina
L’algoritmo OpenCell riesce a localizzare le proteine
I ricercatori hanno utilizzato il tagging endogeno basato su CRISPR – che modifica i geni illuminando aspetti specifici della funzione delle proteine – per determinare la localizzazione delle proteine nelle cellule. Hanno poi utilizzato algoritmi di clustering per identificare comunità di proteine e formulare ipotesi meccanicistiche su proteine non caratterizzate.
Questo significa che questo tipo di sistema accelererà la scoperta di nuovi farmaci.
Inventato un enzima ingegnerizzato con il Machine Learning per degradare la plastica PET, responsabile del 12% dei rifiuti solidi a livello globale
Questa è una gran cosa, vedremo quali saranno gli effetti del degradare la plastica, se riusciremo ad ottimizzare il processo di riciclo di rifiuti o meno.
Selezioni personalizzate data-driven di agenti antibatterici per trattare le infezioni batteriche
Confrontando i profili del microbioma di più di 200.000 pazienti con infezioni del tratto urinario o di ferite, trattati con antibiotici noti prima e dopo le infezioni, il sistema di machine learning può essere utilizzato per prevedere il rischio di aumento della resistenza indotto dal trattamento a livello specifico del paziente. In effetti, i pazienti affetti da infezioni del tratto urinario trattati con antibiotici che il sistema di machine learning non avrebbe raccomandato sono risultati significativamente resistenti. Sia i pazienti con infezioni delle vie urinarie che quelli con infezioni delle ferite avrebbero subito molte meno reinfezioni se fossero stati prescritti antibiotici secondo il sistema di machine learning.
Dal punto di vista matematico è evidente: se adotto un sistema basato sul machien learning, allora ho una capacità di personalizzazione e predizione molto più potente rispetto a tecniche tradizionali.
Sempre più aziende faramaceutiche stanno eseguendo trial clinici con farmaci scoperti tramite l’AI
L’80% dei farmaci è in fase “early discover”. Il 18% in trial clinico. Il 2% nella fase 2 di sperimentazione.
Iniziano ad esserci numeri importanti, insomma. Di fatto ce l’aspettavamo e i numeri lo stanno confermando, in virtù anche del fatto che in questo ambito molto spesso abbiamo le capacità finanziarie per poter finanziare ricerca. Questa è iricerca pura che avrà poi dei ritorni molto importanti.
AlphaFold, uscito da DeepMind nel 2018, viene sempre più utilizzato nei paper di ricerca scientifica
Da quando è stato reso disponibile, AlphaFold 2 di DeepMind è stato utilizzato in centinaia di ricerche. L’azienda ha ora impiegato il sistema per prevedere la struttura 3D di 200 milioni di proteine conosciute provenienti da piante, batteri, animali e altri organismi. La portata delle scoperte a valle consentite da questa tecnologia – che vanno dalla scoperta di farmaci alla scienza di base – avrà bisogno di alcuni anni per concretizzarsi.
►23 paper pubblicati nel 2019
►69 nel 2020 (anno di uscita di AlphaFold 2)
►214 nel 2021
►295 nel 2022 (AlphaFold 2 diventa OpenSource)
E specifichiamo che ce ne sono più di 300 previsti in uscita in questo 2022.
I Transformers permettono di caratterizzare piccole molecole all’interno di campioni biologici per la scoperta di nuovi farmaci
La spettrometria di massa tandem è comunemente utilizzata nella metabolomica, ossia lo studio delle piccole molecole nei campioni biologici. Meno del 10% delle piccole molecole può essere identificato da librerie spettrali di riferimento, poiché la maggior parte dello spazio chimico della natura è sconosciuto. I Transformer consentono una caratterizzazione rapida e accurata, in silico, delle molecole presenti nelle miscele metaboliche, permettendo la scoperta di biomarker e di farmaci naturali su scala.
I Transformers permettono di prevedere l’evoluzioni delle varianti del covid
Il leader dei vaccini a mRNA, BioNTech, e l’azienda di intelligenza artificiale, InstaDeep, hanno costruito e convalidato un sistema di allarme precoce per prevedere le varianti ad alto rischio. Il sistema è stato in grado di identificare tutte le 16 varianti designate dall’OMS, in media, più di un mese e mezzo prima di ricevere ufficialmente la designazione.
Sarebbe interessante che queste cose venissero tradotte e utilizzate nella pratica per prendere le decisioni opportune, perché sappiamo che sarebbe il caso di prendere le decisioni in maniera predittiva, non solo reattiva, soprattutto se stiamo parlando di qualcosa che riguarda la salute.
I Transformer regnerannno sovrani
I sistemi di encoding di un Transformer possono essere utilizzati anche per la computer vision oltre che per il linguaggio
Le tecniche di auto-supervisione utilizzate per addestrare i Transformer sui testi sono ora trasposte quasi integralmente alle immagini e stanno ottenendo risultati allo stato dell’arte su ImageNet-1K.
Questo possiamo dire che l’abbiamo anche testato internamente per un progetto in cui un algoritmo estrae la descrizione di un’immagine.
In definitiva, i Transformers possono essere utilizzati per molte più attività contemporaneamente
I Transformers addestrati per un compito specifico (tramite apprendimento supervisionato o auto-supervisionato) possono essere utilizzati per un insieme più ampio di compiti tramite fine-tuning. Lavori recenti dimostrano che un singolo Transformer può essere addestrato in modo diretto ed efficiente su vari compiti in diverse modalità (apprendimento multimodale multi-task).
Abbiamo parlato di apprendimento multimodale con Google MUM.
Sono i candidati preferiti per l’Intelligenza Artificiale Generale
Nello State of AI del 2020 è stato previsto che i Transformer si sarebbero espansi oltre l’NLP per raggiungere lo stato dell’arte nella computer vision. Ora è chiaro che i trasformatori sono un’architettura candidata per l’Intelligenza Artificiale Generale. L’analisi dei documenti relativi ai Transformer nel 2022 mostra quanto sia diventata onnipresente questa architettura di modelli.
Gato, il primo esempio di Intelligenza Artificiale Generale è, infatti, un Transformer.
Comprendono il funzionamento del mondo poiché riescono a muoversi all’interno dei videogiochi
I ricercatori dell’Università di Ginevra hanno utilizzato un Transformer simile a GPT per simulare l’ambiente del mondo. Hanno dimostrato che il loro agente campione (soprannominato IRIS) era efficiente e ha superato le prestazioni umane su 10 dei 26 giochi di Atari.
Gli assistenti al codice possono ridurre drasticamente i tempi di completamento di una task
Codex di OpenAI è passato rapidamente dalla ricerca (luglio 2021) alla commercializzazione aperta (giugno 2022) con GitHub Copilot (di Microsoft) ora disponibile pubblicamente per 10 dollari al mese o 100 dollari all’anno. Amazon ha seguito l’esempio annunciando CodeWhisperer in anteprima nel giugno 2022. Google ha rivelato di utilizzare uno strumento interno di completamento del codice alimentato da ML.
Google ha deciso di non condividere mai i propri algoritmi, o comunque disponibili.