Home Phone Email

Modelli di linguaggio: lo Stato dell’Arte nel 2022

Modelli di linguaggio: la vera novità in campo aziendale. Analizziamo insieme i tre modelli di linguaggio più diffusi nel 2022.

È arrivato il momento per noi esperti di Intelligenza Artificiale di fare il punto della situazione su una grandissima tendenza che si è stabilita negli ultimi due anni.

Stiamo parlando dei sistemi di Intelligenza Artificiale in grado di comprendere e generare testi, altrimenti detti “modelli di linguaggio” (language models, detto in inglese), la vera novità in campo aziendale.

Un recente sondaggio ha rilevato che il 60% dei leader del mondo tech nel 2020 ha aumentato del 10% i budget dedicati alle tecnologie di linguaggio basate sull’Intelligenza Artificiale, mentre un terzo degli intervistati ha riportato un aumento del 30%.

Diverse tipologie di modelli di linguaggio stanno emergendo più di altri, primi tra tutti il nostro (ormai inflazionato) GPT-3 e tutti gli altri modelli “mastodontici” che utilizzano miliardi di parametri per funzionare.

Seguono i modelli di linguaggio ottimizzati per compiti specifici (es. conversational AI per rispondere alle richieste di un help desk).

Ed esiste una nuova terza categoria di modello di linguaggio, che tende a essere di dimensioni ridotte e limitata a poche capacità, progettata specificamente per essere eseguita su dispositivi e sistemi dell’Internet of Things.

Questi diversi approcci presentano grandi differenze in termini di punti di forza, carenze e requisiti…

E in questo articolo faremo un’analisi di tutti questi modelli, metterli a confronto fra di loro e dove puoi aspettarti di vederli implementati nei prossimi anni.

Grandi modelli di linguaggio

Questi modelli rappresentano il punto più avanzato delle tecnologie di linguaggio.

Hanno un “peso” di decine di gigabyte e vengono addestrati su enormi quantità di testo, sfruttando miliardi di parametri, come GPT-3, Wu Dao 2.0 e Megatron-Turing.

E giusto un mese fa Google ha svelato Pathways Language Model (PaLM), un modello di linguaggio composto di 540 miliardi di parametri, ad oggi il più grande modello di linguaggio esistente, di 10 miliardi di parametri più grande di Megatron-Turing.

Molto spesso vengono trainati con tutti i contenuti testuali che si trovano su Internet – sì, il loro dataset è Internet per intero.

(Da qui vengono fuori i famosi bias che rendono i modelli “razzisti” e altro).

Possono rispondere alle domande (question-answering), riepilogare documenti, generare testi, completare frasi, tradurre testi e altro.

E il loro livello di precisione viene dall’enorme quantità di parametri, variabili e dati che vengono utilizzati.

Insomma, i grandi modelli di linguaggio rappresentano ciò che ci aspettiamo dall’Intelligenza Artificiale: un dialogo costruito con un senso logico, come se stessimo parlando con un altro essere umano – un grande risultato ottenuto con una grande quantità di dati.

Infatti, se c’è necessità di generare un articolo di un blog in sanscrito, un sito Web codificato, un chatbot che parla tre lingue diverse, c’è bisogno altrettanto di grosse quantità di dati.

Un modello di dimensioni più piccole non riuscirebbe a portare a termine tutti questi compiti e con un livello di precisione tale da confondere un essere umano.

Tutto questo giustifica il peso del modello, la quantità di parametri richiesti per ottenere un’alta precisione, e l’impegno richiesto a livello economico, cosa che accomuna i modelli linguistici di grandi dimensioni, open source o meno.

Uno studio del 2020 ha infatti decretato che le spese per lo sviluppo di un modello per generare testi con “solo” 1 miliardi di parametri ammontano fino a 1,6 milioni di dollari.

L’esecuzione di un modello è anche un problema: il costo dell’esecuzione di GPT-3 su una singola istanza AWS corrisponde ad un minimo di 87 mila dollari all’anno (e diversi giorni di training).

Insomma, questi modelli di linguaggio non sono alla portata di mano delle aziende più piccole e degli sviluppatori: è possibile accedere ai test e sfruttare le API, ma non è possibile avere il modello in sé.

Pertanto, va sottolineato che al momento i grandi modelli di linguaggio sono trainati e gestiti da grandi aziende con grandi capitali da investire su questi progetti.

L’unico modo per utilizzarli normalmente consiste nel tenerli sui datacenter delle aziende costruttrici (OpenAI nel caso del GPT-3), in modo da interagire con essi – cosa che potrebbe far storcere il naso a chi vuole proteggere la proprio privacy.

Allo stesso modo è possibile utilizzare questi modelli mantenendo la stessa precisione, ma specializzando il modello su una task specifica, le cui prestazioni migliorano poi con il tempo.

In questo modo diventano più gestibili anche a livello di costi.

ESEMPIO:

Questi modelli vanno bene per generare contenuti o accelerare quelle attività a poco valore aggiunto: creare articoli che danno informazioni di poco valore, di poco spesso, ma che fanno hype.

Eventualmente si può utilizzare anche per generare codice per siti Web molto semplici e accettabili, o anche dei bot di supporto generici per cui non serve avere delle competenze profonde del business di riferimento.

Modelli di linguaggio fine-tuned

I grandi modelli di linguaggio sono tendenzialmente online, ma le aziende hanno esigenze che non si sposano bene con questa modalità.

Molto spesso hanno bisogno di modelli customizzabili, controllabili, economici e meno affamati di dati per il training, mantenendo lo stesso obiettivo e la stessa precisione di un grande modello di linguaggio.

Ecco, i modelli fine-tuned hanno questa caratteristica specifica: sono tendenzialmente basati sul know-how dei grandi modelli di linguaggio, ma sono più alla portata di chi sviluppa algoritmi.

In poche parole, si parte da un modello più grande, più performante e più generico, per poi specializzarlo in una specifica attività.

Ne abbiamo parlato in un altro articolo parlando di Macaw, un algoritmo costruito da un’azienda di Seattle, più piccolo ma più performante di GPT-3 nel question-answering.

Se per esempio ad un’azienda serve un chatbot per il supporto clienti, a volte si fa il fine tuning di un modello, ossia lo si “specializza” insegnandogli una specifica mansione.

Il problema di questa tipologia di modelli è che richiedono molti dati, ed è per questo che si parte da modelli pre-esistenti.

Se dovessimo insegnare la lingua italiana ad un modello di linguaggio, probabilmente buona parte del budget sarebbe investito solo in questa parte del training.

Noi spesso utilizziamo SQuAD 2.0 – Stanford Question Answering Dataset – che ci permette di trovare parti di testo che rispondono a domande specifiche.

ESEMPIO:

Analisi e generazione di documenti aziendali, soprattutto per la ricerca rapida (es. fare domande per ottenere risposte dal testo, non con le query di ricerca).

Modelli di linguaggio edge

Il concetto che c’è dietro i modelli di linguaggio edge è il sogno di molti sviluppatori di Intelligenza Artificiale.

Per capirci, analizziamo brevemente il funzionamento di Alexa.

Alexa è, in buona sostanza, un microfono che ascolta quello che diciamo in casa nostra.

Registra le nostre richieste, dopodiché manda la registrazione ad Amazon, che risponde con un comando ad Alexa, in modo che questa possa rispondere.

Ora, i modelli di linguaggio edge danno la possibilità di caricare dei modelli di Intelligenza Artificiale su dei macchinari, senza utilizzo della rete.

Ecco, questo è il sogno.

Si tratta di modelli piccoli che riescono a lavorare offline su dispositivi fisici, quindi non ci sono costi di cloud e i dati utilizzati rimangono all’interno dell’azienda che lo richiede.

Il feedback, di conseguenza, non avendo necessità di un sistema in cloud, è anche più veloce.

E a questo punto neanche la violazione della privacy è un problema.

È quindi il modello perfetto?

È senza dubbio il più economico sotto qualsiasi aspetto, se l’azienda richiede un modello capace di rimanere su un dispositivo senza usufruire del cloud.

ESEMPIO:

Interazione sia con testo che oralmente su un dispositivo fisico.

Francesco Azzarita
Francesco Azzarita
Articoli: 40