Home Phone Email

Microsoft e NVidia creano la rete neurale 3 volte più grande di GPT-3

Microsoft e NVidia hanno creato un algoritmo di Intelligenza Artificiale tre volte più grande e con delle performance migliori del GPT-3.

Microsoft e NVidia l’hanno davvero fatto grossa con l’Intelligenza Artificiale, ma non sono i soli

Tutti abbiamo sentito almeno una volta la frase: «Giochiamo a chi la spara più grossa».

È uno dei modi di dire italiani più goliardici e sarcastici…

Ma paradossalmente rappresenta la situazione attuale del mondo dell’Intelligenza Artificiale.

Per capirci, l’anno scorso, a giugno 2020, abbiamo parlato del GPT-3…

E nel giro di neanche un anno abbiamo parlato anche di Wu Dao 2.0, la rete neurale cinese che è più grande e tecnicamente anche più performante del GPT-3.

E adesso?

Neanche il tempo di sedimentare la notizia di questo Wu Dao 2.0, che anche Microsoft assieme a Nvidia ha deciso di «spararla grossa».

Infatti, il colosso della Silicon Valley ha creato un algoritmo che è tre volte più grande e con delle performance migliori del GPT-3, il gioiello di OpenAI.

Ora, ne parleremo in questo articolo, ma parleremo anche di altre istituzioni che l’hanno sparata grossa…

Parleremo dell’MIT che ha creato delle reti neurali che “sanno quello che stanno facendo”…

E anche di Facebook che ha creato un’Intelligenza Artificiale capace di comprendere come gli esseri umani interagiscono con il mondo.



1. Megatron-Turing, il modello di Intelligenza Artificiale di Microsoft e NVidia

Il nuovo modello di Microsoft e NVidia, definito come il più grande e il più potente modello di generazione di linguaggio naturale attualmente esistente, si chiama Megatron-Turing Natural Language Generation Model (MT-NLG).

Secondo i dati riportati, con 530 miliardi di parametri sarebbe tre volte più grande del GPT-3, che ne aveva ‘appena’ 175 miliardi.

L’algoritmo è stato trainato usando un supercomputer Nvidia composto da 560 server, ognuno dei quali con 8 GPU da 80 Gigabyte, cioè complessivamente 4.480 GPU.

Il costo complessivo è stato di 55 milioni di dollari – cifre importanti sì, ma sostenibili per i due colossi.

Megatron-Turing riesce a:

  • Completare le frasi con un sistema predittivo,
  • Comprendere testi,
  • Comprendere il senso comune,
  • Fare inferenze sul linguaggio naturale,
  • Comprendere il senso delle parole.

C’è da dire che questo modello non è ancora in commercio – abbiamo letto solo dei paper e delle dichiarazioni -, ma siamo curiosi di vederlo all’opera per testarlo.

2. Le Neutral Circuit Policy, le reti neurali che “sanno quello che fanno”

La nuova ricerca del MIT riprende le NCP o Neutral Circuit Policy che, rispetto alle reti neurali normali, prendono più ispirazione dalla logica del funzionamento del cervello.

Queste reti neurali riescono a modificare le ‘sinapsi’ tra i neuroni in base alle necessità.

Rispetto alle reti neurali a cui siamo abituati, in cui ogni nodo è connesso agli altri, le NCP aggiungono un altro tipo di neurone, detto appunto “di controllo”.

Quest’ultimo attiva in modo pratico, in base alla propria percezione, determinati pattern che sono trasversali ad altri neuroni.

Per capirci, nelle reti neurali più semplici per task ‘semplici’ come la object detection o la segmentation, i layer lavorano da input verso output, costruendo poi i pattern.

Ma possono esserci anche degli input nuovi e sconosciuti al sistema, per cui quest’ultimo si riprogramma in fase di training per affrontare sempre nuove situazioni… ma non sempre ci riesce.

Un esempio è proprio nella guida autonoma, in cui ci può essere sempre la bolla di sapone che un modello può riconoscere come ostacolo e poteva causare problemi o essere l’intoppo nella fase di guida autonoma.

Ora, tornando alle Neutral Circuit Policy…

Si pensava che queste NCP funzionassero bene anche con piccoli e semplici task, e invece il fatto di poter essere condizionate dall’ambiente in cui vengono inserite, e quindi reagire agli input vari ed eventuali, ha permesso a queste reti di evolvere e dare migliori risultati nelle condizioni difficili.

Un esempio potrebbe essere nell’inseguire un oggetto in volo, che diventa più difficile se lo stesso oggetto bisogna inseguirlo durante un temporale.

Il paper mette ancora più luce su queste NCP, partite pochi anni fa e che potrebbero avvicinare sempre di più il concetto di rete neurale artificiale con la rete di neuroni biologica, magari anche verso .

3. Facebook Ego4D, l’algoritmo di Intelligenza Artificiale che guarda, ascolta e ricorda tutto quello che fai

Facebook AI, una delle varie business unit di Facebook, sta portando avanti un progetto chiamato Ego4D che rappresenta una sfida in campo di ricerca.

La volontà di Facebook è quella di superare le sfide della percezione egocentrica, ossia l’abilità dell’Intelligenza Artificiale di comprendere e interagire con il mondo come fanno gli esseri umani, da una prospettiva in prima persona.

Va sottolineato il fatto che, al momento, le informazioni che diamo da trainare, o comunque ciò che usiamo come esempio per le Intelligenze Artificiali sono sempre, di fatto, informazioni di terze persone.

Mentre la volontà di Facebook, con questo progetto Ego4D, è quella di creare un’Intelligenza Artificiale che recepisca le informazioni dall’ambiente da una prospettiva in prima persona.

Per questo progetto Facebook ha radunato 13 università con 700 partecipanti umani, all’interno di 9 nazioni con la raccolta di circa 2200 ore di video in prima persona.

Lo scopo è di far interagire l’Intelligenza Artificiale con il mondo, portandoci verso le esperienze immersive (es. realtà aumentata o virtuale), che rappresentano il futuro verso cui ci stiamo dirigendo.

Facebook ha definito 5 challenge che saranno i benchmark per capire gli sviluppi futuri di questi assistenti di Intelligenza Artificiale, perché vedranno il mondo da una prospettiva diversa da quanto fatto fino adesso.

Queste 5 challenge possono essere riassunte con le seguenti domande:

  • Memoria episodica: cosa è successo e quando? (“Dove ho lasciato le chiavi?”) – Delle domande che precludono delle informazioni antecedenti e uno sguardo verso il futuro.
  • Forecasting: cosa farò dopo? (“Ho già messo il sale nell’acqua per fare la pasta?”)
  • Manipolazione mano-oggetto: cosa sto facendo? Se c’è il passaggio di un’azione, un passaggio di consegne o comunque un teaching di un’attività. Un esempio: “Insegnami a suonare la batteria”.
  • Riconoscimento audio-video: identificare chi ha detto cosa, quindi chi sono gli interlocutori all’interno dell’audio-video.
  • Interazioni sociali: chi sta interagendo con chi, quindi la possibilità di andare un po’ in profondità rispetto al punto precedente di “chi ha detto cosa”, quindi chi sta interagendo con chi. “Aiutami ad ascoltare meglio chi sta parlando con me in questo ristorante chiassoso”.

Sono comunque delle challenge o dei benchmark ambiziosi.

Ma Facebook sembra dimentica spesso l’aspetto della privacy…

Registrare audio o video delle nostre azioni quotidiane in prima persona implica che registriamo e recuperiamo informazioni di persone terze, violando pertanto la loro privacy, nonché condividendo con Facebook una serie di informazioni inerenti alla nostra vita privata.

Tutto questo implica anche che l’utente dovrà condividere più informazioni con Facebook per poter avere dei feedback, o comunque un’assistenza all’altezza.

Facebook sta già pensando anche a tutta una parte di mercato da aprire su questo poiché, riuscendo a recuperare queste informazioni e creando dei dataset dedicati, si possono costruire applicazioni commerciali. 

Però allo stesso tempo il problema è proprio capire qual è il limite dell’hardware e qual è il limite che poniamo noi stessi nella difesa della nostra privacy.

Ci sono preoccupazioni?

L’Intelligenza Artificiale è uno strumento potente, come abbiamo sempre detto, e bisogna sempre cercare di utilizzarlo come forza del bene.

La nostra preoccupazione è che le major hanno tante risorse da investire in ricerca.

Il GPT-3 aveva fatto un effetto wow, ma a distanza di un anno sta uscendo il GPT-4, e prima ancora di esso è uscita Microsoft con questo nuovo super modello linguistico, tre volte più potente del GPT-3.

Dall’altro lato abbiamo il mondo pubblico che sta investendo su etica, questioni di privacy, ma è molto lento rispetto all’evoluzione tecnologica in atto.

È necessario che chi sta dalla parte del governo acceleri anche in questo senso per fare in modo che gli strumenti vengano utilizzati sempre nel migliore dei modi, con etica e mettendo al centro la persona.

Insomma, è molto buono finché ho degli occhiali che mi permettono di aumentare la realtà e per farmi avere un’esperienza migliore, per farmi vivere meglio.

Da lì a trasformare questo in un controllo, il limite è molto debole e lo viviamo anche adesso, non serve trovare altre motivazioni.

Quindi, cosa possiamo fare noi?

Come protagonisti stiamo dalla parte di chi utilizza questi strumenti a fin di bene come strumento per farci vivere meglio e per toglierci lavori usuranti e ripetitivi e per liberarci più spazio che possiamo impiegare per attività più creative.

Dove l’uomo può fare la differenza, la farà sempre.