Sphere, il nuovo algoritmo di Facebook contro le fake news
Nel 2020 compare su Reddit, nel subreddit dedicato alla Scozia, un post che scatena il caos e ha questo titolo.
E stiamo parlando di circa 20.000 articoli e 200.000 edit fatte da un adolescente americano nel corso di 7 anni, scritti naturalmente non in scots – che corrisponde al 49% di tutto il materiale della versione scots.
Ma a quanto pare quella sezione in scozzese non è mai stata tenuta tanto in considerazione.
E da quel momento è stato evidente a tutti il grosso problema di Wikipedia.
Tutta la gestione e il controllo delle entries è nelle mani di esseri umani volontari, che non riescono a seguire tutto ciò che succede su Wikipedia.
Questa sembra essere la motivazione principale che ha spinto Wikipedia a entrare in una partnership con Meta, la mamma di Facebook.
Infatti, da ottobre 2021 la Wikimedia Foundation ha creato un servizio chiamato Wikimedia Enterprise, che permette alla stessa Wikimedia Foundation di creare rapporti commerciali con le aziende che vogliono utilizzare i contenuti provenienti da Wikimedia.
Ed è notizia recentissima che Facebook e la Wikimedia Foundation abbiano iniziato una partnership per sperimentare un algoritmo di Intelligenza Artificiale pre-esistente – Sphere – che scansiona automaticamente le voci e stabilisce se le citazioni sono supportate da fonti affidabili.
Ma prima di parlare di Sphere, partiamo da una domanda…
Come fa un assistente virtuale a conoscere la risposta alle tue domande?
Proprio come hanno fatto gli esseri umani nei decenni passati con le enciclopedie: la cerca.
Rispondere alle domande o fare fact-checking è un attività che corrisponde al Knowledge-Intensive Natural Language Processing (KI-NLP), ossia l’esame di un archivio digitale per estrarre le informazioni rilevanti.
Ora, questo tipo di architetture ha alcune limitazioni.
In primo luogo, in genere queste architetture dipendono da motori di ricerca proprietari che utilizzano delle tecnologie in black-box.
Infatti, quando utilizziamo tali motori di ricerca, si possono perdere informazioni rilevanti perché gli algoritmi le classificano troppo in basso nei risultati.
Meta ha creato invece la prima soluzione di estrazione informazioni in white-box utilizzando l’intero Web come fonte di conoscenza per risolvere più attività di KI-NLP contemporaneamente.
Sphere contiene 134 milioni di documenti provenienti dall’intero Web, suddivisi in 906 milioni di passaggi da 100 token ciascuno, che rappresentano ordini di grandezza più alti rispetto agli altri algoritmi di KI-NLP.
E poiché Sphere può accedere a molte più informazioni pubbliche rispetto ai modelli standard odierni, potrebbe fornire informazioni utili che i suddetti non possono fornire.
Ma il dubbio rimane, considerata l’esperienza…
È saggio affidarsi al Web come fonte di conoscenza?
Sul web, ovviamente, non possiamo essere sicuri che una particolare affermazione sia accurata o che una singola pagina conterrà tutte le informazioni di cui abbiamo bisogno.
In effetti, alcune parti del web sono cariche di contenuti tossici e disinformazione.
E non è neanche detto che più dati vengono utilizzati e meglio è, anzi.
Così come facciamo noi, le informazioni che utilizziamo per addestrare un algoritmo vengono analizzate e filtrate da un esperto di un dominio molto specifico.
Allo stesso modo, nel mondo reale Sphere di propone di mettere a tacere i contenuti dannosi, migliorare l’alfabetizzazione digitale e le capacità di pensiero critico delle persone.
Il prossimo passo di Meta è di creare modelli per valutare la qualità dei documenti recuperati, rilevare potenziali contraddizioni e dare priorità a fonti più affidabili.
Come funziona Sphere applicato a Wikipedia?
Noi ci affidiamo a Wikipedia per essere sicuri di trovare quelle informazioni rilevanti.
Ma Wikipedia è in crowdsourcing, quindi di solito richiede che i fatti siano confermati: le citazioni, le dichiarazioni e i materiali controversi devono includere una citazione.
I volontari ricontrollano le note a piè di pagina di Wikipedia, ma, poiché il sito continua a crescere, è difficile tenere il passo con gli oltre 17.000 nuovi articoli aggiunti ogni mese.
Gli strumenti automatizzati possono aiutare a identificare parole senza senso o affermazioni prive di citazioni, ma aiutare gli editor umani a determinare se una fonte è a supporto di un’affermazione è un compito molto più complesso, che richiede la profondità di comprensione e di analisi di un sistema di intelligenza artificiale.
Sphere corre in aiuto degli editor, richiamando l’attenzione su citazioni discutibili, consentendo loro di valutare le imperfezioni senza dover passare al setaccio migliaia di affermazioni citate correttamente.
Sphere è stato addestrato con affermazioni complesse da Wikipedia, accompagnate da siti Web che potrebbero supportare o meno le affermazioni.
Se una citazione sembra irrilevante, Sphere suggerirà una fonte più applicabile, indicando anche il passaggio specifico a supporto dell’affermazione.
Sphere avrà un impatto sul mondo dell’informazione?
Secondo noi sì, se l’algoritmo venisse addestrato con fonti attendibili.
Allo stesso modo è difficile calcolare a priori le performance, in special modo sulle notizie dell’ultima ora – l’Ucraina ci ha insegnato qualcosa.
Sono i primi step di una nuova tecnologia: ci vorrà tempo, ma siamo ottimisti.
Ciò che ci preoccupa di più è che questo algoritmo è stato costruito da Meta, una multinazionale che ha un pessimo rapporto con le fake news.
E come si dice: “Chi controlla il controllore?”
Staremo a vedere come andrà avanti.