Settant’anni di AI: la storia di IBM tra ricerca e immaginazione

Dopo la nascita dell’AI, il ricercatore IBM Arthur Samuel coniò il termine “machine learning” e, da allora, lo sguardo dell’azienda si è sempre più spinto verso il futuro del settore.

Da oltre settant’anni, IBM Research inventa, esplora e immagina. Dopo la nascita dell’AI, il ricercatore IBM Arthur Samuel coniò il termine “machine learning” e, da allora, lo sguardo dell’azienda si è sempre più spinto verso il futuro del settore.

di Francesca Nebuloni

Di recente è stata pubblicata https://www.research.ibm.com/artificial-intelligence/publications/2018/ una retrospettiva del 2018 che offre un’anteprima sul futuro dell’AI. IBM ha curato la raccolta di un centinaio di articoli della divisione Research, pubblicati quest’anno e scritti da ricercatori e scienziati dei dodici laboratori di ricerca IBM in tutto il mondo. Questi progressi scientifici sono alla base della missione dell’azienda di inventare la prossima serie di tecnologie di intelligenza artificiale che porteranno dalla “Narrow AI” di oggi a una nuova era della “Broad AI” in cui il potenziale della tecnologia potrà essere sbloccato grazie a sviluppatori, adopter a livello aziendale e utenti finali. La “Broad AI” sarà caratterizzata dalla capacità di apprendere e ragionare in modo più ampio rispetto ai vari problemi affrontati, di integrare le informazioni da più modalità e domini, presentando al tempo stesso caratteristiche di maggiore “spiegabilità”, sicurezza, equità, verificabilità e scalabilità.

Ecco alcuni dei progressi di quest’anno nelle tre aree chiave (nuovi metodi, scalabilità e affidabilità dell’AI), insieme ad alcune previsioni su ciò che avverrà in questo campo.

PROGRESSI DELL’AI

Un’AI che comprende realmente ciò che dici: IBM Research ha presentato http://www.aclweb.org/anthology/D18-1078 nuovi metodi di Machine Listening Comprehension per argomentare e dibattere su determinati contenuti. Originata dal lavoro su Project Debater, questa funzionalità estende le attuali capacità dell’intelligenza artificiale di comprensione del parlato oltre le semplici attività di risposta alle domande, consentendo alle macchine di capire meglio quando le persone fanno ragionamenti.

Se ne hai visto uno, li hai visti tutti: gli attuali metodi di AI richiedono spesso migliaia o milioni di immagini classificate per addestrare con precisione un modello di riconoscimento visivo. IBM Research ha sviluppato https://arxiv.org/pdf/1806.04734.pdf un nuovo metodo di apprendimento “rapido” in grado di riconoscere con precisione nuovi oggetti da pochi o addirittura un solo esempio, senza la necessità di informazioni aggiuntive o di etichettare i dati. Questa funzionalità estende l’applicabilità dell’AI a domini applicativi con scarsa disponibilità di dati.

Lo studente diventa il maestro: due teste sono spesso meglio di una e lo stesso si può dire per agenti intelligenti. Quest’anno, i ricercatori IBM hanno presentato https://arxiv.org/pdf/1805.07830.pdf un innovativo framework e un algoritmo per fare in modo che un agente intelligente possa imparare da un altro e viceversa, come in un lavoro di squadra. Attraverso lo scambio di conoscenze, gli agenti sono in grado di apprendere in modo significativamente più rapido rispetto ai metodi precedenti e, in alcuni casi, possono imparare a coordinarsi laddove i metodi esistenti non riescono nell’intento.

Domande e risposte: IBM Research ha illustrato https://arxiv.org/abs/1711.05116) un miglioramento significativo degli approcci AI di Question & Answer (QA) in domini aperti, con un nuovo metodo che riordina e aggrega le evidenze raccolte, per rispondere alle domande presenti in più passaggi testuali per produrre risposte più accurate. Il team ha ottenuto sostanziali miglioramenti rispetto ai precedenti approcci rispetto allo stato dell’arte dei sistemi QA su dominio aperto.

 

IBM ha curato la raccolta di un centinaio di articoli della divisione Research, pubblicati quest’anno e scritti da ricercatori e scienziati dei dodici laboratori di ricerca IBM in tutto il mondo.

SCALABILITÀ DELL’AI

La precisione a 8 bit accelera l’addestramento: i modelli di “deep learning” sono estremamente potenti, ma il loro addestramento richiede tipicamente considerevoli risorse computazionali. Nel 2015, IBM presentò un documento di riferimento che descriveva come addestrare i modelli di deep learning usando la precisione a 16 bit (metà della precisione a 32 bit solitamente usata) senza perdere in accuratezza. I ricercatori IBM hanno ora dimostrato https://papers.nips.cc/paper/7994-training-deep-neural-networks-with-8-bit-floating-point-numbers.pdf per la prima volta la capacità di addestrare modelli di deep learning con solo 8 bit, salvaguardando al contempo l’accuratezza predittiva del modello, questo in tutte le principali categorie di set di dati AI, tra cui immagini, parlato e testo. Queste tecniche accelerano il tempo di addestramento per le reti neurali profonde di 2-4 volte rispetto agli odierni sistemi che basano i calcoli su una precisione a 16 bit. Sebbene in precedenza si fosse ritenuto impossibile ridurre ulteriormente la precisione per l’addestramento, prevediamo che la nostra piattaforma di addestramento a 8 bit diventerà uno standard di settore ampiamente adottato nei prossimi anni.

Nuovo approccio alla rete neurale: BlockDrop, è un nuovo modo https://arxiv.org/pdf/1711.08393.pdf per accelerare le capacità di inferenza in reti neurali a molti livelli. Questo modello ha la possibilità di selezionare quali strati o “blocchi” della rete profonda sono da considerare o ignorare per apprendere, riducendo l’elaborazione totale e conservando al tempo stesso l’accuratezza. Usando BlockDrop, si ottiene un miglioramento delle capacità inferenziali del 20%, che raggiunge il 36% per alcuni tipi di input, mantenendo la stessa accuratezza su benchmark di riferimento come la scelta della categoria top-1 nel dataset ImageNet.

Progettazione a portata di mano: i ricercatori IBM hanno sviluppato un nuovo metodo per ridurre i tempi di disegno di un’architettura di una rete neurale. Il metodo definisce un modello architetturale basato su un pattern di base chiamato “neuro-cells” che viene evoluto e migliorato per passaggi successivi. Questo metodo innovativo permette di progettare architetture neurali che raggiungono un’eccellente precisione in attività di classificazione delle immagini, senza l’intervento umano, raggiungendo in alcuni casi un miglioramento della velocità fino a 50.000 volte maggiore rispetto ad architetture di reti neurali disegnate con altri metodi.

AFFIDABILITÀ DELL’AI

La battaglia per bandire i pregiudizi: poiché i sistemi di intelligenza artificiale sono sempre più utilizzati come supporto alle decisioni, è imperativo che essi siano equi e imparziali. Tuttavia, eliminare i pregiudizi è difficile, dal momento che i dati utilizzati per addestrare i sistemi di AI spesso contengono bias e correlazioni intrinseche a livello sociale e istituzionale, elementi che i metodi di apprendimento statistico catturano e riassumono. IBM Research ha delineato https://ieeexplore.ieee.org/document/8438994 un nuovo approccio per ridurre la quantità di bias, secondo il quale i dati dell’addestramento vengono trasformati in modo da ridurre al minimo la presenza di pregiudizi, cosicché qualsiasi algoritmo di intelligenza artificiale che successivamente imparerà da esso perpetui la minore iniquità possibile. Nell’applicare questo metodo a due grandi set di dati pubblici, il nostro team è riuscito a ridurre sostanzialmente il pregiudizio indesiderato a livello di gruppo, senza una significativa riduzione della precisione del sistema.

Superamento dell’effetto “scatola nera”: le reti neurali organizzate su molti livelli sono per molti aspetti “scatole nere”. Anche quando una rete arriva a una decisione corretta, è spesso difficile capire perché sia stata presa quella decisione. Questa intrinseca mancanza di possibilità di spiegare rappresenta una barriera nella fiducia degli utenti nei confronti dei sistemi di intelligenza artificiale e rende difficile ragionare sulle potenziali modalità di insuccesso. Nel tentativo di risolvere questi problemi, gli scienziati di IBM Research hanno sviluppato una nuova metodologia https://arxiv.org/pdf/1807.07506.pdf di machine learning chiamata ProfWeight, che sonda una rete profonda e costruisce un modello semplificato capace di raggiungere prestazioni simili alla rete originale. In virtù della loro ridotta complessità, questi modelli semplificati possono fornire informazioni su come funzionava la rete originale e perché ha preso una decisione anziché un’altra. Nel testare questa metodologia su due enormi set di dati, il modello ProfWeight è stato in grado di produrre decisioni più spiegabili, pur mantenendo un alto livello di precisione.

Anticipazione degli attacchi malevoli: i modelli moderni di machine learning possono raggiungere un’accuratezza di previsione senza precedenti, ma sono anche sorprendentemente vulnerabili a essere ingannati da input dannosi progettati con cura e chiamati “esempi malevoli”. Ad esempio, un hacker può alterare in modo impercettibile un’immagine in modo da ingannare un modello di deep learning e indurlo a classificarla nella categoria desiderata dall’hacker. Nuovi attacchi di questo tipo vengono sviluppati ogni giorno in un’ampia gamma di attività, dal riconoscimento vocale all’elaborazione del linguaggio naturale. Un passo fondamentale verso la salvaguardia da questi attacchi è stato fatto da IBM Research con la proposta (https://arxiv.org/abs/1801.10578) di una nuova misura di robustezza certificata contro gli attacchi denominata CLEVER (Cross Lipschitz Extreme Value for nEtwork Robustness), la quale può essere utilizzata per valutare la resistenza di una rete neurale contro gli attacchi. Il punteggio CLEVER stima la “forza” di attacco minima richiesta affinché questo riesca a ingannare un dato modello di rete neurale, facilitando la discussione sulla sicurezza dei modelli di AI e fornendo indicazioni per individuare e difendersi dagli attacchi nei sistemi implementati.

Per quanto ci siano stati grandi progressi nel 2018, sappiamo che il prossimo anno ne porterà di ancora più ampi nel settore dell’AI. Ecco tre tendenze che IBM sta osservando:

I modelli causali emergono sempre più rispetto a quelli basati su correlazioni: mentre l’intuizione umana è parte integrante delle nostre azioni e dei nostri giudizi quotidiani, lo stesso non si può dire per una macchina. La maggior parte dei nostri metodi di AI oggi sono basati fondamentalmente sulla scoperta di correlazioni e mancano di causalità tra fenomeni. I metodi di inferenza causale emergenti ci consentono di dedurre strutture causali dai dati, selezionare in modo efficiente gli interventi per testare le relazioni causali presunte e prendere decisioni migliori sfruttando la conoscenza della struttura causale stessa. Nel 2019, questi miglioramenti nelle tecniche di creazione di modelli causali contribuiranno a far avanzare l’AI di oggi affinché diventi più simile all’intelligenza umana e forniranno un nuovo livello di conoscenza del modello.

Un’AI affidabile comincia a rompere l’enigmaticità della scatola nera: i progressi dell’intelligenza artificiale sono stati rallentati in gran parte perché le persone non si fidano di ciò che percepiscono come un’indecifrabile scatola nera. Quest’anno, un certo numero di organizzazioni ha risposto a questi timori istituendo comitati consultivi sull’etica, applicando l’intelligenza artificiale per il bene sociale e introducendo strumenti e funzionalità che danno alle organizzazioni fiducia nella loro capacità di comprendere e gestire i sistemi di intelligenza artificiale. Nel 2019, inizieremo a vedere il frutto di queste prime iniziative, mentre esse diventeranno centrali nel modo in cui le aziende costruiscono, addestrano e implementano le tecnologie AI. Si prevede che venga prestata particolare attenzione al trasferimento dei progressi della ricerca in questo spazio in prodotti e piattaforme reali, con un accento sulla promozione della diversità e dell’inclusione nei team tecnici, per fare in modo che molte voci e prospettive orientino il progresso tecnologico.

Il quantum computing potrebbe accelerare la scalabilità dell’AI: nel 2019 assisteremo a un’accelerazione dell’interesse sia nella ricerca sia nella sperimentazione di sistemi di quantum computing e di come questi potranno giocare, almeno in parte, un ruolo durante la fase di training e esecuzione di modelli di intelligenza artificiale. Un elemento fondamentale degli algoritmi quantistici è nella loro capacità di sfruttare uno spazio rappresentativo e di ricerca esponenzialmente ampio, grazie alle proprietà quantistiche di entanglement e interferenze. Con l’aumentare della complessità dei problemi di intelligenza artificiale, il quantum computing, al quale migliaia di organizzazioni hanno già accesso tramite i servizi di quantum computing nel cloud di IBM, potrebbe cambiare il modo in cui modelliamo i problemi risolti con metodi di AI. ©TECNeLaB

La missione di IBM è quella di inventare la prossima serie di tecnologie di intelligenza artificiale, che porteranno dalla “Narrow AI” di oggi a una nuova era della “Broad AI”.

 

Sponsor

Mediapartners