Stare dentro, restando fuori. Entrare, uscendo. Uscire, entrando. Nè dentro, nè fuori. Den-fuori. Delegittimare il Sistema. Comprimere, senza perdere informazioni.
The Curse of dimensionality.
A leggerne il nome anglofono, the curse of dimensionality, sembrerebbe quasi di essere al cospetto di un horror concettuale, di quelli tipo The Cube o Buried in cui le geometrie sono ostili per definizione, oscure, inesplicabili, non euclidee, mentre risuonano nello spazio profondo come il viaggio psichedelico di 2001 Odissea nello spazio. Fa paura. Eppure la maledizione della dimensionalità è uno dei problemi più affascinanti e complessi con cui abbia che fare chiunque lavori con l’intelligenza artificiale.
Proviamo a vederlo nella sua dimensione (ops, neanche a dirlo) non per addetti al lavori.
The curse (of dimensionality)
Con il concetto di curse of dimensionality (maledizione della dimensionalità) esprimiamo – in senso estensivo – un concetto molto utilizzato nell’ambito dell’apprendimento automatico (machine learning) e più in generale dell’analisi dei dati in informatica. Non dovrebbe essere difficile immaginare miriadi di informatici che hanno a che fare, ogni giorno o quasi, con grosse quantità di dati, immense matrici di numeri e lettere dalle quali cercano di estrapolare i dati che gli servono.
Anche senza saperne nulla sull’argomento non dovrebbe essere difficile intuire che si tratta di una miriade di “fogli Excel” – perdonerete la semplificazione grossolana, ma è solo per capirci – collegati tra di loro (in modalità variabili o da decidere volta per volta), in cui sarà necessario orientarsi algoritmicamente come se navigassimo, in un certo senso, in uno spazio a n dimensioni, invece delle tre tradizionali rappresentate da x, y e z (lunghezza, larghezza e profondità). Dove n sono le dimensioni in gioco, che per una persona potrebbero essere: nome, cognome, altezza, peso, e via dicendo.
La maledizione
Il problema in questione, quello della maledizione della dimensionalità, si riferisce ai problemi (ed annesse allucinazioni risultanti) che sorgono qualora si debba con un elevato numero di variabili o dimensioni all’interno di un set di dati. Quello che gli informatici hanno imparato a fare, sulla falsariga dell’insegnamento dei matematici, è di approcciare al problema provando a ridurre le dimensioni dei dati in gioco. Non è uno scherzo, ovviamente, ma si fa: va fatto non in modo casuale, ma come avviene con WinZip, ovvero senza perdere informazioni importanti, operando pertanto una sorta di “compressione” dei dati sulla falsariga di quello che facciamo anche con le immagini JPEG (pressappoco, anche qui, solo per capirci). Se comprimo le dimensioni e le faccio collassare in uno spazio più gestibile, ovviamente, riesco a lavorarci su, ma non è detto che sia una buona idea perchè potrei aver compresso dettagli fondamentali per il mio problema (paranoia costante, in queste app di informatica).
La dimensionalità
Immaginiamo ora di avere un set di dati composto da numerose variabili che descrivono un certo fenomeno o oggetto.
Quando il numero di variabili aumenta, il volume dello spazio in cui queste variabili si estendono cresce in modo abnorme. Ciò significa che, all’aumentare delle dimensioni, il set di dati diventa molto più “sparsi” nello spazio, pieni di “buchi”, e ovviamente le distanze tra i punti dati diventano sempre maggiori, difficili da calcolare o da rilevare. Per fare un esempio concreto: poniamo di avere un sito di dating basato sull’intelligenza artificiale, che cerca di trovare match tra le coppie sulla base di molteplici caratteristiche, dette in gergo feature.
Mi aspetto che chi ama i Cannibal Corpse e abbia specificato questa feature venga potenzialmente “accoppiato” con chi ascolta i Death, tanto per dire, e non con chi ascolta Gianni Morandi: per quanto poi, a ben vedere, la realtà delle cose sia abile a smentire questo aspetto, per cui bisognerebbe comunque tenere conto anche di eventuali “eccezioni” (è questo il motivo per cui gran parte” nell’intelligenza artificiale lavorano su base statistica, esprimendo una “probabilità” di rapporto sessuale, non una certezza). Paranoia al quadrato.
Le caratteristiche in ballo potrebbero includere età, aspetto fisico, gusti, interessi, istruzione, professione, idee politiche, valori – che possiamo combinare in miriadi di modi differenti. Proviamo ad immaginare di avere data base con milioni di iscritti, per ogni scritto migliaia di caratteristiche di questo tipo: la proporzione di una reale non sono diverse, in effetti. A causa del gran numero di feature coinvolte, il set di dati risulta molto ampio, rendendo le corrispondenze matematiche tra dati che implicano un potenziale match molto difficili da rilevare. Paranoia al cubo.
La tecnofobia multi-dimensionale
Uno degli approcci più diffusi consiste nella riduzione delle dimensioni del set, come si accennava: si opera una feature selection (che significa una selezione delle caratteristiche più rilevanti di altre, come ad esempio gusti musicali, se si tratta di una database per metallari) oppure un’estrazione o inferenza di nuove feature, create dall’algoritmo, sulla base delle feature esistenti (feature extraction: potrei per esempio inventare un indice di metallosità, che potrebbe anticipare un’intesa relazione marcata tra fan dello stesso genere, non per forza della stessa band). In entrambi i casi potrei aver soppresso dimensioni che in realtà mi sarebbero servite e che contribuiscono a creare equivoci nei match, match formalmente errati, mancati match e via dicendo. Paranoia alla quarta.
Sarebbe tutto completamente meraviglioso – sì, come no – se non ci fossero una serie di falle di mezzo, come si accennava:
- prima di tutto le relazioni non sono preventivabile a priori, non è detto che ci abbiano richiesto di inserire le feature corrette e tantomeno siamo sicuri del fatto che quel sito siano rilevanti per risolvere il problema. Pure gran parte dell’informatica si basa su assunte del genere che sono considerati “dogmatici”, il diritto di critica è soppresso la nascita perché altrimenti diventa perfettamente inutile starci dentro.
- Siamo devoti al funzionalismo: non abbiamo nulla da temere – fino a quando non mettiamo in discussione il meccanismo sottostante e la cieca devozione al software aziendale. Anche se questo agire a ben vedere comporta il fatto che la statistica venga ridotta a certezza, velocità venga valutato come una tecnica sicura, infallibile, a soli 7,99€ al mese, perchè se non puoi risolvere da solo i tuoi problemi, no davvero, ci penserà l’app.
- A pensarci bene è una distopia paranoica come poche, e a qualcuno è già venuto in mente che le app di dating non servano quasi a nulla, per estremo paradosso, perchè in teoria (tutto da dimostrare) potrebbero funzionare per le persone che comunque non ne avevano bisogno (che già avevano varie relazioni poliamorose ecc.) e fallire per le altre (single di ferro), creando un alone di mito funzionalista che serve esclusivamente a chi quelle app, poi, se le fa pagare.
A questo punto – senza voler invitare nessuno a disinstallare Tinder, s’intende – la maledizione della dimensionalità potrebbe essere interpretata come un tipo di bias cognitivo che si manifesta nell’analisi dei dati e nell’apprendimento automatico, un bias algoritmico che induce potenziali allucinazioni digitali.
Allucinazioni. Digitali. Una distorsione sistematica nella nostra percezione, nell’interpretazione o nella rappresentazione delle informazioni, che influisce sulle decisioni e sulle conclusioni che traiamo, e da cui possiamo difenderci solo analizzando in profondità i meccanismi sottostanti queste app. Guardandoli con distacco. Stare dentro il digitale, ma rimanendo esterni al contesto, in uno sforzo di distacco e disincanto mai visto prima. Forse quasi impossibile, ad oggi, quanto necessario. (fonte)
Immagini generate da StarryAI.