SPS_2023
28 speciale anteprima SPS ITALIA 2023 partizione in regioni decisionali disgiunte o approssimazione dei dati per mezzo di una curva o una superficie. Il modello è una corrispondenza tra i punti nello spazio degli oggetti (o delle relative feature) e lo spazio dei risultati, ad esempio tra la collezione di foto segnaletiche e una variabile booleana che rappresenta il risultato del confronto con una foto di riferimento. Il modello è il prodotto della fase di addestramento sui dati del training set; l’obiettivo del programmatore è fare in modo che il modello operi con un margine di errore minimo su elementi che non sono stati usati in training (i dati di validazione, prima, e le informazioni nel mondo reale, poi). Correlazioni e raggruppamenti I principali compiti associati a supervised e unsupervised learning si possono riassumere nella ricerca di correlazioni significative (o della loro mancanza) tra le feature, o nel raggruppamento di elementi dello spazio delle feature in categorie con determinati attributi in comune. Nell’unsupervised learning il task di riduzione della dimensionalità,effettuato ad esempio con gli algoritmi PCA (Principal Component Analysis), t-SNE (t-Distributed Stochastic Em- bedding), o di analisi della funzione discriminante LDA (Linear Discriminant Analysis), consiste nell’identificare le feature (o loro combinazioni) che mo- strano la più netta dipendenza tra loro, escludendo invece quelle che non giocano un ruolo significativo. Nello spazio astratto delle feature, questo si traduce nel proiettare l’insieme dei vettori su un sottospazio di dimen- sioni ridotte, mantenendo per lo più invariata la quantità di informazioni nel nuovo set di dati. Il clustering è una tecnica di apprendimento automatico che opera su dati privi di etichetta, raggruppandoli in partizioni, i cluster, che contengono punti con caratteristiche simili (inbase aundeterminato criterio specificatodall’al- goritmo). Il clustering può essere usato per ridurre il dataset a un numero esiguodi elementi rappresentativi (unoper cluster) oper evidenziare relazioni tra variabili che non sarebbero rilevabili nel dataset originale (è il caso del clustering gerarchico delle mappe di calore, o heatmap). Tra i task principali del supervised learning, la regressione identifica correlazioni tra variabili, utilizzando i dati di training per creare un modello previsionale (che ipotizza una relazione di causa-effetto tra le variabili) da applicare a dati non presenti nel dataset originario. La creazione del modello avviene selezionandone i parametri che minimizzano una determinata funzione di costo, tipicamente la somma degli scarti quadratici (SSE, Sumof Square Errors). La ricerca dei valori ottimali è comunemente effettuata utilizzando il metodo della discesa del gradiente, che è una generalizzazionemultidimensionale e adattiva della ricerca del punto a derivata prima nulla. Il compito di classificazione si distin- gue da quello di regressione perché opera su variabili di tipo categorico, in- vece che numerico (o se vogliamodi valore numericodiscreto: la regressione logistica è di fatto una tecnica di classificazione in quanto il modello che crea permette di prevedere se per un dato valore delle variabili indipendenti si ricade nel ramo inferiore o superiore della curva logistica). La classificazione opera sudati etichettati in fasedi training e ilmodello cheproduce si può rias- sumere permezzodi un confine decisionale nello spaziodelle feature.Questi confini, che nel caso lineare sono spezzate, o più in generale iperpiani, deli- mitano regioni che sono impiegate per classificare elementi mai visti prima. La configurazione dei confini decisionali dipende dall’algoritmo di classifica- zione, ed è possibile utilizzare la loro rappresentazione nello spazio delle feature per distinguere, quando possibile, e comprendere il funziona- mento di questi algoritmi. Alberi e distanze Gli algoritmi di raggruppamento e regressione possono essere implementati con tecniche di vario tipo. È infatti possibile ricorrere ai metodi della branca logicadell’intelligenza artificiale (alberi di regressione edi classificazione),oa tecnichebasatesul concettodi distanza traelementi nellospaziodelle feature (classificazione k-neighbors, clustering k-means, Dbscan). Un aspetto della branca logica dell’AI che trova ampia applicazione nellamoderna concezione del machine learning è quello degli alberi decisionali.Oltre che negli algoritmi di ricerca, nel problemsolving e nel ragionamento induttivo, queste strutture vengono impiegate per svolgere task di regressione, classificazione e cluste- ring.La costruzionedi unalberodi regressionepassaattraverso ladefinizione delle soglie ottimali ai fini dellaminimizzazionedell’errore commessonell’ap- prossimazione con i livelli associati a ciascun ramodell’albero (tipicamente la somma dei quadrati dei residui, SSR). Gli alberi di classificazione, per i quali non sono in genere disponibili valori sumerici con cui valutare l’SSR, richiedono il calcolo di un particolare indice Nello spazio delle feature, gli algoritmi di raggruppamento si distinguono per il modo in cui creano confini decisionali tra le regioni in cui ricadono gli elementi che si vogliono distinguere Diversi algoritmi di machine learning si occupano della costruzione di alberi decisionali di regressione e di classificazione con tecniche che ne rendono efficiente l’impiego come strumenti predittivi
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzg4NjYz