EO 517
Lighting cessori di segnale digitale (DSP) che sono diventati sempre più integrati con altri SoC della società: tuttavia, un DSP da solo non è sufficiente per la maggior parte dei model- li di deep learning utilizzati per la visione. L’acceleratore di deep learning di TI è una combinazione ottimale tra un DSP C7x e un MMA ( matrix-multiply accelerator ) che au- menta enormemente le prestazioni su reti neurali (NN), in particolare su quelle convoluzionali (CNN), utilizzate co- munemente nell’IA per la visione. L’acceleratore di deep learning di AM62A utilizza un DSP C7x a 256 bit e un MMA in grado di eseguire moltiplica- zioni di matrice 32x32 su valori interi a 8 bit in un sin- golo ciclo di clock. Se eseguito alla velocità massima di 1 GHz, fornisce una capacità di calcolo massima di 2 TOPS in quanto l’operazione sulla matrice 32x32 è pari a 1.024 operazioni di moltiplicazione-accumulo (MAC, dove ogni MAC è considerata come due operazioni). Per garantire che l’MMA abbia sempre valori da calcolare, l’architettura comprende più engine di streaming che spostano 256 bit di dati per ciascun ciclo di clock nelle due matrici di input dalla singola matrice di output. A seconda degli strati che compongono l’architettura della rete neurale, gli output dall’MMA potrebbero essere inviati tramite C7x per calco- lare eventuali funzioni non lineari all’interno dello strato. Non è necessario che gli sviluppatori stessi programmino questo aspetto: le chiamate alle API dai core Arm riducono la complessità di programmazione dell’acceleratore, come descritto nella sezione Software per edge AI. Fig. 4 – Architettura dell’acceleratore IA Fig. 5 – Esempio di pipeline di Gstreamer con utilizzo di plugin zero-buffer di TI sfruttando acceleratori hardware e l’implementazione OpenVX di TI EO LIGHTING - APRILE 2024 XXVI
Made with FlippingBook
RkJQdWJsaXNoZXIy Mzg4NjYz