Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Immaginate di lavorare su un progetto di AI edge con l'RK3588: il flusso video della fotocamera deve eseguire il riconoscimento facciale in tempo reale e il rilevamento dei veicoli, supportando allo stesso tempo la visualizzazione dell'interfaccia utente, l'upload di dati,e elaborazione della logica aziendaleNotate: i cali di telaio si verificano quando ci sono molti oggetti nel telaio, i grandi modelli non funzionano correttamente e la temperatura aumenta bruscamente.
A questo punto, la gente di solito dice: "Il tuo modello è troppo grande ̇ i 6TOPS di RK3588 non sono sufficienti".
Ma è davvero una mancanza di potenza di calcolo? vi siete mai chiesti: perché una NPU 6TOPS sperimenta ancora caduta di fotogrammi e ritardo quando esegue un modello 4TOPS?La risposta risiede in tre dimensioni di potenza di calcolo NPU:Performance di picco (TOPS),Precisione (INT8/FP16), eEfficienza (larghezza di banda).
Vedrai che vari chip enfatizzano le loro specifiche NPU, con un parametro centrale visualizzato in modo prominente: NPU Computing Power: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, e così via...
Tera.: rappresenta il 1012.
Operazioni al secondo: si riferisce al numero totale di operazioni di intelligenza artificiale che l'NPU può eseguire in un secondo.
![]()
Il numero totale di unità MAC è il nucleo dell'informatica delle reti neurali.il calcolo principale consiste nel moltiplicare i dati di input per pesi e quindi sommare i risultati.
La filosofia di progettazione di una NPU consiste nell'avere una serie estremamente ampia di unità MAC parallele.che possono lavorare simultaneamente per ottenere un calcolo parallelo su larga scala.
Più unità MAC ci sono, maggiore è la quantità di calcolo che l'NPU può completare in un singolo ciclo di orologeria.
Frequenza dell'orologio: Determina il numero di cicli di funzionamento del chip NPU e delle sue unità MAC al secondo (misurato in Hertz, Hz).Una frequenza più elevata consente all'array MAC di eseguire più operazioni di moltiplicazione-accumulazione per unità di tempoQuando i fabbricanti annunciano TOPS, utilizzano la frequenza di funzionamento massima dell'NPU (cioè la frequenza massima raggiungibile).
Operazioni per MACPer allinearsi al tradizionale metodo di conteggio FLOPS (Floating-Point Operations Per Second),molti standard di calcolo contano una operazione MAC come 2 operazioni di base (1 per la moltiplicazione e 1 per l'addizione).
Fattore di precisioneLe unità MAC di un NPU sono ottimizzate per l'elaborazione di dati di bassa precisione (ad esempio, INT8).
Rapporto di accelerazione semplificato di INT8 vs FP32: poiché 32 bit / 8 bit = 4, una singola unità FP32 può teoricamente eseguire 4 volte più operazioni in un ciclo quando passata al calcolo INT8.,se il TOPS di un produttore è calcolato sulla base di INT8, deve essere moltiplicato per un rapporto di accelerazione correlato alla precisione.
In applicazioni pratiche, a causa di fattori come la trasmissione dei dati, i vincoli di memoria e la struttura del modello, il sistema di calcolo TOPS è in grado di calcolare la potenza di calcolo teorica massima.la potenza di calcolo effettiva effettiva di un NPU è spesso inferiore a questo valore di picco.
![]()
La potenza di calcolo ci dice quanto velocemente un NPU funziona, mentre la precisione computazionale ci dice quanto funzioni.determinare il numero di bit utilizzati e il range di rappresentazione dei dati durante il calcolo.
Allo stesso livello TOPS, la velocità di calcolo effettiva di INT8 è molto più veloce di quella di FP32.
I TOPS NPU indicati dai produttori sono di solito basati sulla precisione INT8.
![]()
Quando vedete un NPU che afferma 20 TOPS (INT8), dovete capire:
La potenza di calcolo di un NPU (TOPS) è un indicatore della sua velocità, mentre la precisione computazionale (ad esempio, INT8) è la chiave per la sua efficienza e applicabilità.I produttori generalmente mirano a massimizzare il TOPS INT8 mantenendo una perdita di precisione accettabile, per ottenere prestazioni di inferenza AI a bassa potenza e ad alta efficienza.