logo

Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021

Shanghai Neardi Technology Co., Ltd. Profilo aziendale
Notizie
Casa. > Notizie >
Notizie dell'azienda Un'interpretazione approfondita del collo di bottiglia 6TOPS di RK3588 e la verità sulla potenza di calcolo NPU

Un'interpretazione approfondita del collo di bottiglia 6TOPS di RK3588 e la verità sulla potenza di calcolo NPU

2025-12-15
Latest company news about Un'interpretazione approfondita del collo di bottiglia 6TOPS di RK3588 e la verità sulla potenza di calcolo NPU

Immaginate di lavorare su un progetto di AI edge con l'RK3588: il flusso video della fotocamera deve eseguire il riconoscimento facciale in tempo reale e il rilevamento dei veicoli, supportando allo stesso tempo la visualizzazione dell'interfaccia utente, l'upload di dati,e elaborazione della logica aziendaleNotate: i cali di telaio si verificano quando ci sono molti oggetti nel telaio, i grandi modelli non funzionano correttamente e la temperatura aumenta bruscamente.

A questo punto, la gente di solito dice: "Il tuo modello è troppo grande ̇ i 6TOPS di RK3588 non sono sufficienti".

Ma è davvero una mancanza di potenza di calcolo? vi siete mai chiesti: perché una NPU 6TOPS sperimenta ancora caduta di fotogrammi e ritardo quando esegue un modello 4TOPS?La risposta risiede in tre dimensioni di potenza di calcolo NPU:Performance di picco (TOPS),Precisione (INT8/FP16), eEfficienza (larghezza di banda).

Vedrai che vari chip enfatizzano le loro specifiche NPU, con un parametro centrale visualizzato in modo prominente: NPU Computing Power: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, e così via...

Cos'è TOPS? Perché tutti ne parlano?

Tera.: rappresenta il 1012.

Operazioni al secondo: si riferisce al numero totale di operazioni di intelligenza artificiale che l'NPU può eseguire in un secondo.

Come viene calcolato il TOPS?

ultime notizie sull'azienda Un'interpretazione approfondita del collo di bottiglia 6TOPS di RK3588 e la verità sulla potenza di calcolo NPU  0

Il numero totale di unità MAC è il nucleo dell'informatica delle reti neurali.il calcolo principale consiste nel moltiplicare i dati di input per pesi e quindi sommare i risultati.

La filosofia di progettazione di una NPU consiste nell'avere una serie estremamente ampia di unità MAC parallele.che possono lavorare simultaneamente per ottenere un calcolo parallelo su larga scala.

Più unità MAC ci sono, maggiore è la quantità di calcolo che l'NPU può completare in un singolo ciclo di orologeria.

Frequenza dell'orologio: Determina il numero di cicli di funzionamento del chip NPU e delle sue unità MAC al secondo (misurato in Hertz, Hz).Una frequenza più elevata consente all'array MAC di eseguire più operazioni di moltiplicazione-accumulazione per unità di tempoQuando i fabbricanti annunciano TOPS, utilizzano la frequenza di funzionamento massima dell'NPU (cioè la frequenza massima raggiungibile).

Operazioni per MACPer allinearsi al tradizionale metodo di conteggio FLOPS (Floating-Point Operations Per Second),molti standard di calcolo contano una operazione MAC come 2 operazioni di base (1 per la moltiplicazione e 1 per l'addizione).

Fattore di precisioneLe unità MAC di un NPU sono ottimizzate per l'elaborazione di dati di bassa precisione (ad esempio, INT8).

Rapporto di accelerazione semplificato di INT8 vs FP32: poiché 32 bit / 8 bit = 4, una singola unità FP32 può teoricamente eseguire 4 volte più operazioni in un ciclo quando passata al calcolo INT8.,se il TOPS di un produttore è calcolato sulla base di INT8, deve essere moltiplicato per un rapporto di accelerazione correlato alla precisione.

In applicazioni pratiche, a causa di fattori come la trasmissione dei dati, i vincoli di memoria e la struttura del modello, il sistema di calcolo TOPS è in grado di calcolare la potenza di calcolo teorica massima.la potenza di calcolo effettiva effettiva di un NPU è spesso inferiore a questo valore di picco.

La potenza di calcolo riguarda la velocità; la precisione riguarda la "finesse".

ultime notizie sull'azienda Un'interpretazione approfondita del collo di bottiglia 6TOPS di RK3588 e la verità sulla potenza di calcolo NPU  1

La potenza di calcolo ci dice quanto velocemente un NPU funziona, mentre la precisione computazionale ci dice quanto funzioni.determinare il numero di bit utilizzati e il range di rappresentazione dei dati durante il calcolo.

Allo stesso livello TOPS, la velocità di calcolo effettiva di INT8 è molto più veloce di quella di FP32.

I TOPS NPU indicati dai produttori sono di solito basati sulla precisione INT8.

ultime notizie sull'azienda Un'interpretazione approfondita del collo di bottiglia 6TOPS di RK3588 e la verità sulla potenza di calcolo NPU  2

Alta precisione (utilizzata tipicamente per l'addestramento)
  • FP32 (singolo punto fluttuante di precisione, 32 bit): offre la più ampia gamma numerica e precisione. comunemente utilizzato in GPU e PC tradizionali. i modelli adottano tipicamente FP32 durante la fase di formazione per garantire la precisione.
  • FP16/BF16 (Floating-Point a Mezzana Precisione, 16-bit): riduce la metà del volume dei dati mantenendo un certo livello di precisione, consentendo un calcolo più rapido e un risparmio di memoria.
Bassa precisione (utilizzata tipicamente per l'inferenza)
  • INT8 (8-bit Integer): Attualmente lo standard industriale per la valutazione delle prestazioni di inferenza delle NPU di bordo.FP32) a numeri interi a 8 bit è chiamata quantizzazione.
  • INT4 (Low Bit-Width): caratterizza un'ulteriore compressione, adatta a scenari con requisiti estremamente elevati di consumo di energia e latenza, ma impone richieste più elevate per il controllo della perdita di precisione del modello.
Come comprendere le prestazioni effettive di un NPU?

Quando vedete un NPU che afferma 20 TOPS (INT8), dovete capire:

  • La massima potenza di calcolo è di 20 trilioni di operazioni al secondo.
  • Questa potenza di calcolo è misurata con una precisione integer di 8 bit (INT8).
  • Le prestazioni finali dipendono dall'applicazione: l'esperienza effettiva dell'utente (come la velocità di sblocco del viso, la latenza di traduzione in tempo reale) si basa non solo sui TOPS dell'NPU, ma anche su:
    • Qualità di quantizzazione del modello: se il modello INT8 quantizzato mantiene una precisione sufficiente.
    • Larghezza di banda della memoria: velocità di ingresso e di uscita dei dati.
    • Software stack e driver: livello di ottimizzazione della catena degli strumenti e dei driver forniti dal produttore del chip per la distribuzione del modello.

La potenza di calcolo di un NPU (TOPS) è un indicatore della sua velocità, mentre la precisione computazionale (ad esempio, INT8) è la chiave per la sua efficienza e applicabilità.I produttori generalmente mirano a massimizzare il TOPS INT8 mantenendo una perdita di precisione accettabile, per ottenere prestazioni di inferenza AI a bassa potenza e ad alta efficienza.

Eventi
Contatti
Contatti: Mr. Cola
Contatto ora
Spedicaci