Shanghai Neardi Technology Co., Ltd. sales@neardi.com 86-021-20952021
Imaginem que estão a trabalhar num projeto de IA de ponta com o RK3588: o fluxo de vídeo da câmara precisa de realizar reconhecimento facial em tempo real e detecção de veículos, ao mesmo tempo em que suporta a exibição da UI, upload de dados,e processamento de lógica de negóciosObserve: quedas de quadro ocorrem quando há muitos objetos no quadro, grandes modelos não funcionam bem e a temperatura sobe acentuadamente.
Nesse ponto, as pessoas costumam dizer: "Seu modelo é muito grande" 6TOPS do RK3588 não é suficiente.
Mas é realmente uma falta de poder de computação? Você já se perguntou: Por que uma NPU 6TOPS ainda experimenta quedas de quadros e atraso ao executar um modelo 4TOPS?A resposta está em três dimensões do poder de computação da NPU:Pico de desempenho (TOPS),Precisão (INT8/FP16), eEficiência (largura de banda).
Você verá que vários chips enfatizam suas especificações de NPU, com um parâmetro central exibido de forma proeminente: NPU Computing Power: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, e assim por diante...
Tera.Representa 1012.
Operações por segundo: refere-se ao número total de operações de IA que a NPU pode executar em um segundo.
![]()
O número total de Unidades MAC é o núcleo da computação de redes neurais.O cálculo principal envolve multiplicar os dados de entrada por pesos e depois somar os resultados.
A filosofia de design de uma NPU consiste em ter uma gama extremamente grande de unidades MAC paralelas.que podem trabalhar simultaneamente para alcançar computação paralela em larga escala.
Quanto mais unidades MAC existirem, maior a quantidade de computação que a NPU pode completar em um único ciclo de relógio.
Frequência do relógio: Determina o número de ciclos em que o chip NPU e as suas unidades MAC operam por segundo (medidos em Hertz, Hz).Uma frequência mais alta permite que a matriz MAC execute mais operações de multiplicação-acumulação por unidade de tempoQuando os fabricantes anunciam o TOPS, utilizam a frequência máxima de funcionamento da NPU (ou seja, a frequência máxima alcançável).
Operações por MAC: Uma operação MAC completa inclui na verdade uma multiplicação e uma adição.Muitos padrões de computação contam uma operação MAC como 2 operações básicas (1 para multiplicação e 1 para adição).
Fator de precisão: As unidades MAC de uma NPU são otimizadas para processar dados de baixa precisão (por exemplo, INT8).
Relação de aceleração simplificada de INT8 vs FP32: Uma vez que 32 bits / 8 bits = 4, uma única unidade FP32 pode, teoricamente, executar 4 vezes mais operações em um ciclo quando mudada para computação INT8.,Se o TOPS de um fabricante for calculado com base no INT8, ele precisa ser multiplicado por uma taxa de aceleração relacionada à precisão.
O TOPS mede o pico de potência de computação teórica.A potência de computação efetiva real de uma NPU é muitas vezes inferior a este valor máximo.
![]()
A potência de computação nos diz quão rápido uma NPU funciona, enquanto a precisão computacional nos diz quão bem ela funciona.determinação do número de bits utilizados e da faixa de representação dos dados durante o cálculo.
No mesmo nível TOPS, a velocidade de computação real do INT8 é muito mais rápida do que a do FP32.
Os TOPS NPU reivindicados pelos fabricantes são geralmente baseados na precisão INT8.
![]()
Quando você vê uma NPU reivindicando 20 TOPS (INT8), você precisa entender:
A potência de computação de uma NPU (TOPS) é um indicador de sua velocidade, enquanto a precisão computacional (por exemplo, INT8) é fundamental para sua eficiência e aplicabilidade.fabricantes geralmente visam maximizar INT8 TOPS mantendo perda aceitável de precisão, para alcançar um desempenho de inferência de IA de baixa potência e alta eficiência.