Shanghai Neardi Technology Co., Ltd. Perfil da empresa

Notícia

Para casa > Notícia >

Notícias da Empresa Uma interpretação aprofundada do gargalo 6TOPS do RK3588 e a verdade sobre o poder de computação da NPU

Uma interpretação aprofundada do gargalo 6TOPS do RK3588 e a verdade sobre o poder de computação da NPU

2025-12-15

Imaginem que estão a trabalhar num projeto de IA de ponta com o RK3588: o fluxo de vídeo da câmara precisa de realizar reconhecimento facial em tempo real e detecção de veículos, ao mesmo tempo em que suporta a exibição da UI, upload de dados,e processamento de lógica de negóciosObserve: quedas de quadro ocorrem quando há muitos objetos no quadro, grandes modelos não funcionam bem e a temperatura sobe acentuadamente.

Nesse ponto, as pessoas costumam dizer: "Seu modelo é muito grande" 6TOPS do RK3588 não é suficiente.

Mas é realmente uma falta de poder de computação? Você já se perguntou: Por que uma NPU 6TOPS ainda experimenta quedas de quadros e atraso ao executar um modelo 4TOPS?A resposta está em três dimensões do poder de computação da NPU:Pico de desempenho (TOPS),Precisão (INT8/FP16), eEficiência (largura de banda).

Você verá que vários chips enfatizam suas especificações de NPU, com um parâmetro central exibido de forma proeminente: NPU Computing Power: X TOPS.RK1820-20TOPS, Hi3403V100-10TOPS, Hi3519DV500-2.5TOPS, Jetson Orin Nano-20/40TOPS, Jetson Orin NX-70/100TOPS, e assim por diante...

O que é o TOPS? Porque é que toda a gente está a falar dele?

Tera.Representa 1012.

Operações por segundo: refere-se ao número total de operações de IA que a NPU pode executar em um segundo.

Como é calculado o TOPS?

últimas notícias da empresa sobre Uma interpretação aprofundada do gargalo 6TOPS do RK3588 e a verdade sobre o poder de computação da NPU 0

O número total de Unidades MAC é o núcleo da computação de redes neurais.O cálculo principal envolve multiplicar os dados de entrada por pesos e depois somar os resultados.

A filosofia de design de uma NPU consiste em ter uma gama extremamente grande de unidades MAC paralelas.que podem trabalhar simultaneamente para alcançar computação paralela em larga escala.

Quanto mais unidades MAC existirem, maior a quantidade de computação que a NPU pode completar em um único ciclo de relógio.

Frequência do relógio: Determina o número de ciclos em que o chip NPU e as suas unidades MAC operam por segundo (medidos em Hertz, Hz).Uma frequência mais alta permite que a matriz MAC execute mais operações de multiplicação-acumulação por unidade de tempoQuando os fabricantes anunciam o TOPS, utilizam a frequência máxima de funcionamento da NPU (ou seja, a frequência máxima alcançável).

Operações por MAC: Uma operação MAC completa inclui na verdade uma multiplicação e uma adição.Muitos padrões de computação contam uma operação MAC como 2 operações básicas (1 para multiplicação e 1 para adição).

Fator de precisão: As unidades MAC de uma NPU são otimizadas para processar dados de baixa precisão (por exemplo, INT8).

Relação de aceleração simplificada de INT8 vs FP32: Uma vez que 32 bits / 8 bits = 4, uma única unidade FP32 pode, teoricamente, executar 4 vezes mais operações em um ciclo quando mudada para computação INT8.,Se o TOPS de um fabricante for calculado com base no INT8, ele precisa ser multiplicado por uma taxa de aceleração relacionada à precisão.

O TOPS mede o pico de potência de computação teórica.A potência de computação efetiva real de uma NPU é muitas vezes inferior a este valor máximo.

O poder de computação é sobre a velocidade; a precisão é sobre a "finitude".

últimas notícias da empresa sobre Uma interpretação aprofundada do gargalo 6TOPS do RK3588 e a verdade sobre o poder de computação da NPU 1

A potência de computação nos diz quão rápido uma NPU funciona, enquanto a precisão computacional nos diz quão bem ela funciona.determinação do número de bits utilizados e da faixa de representação dos dados durante o cálculo.

No mesmo nível TOPS, a velocidade de computação real do INT8 é muito mais rápida do que a do FP32.

Os TOPS NPU reivindicados pelos fabricantes são geralmente baseados na precisão INT8.

últimas notícias da empresa sobre Uma interpretação aprofundada do gargalo 6TOPS do RK3588 e a verdade sobre o poder de computação da NPU 2

Alta precisão (normalmente utilizada para treinamento)

FP32 (ponto flutuante de precisão única, 32 bits): Oferece o maior intervalo numérico e precisão. Comumente usado em computação de GPU e PC tradicionais. Os modelos normalmente adotam FP32 durante a fase de treinamento para garantir a precisão.
FP16/BF16 (Ponto Flutuante de Meia Precisão, 16 bits): Reduz o volume de dados pela metade, mantendo um certo nível de precisão, permitindo um cálculo mais rápido e uma economia de memória.

Baixa precisão (normalmente usada para inferência)

INT8 (integer de 8 bits)O processo de conversão de pesos de modelo e valores de activação a partir de alta precisão (por exemplo,FP32) para números inteiros de 8 bits é chamado Quantização.
INT4 (Low Bit-Width): Dispõe de compressão adicional, adequada para cenários com requisitos extremamente elevados de consumo de energia e latência, mas impõe exigências mais elevadas ao controlo da perda de precisão do modelo.

Como entender o desempenho real de uma NPU?

Quando você vê uma NPU reivindicando 20 TOPS (INT8), você precisa entender:

A potência de computação máxima é de 20 trilhões de operações por segundo.
Este poder de computação é medido sob precisão inteira de 8 bits (INT8).
O desempenho final depende da aplicação: a experiência real do usuário (como a velocidade de desbloqueio do rosto, a latência de tradução em tempo real) depende não apenas dos TOPS da NPU, mas também de:
- Qualidade de quantização do modelo: se o modelo INT8 quantizado mantém uma precisão suficiente.
- Largura de banda de memória: velocidade de entrada e saída de dados.
- Software stack e drivers: nível de otimização da cadeia de ferramentas e drivers fornecidos pelo fabricante do chip para implantação do modelo.

A potência de computação de uma NPU (TOPS) é um indicador de sua velocidade, enquanto a precisão computacional (por exemplo, INT8) é fundamental para sua eficiência e aplicabilidade.fabricantes geralmente visam maximizar INT8 TOPS mantendo perda aceitável de precisão, para alcançar um desempenho de inferência de IA de baixa potência e alta eficiência.

Eventos

Notícia

Casos

Contactos

Contactos: Mr. Cola

Telefone: 86-021-20952021

Contacte agora

Envia-nos.

Sistema no módulo SoM

único computador de placa

Computador encaixado

PC incorporado no veículo

Rockchip SBC

Nvidia Jetson SBC

Módulo de WiFi

PC industrial da caixa

Módulo Linux SoM

Sistema Android em módulo

placa encaixada androide

Sistema no módulo SoM

único computador de placa

Computador encaixado

PC incorporado no veículo

Rockchip SBC

Nvidia Jetson SBC

Módulo de WiFi

PC industrial da caixa

Módulo Linux SoM

Sistema Android em módulo

placa encaixada androide

Uma interpretação aprofundada do gargalo 6TOPS do RK3588 e a verdade sobre o poder de computação da NPU

Notícia

Casos

Sistema no módulo SoM

único computador de placa

Computador encaixado

PC incorporado no veículo

Rockchip SBC

Nvidia Jetson SBC