h1_key

當前位置:首頁 >新聞資訊 > 技術文章>NPU芯片有什么用,算力是怎么評估的?
NPU芯片有什么用,算力是怎么評估的?
2023-03-08 2575次



NPU芯片有什么用,算力是怎么評估的?



  NPU芯片有什么用,算力是怎么評估的?

  算力簡單說就是計算能力,按《中國算力發(fā)展指數(shù)白皮書》中的定義算力是設備通過處理數(shù)據,實現(xiàn)特定結果輸出的計算能力。2018年諾貝爾經濟學獎獲得者William D. Nordhau濾《計算過程》一文中提出:“算力是設備根據內部每秒可處理的信息數(shù)據量"。算力實現(xiàn)的核心是CPU、GPU等各類計算芯片,并由計算機、服務器、高性能計多集群和各類智能終端等承載,海量數(shù)據處理和各種數(shù)字化應用都離不開算力的加工和計算。

  以AI為例,CPU、GPU、DSP等都可以運行,但是還是有專用的AI芯片,為什么呢?也跟算力有關。

  CPU(central processing unit)是通用處理器,可以處理一切事物,就像一把瑞士軍刀,哪方面都能做但都不是專業(yè)高效的。

  GPU(Graphics Processing Unit)是專門用來處理圖形圖像相關的處理器,與CPU相比GPU處理的數(shù)據類型單一,因為運算與AI相似以及容易組成大的集群,所以進行AI運算時在性能、功耗等很多方面遠遠優(yōu)于CPU,經常被拿來處理AI運算。

  DSP(digital signal processor),是專門用來處理數(shù)字信號的,DSP與GPU情況相似,也會被拿來做AI運算,比如高通的手機SoC。

  AI芯片是專門用來處理AI相關運算的芯片,這與CPU、GPU、DSP的“兼職”做AI運算不同,即便是最高效的GPU與AI芯片相比也是有差距的,AI芯片在時延、性能、功耗、能效比等方面全面的超過上面提到的各種處理器。以知名的谷歌的TPU為例,如下圖所示,TPU的主要計算資源為:

  Matrix Multiply Unit:矩陣乘單元

  Accumulators:存儲矩陣乘加輸出的中間結果

  Activation:激活單元

  Unified Buffer:統(tǒng)一緩存



NPU芯片有什么用,算力是怎么評估的?


  當時谷歌資深硬件工程師Norman Jouppi表示,谷歌的專用機器學習芯片TPU處理速度要比GPU和CPU快15-30倍(和TPU對比的是英特爾Haswell CPU以及Nvidia Tesla K80 GPU),而在能效上,TPU更是提升了30到80倍,這并不意外,因為TPU運行的CNN運算主要就是矩陣乘,專用芯片好處就是這樣。其實對于對于AI來說,又分為訓練和推理,訓練就像AlphaGo一樣需要學很多的棋譜(數(shù)據),通常采用數(shù)據精度為FP32。

  FP32(Full Precise Float 32,單精度)占用4個字節(jié),共32bit,

  FP16(float,半精度)占用2個字節(jié),共16bit,

  INT8,占用1個字節(jié),也就是8bit,精度更低,因此數(shù)據量小、能耗低,計算速度相對更快,更符合端側運算的特點。


NPU芯片有什么用,算力是怎么評估的?


  不同精度計算消耗的Bill Dally 在ACMMM 2017 上的《Efficient Methods and Hardware for Deep Learning》演講中曾經列過一個不同精度計算的消耗能量和硅片面積對比,可以看出一個FP32精度的乘法運算消耗是INT8精度的18.5倍。因此同樣一塊芯片運算INT8的數(shù)據與運算FP32的數(shù)據在同一時間內運算次數(shù)相差很多,也就是說不同精度OPS不同,算力不同。


NPU芯片有什么用,算力是怎么評估的?


  這樣的精度如果運行在手機等終端上是不行的,所以在在手機、汽車、安防等終端領域,都是執(zhí)行模型的推理,現(xiàn)有的推理芯片有很多,比如特斯拉FSD、寒武紀NPU、地平線BPU、OPPO的馬里亞納、榮耀使用的AI-ISP等。與訓練階段不同,在推理的時候,精度要求并不高,以知名的對象監(jiān)測算法YOLO(You Only Look Once)為例,F(xiàn)P32的精度與INT8的精度相差甚小,但是因為模型更小,神經網絡模型的推理速度卻大幅加快。這在終端上很重要,比如在汽車的自動駕駛上,如果推理計算的數(shù)據慢了會造成巨大的影響。


NPU芯片有什么用,算力是怎么評估的?


  當然在安防等對精度要求更低的地方,還有很多采用的是INT4精度的,比如愛芯科技的AX630A在INT4精度下的算力達到了28.8TOPS,可應用于智能盒子,運動相機,智能加速卡,工業(yè)攝像頭等領域,如果是INT8精度就是7.2TOPS(這里要注意的是并不是所有的AI芯片支持不同精度下的算力轉換,這需要硬件實現(xiàn)上的支持)


NPU芯片有什么用,算力是怎么評估的?


  在終端芯片上,廠商宣稱的算力有時候甚至不是AI芯片的算力,因為CPU、GPU、DSP都可以進行AI的運算,所以在宣傳算力的時候采用的是CPU算力 + GPU算力 + DSP算力的算法,雖然這些處理單元都在一顆芯片上但是在實際使用上不可能同時進行AI運算。


NPU芯片有什么用,算力是怎么評估的?


  因為一些手機芯片的AI處理能力不足,以及處理流程在YUV域較為靠后,所以像OPPO等廠商開始推出馬里亞納這樣的AI芯片,18TOPS并前置在手機SOC之前在RAW域進行 AI降噪的處理,可以大幅的提升夜景拍攝能力,保留更多細節(jié)。



NPU芯片有什么用,算力是怎么評估的?


  榮耀采用的AI-ISP也是一樣的道理,其實這類芯片本質上是一個處理AI運算的NPU,從業(yè)務上來說更好的叫法是Pre-ISP,并不是真正的ISP芯片。

  • 一文讀懂什么是IMU傳感器?
  • IMU(慣性測量單元,Inertial Measurement Unit) 是一種用于測量物體運動狀態(tài)的電子設備,通過組合多種傳感器來提供三維空間中的加速度、角速度及姿態(tài)信息。
    2025-03-05 308次
  • 一文讀懂什么是圖像傳感器?
  • 圖像傳感器是一種將光學圖像轉換為電信號的電子器件,廣泛應用于數(shù)碼相機、智能手機、安防監(jiān)控、醫(yī)療影像、自動駕駛等領域。它是現(xiàn)代成像系統(tǒng)的核心組件,決定了圖像的清晰度、色彩還原能力和動態(tài)范圍等關鍵性能。
    2025-03-03 82次
  • 一文讀懂什么是加速度傳感器?
  • 加速度傳感器(Accelerometer)?是一種測量物體線性加速度的裝置,可檢測物體在空間中沿X、Y、Z軸的平移運動(包括靜態(tài)重力加速度和動態(tài)運動加速度)。
    2025-02-26 167次
  • XILINX賽靈思 XC7K160T-2FBG484E
  • 賽靈思(XILINX)作為行業(yè)的領軍企業(yè),其推出的 XC7K160T-2FBG484E 更是一款備受矚目的產品。XC7K160T-2FBG484E 屬于賽靈思 7 系列 FPGA(現(xiàn)場可編程門陣列),具有強大的性能和豐富的功能。
    2024-09-25 348次
  • XILINX賽靈思 XCKU085-2FLVA1517E
  • 賽靈思(XILINX)作為全球領先的可編程邏輯器件供應商,其推出的 XCKU085-2FLVA1517E 以卓越的性能和豐富的功能,成為眾多電子工程師和設計師的首選。XCKU085-2FLVA1517E 屬于賽靈思 UltraScale 架構系列產品,采用先進的 20 納米工藝技術制造。這一工藝不僅帶來了更高的性能,還實現(xiàn)了更低的功耗,為各種復雜的電子系統(tǒng)設計提供了理想的解決方案。
    2024-09-25 306次

    萬聯(lián)芯微信公眾號

    元器件現(xiàn)貨+BOM配單+PCBA制造平臺
    關注公眾號,優(yōu)惠活動早知道!
    10s
    溫馨提示:
    訂單商品問題請移至我的售后服務提交售后申請,其他需投訴問題可移至我的投訴提交,我們將在第一時間給您答復
    返回頂部