資訊改革即將來臨 !! 隨著科技日新月盛地進步,AI 的應用已悄悄融入於人們的生活中,像是 Google 強大的搜尋引擎、Facebook 的喜愛排序、網路賣場的銷售排行等等。靜靜地回想,不難發現這些應用已經散佈於每個人生活之中。
在不久的將來,所謂的 邊緣運算(Edge Computing) 將會帶來此領域的另一個高峰。藉由 神經運算處理晶片(Neural Processing Unit, NPU) 的誕生,亦指 AI 晶片。使得晶片運算能力有著飛躍性的成長,讓機器學習、人工智能的應用能夠落實於移動設備端、傳感器等等各種硬體設備,更加貼近於人們實際生活之中。然而,這類地膾炙人口的新穎應用領域不外乎就是智慧工廠(Smart Factory)、智慧醫療(Smart Medical)、智慧生活(Smart Life)、智慧城市(Smart City)、物聯網(IoT)、工業 4.0、先進輔助駕駛系統(ADAS) 等等。因此,如何讓生活、物品變得更智慧、更人性,就是新世代的創意,藉此透過 AI 開創無限可能性。
圖1 OP-Killer EVM Board 應用場景
本方案提供一套 OP-Killer EVM Board 之 AI 相關應用產品開發原型與技術資源,如下圖所示。要讓初入此領域者的開發者能夠更快速地上手機器學習相關應用,並促成未來的殺手級應用。
此開發原型由兩塊開發板組成,SOM Board 為主要開發板,可獨立使用。而 I/O Board 為擴充板,能夠提供豐富的應用支援。使得實際應用上更具靈活性以及提供最佳化的應用模塊,藉此應用於各式各樣的領域,如物聯網(IoT)、工業4.0 (Industry 4.0)、自駕車(Autonomous Cars),足以落實 邊緣運算(Edge Computing) 的概念,創造更好的應用價值。
SOM Board 開發板 :
採用 NXP i.MX8M Plus平臺為基礎,提供兩種規格的 4x Cortex-A53 處理器 ( 1.6 or 1.8 GHz ) 以及 1200 萬畫素的圖像處理器 ISP、2.3 TOPS 算力的神經運算處理器 NPU、圖形加速器 2D/3D GPU、音效數位訊號處理器 HiFi 4 DSP 等強大核心架構。其中,神經運算處理器 NPU 為此晶片的亮點核心,透過獨特的硬體架構特性,能夠在低功耗的環境下(約 2 W) 提供極高的運算效能,妥善運用能夠大幅度提高機器學習的推理效益。特別適用於 MobileNet、ResNet、Inception、YOLO 等神經網路架構。
I/O Board 開發板 :
提供強大的周邊配置,透過 314 PIN 的 MXM 傳輸介面 ( WPI 定義) 來傳送周邊訊號,如 UART 非同步收發傳輸器、USB Type A/C 3.0 通用序列匯流排接口、 Gigabit Ethernet 乙太網路、I2C Bus 串列通訊匯流排、 MIPI-CSI 鏡頭資料傳輸介面、MIPI-DSI 顯示資料傳輸介面、GPIO 通用型輸入輸出介面、HDMI 高畫質多媒體介面、 LVDS 低壓差分訊號技術介面、 CAN Bus 控制器區域網路、 M.2 Key B 傳輸介面、3.5 mm headset 音源接口。能夠將 I/O Board 與 SOM Board 開發板完美結合,讓訊號與資訊迅速交流 !!
圖2 OP-Killer EVM Board 深度學習- MXM 傳輸介面示意圖
以及搭配 NXP 所建置的機器學習開發環境 eIQ(edge intelligence),能夠快速地應用 TensorFlow Lite、ONNX、ArmNN、DeepViewRT 等等深度學習框架。如同下圖所示,僅需將影像、聲音等相應的資料,託付(Delegate) 給任何一個深度學習框架進行推理(Inference),即可快速解析神經網路架構來得到結果。且該框架將會透過 OpenVX 資料庫 與 神經運算處理晶片 NPU 作最佳化的加速運算。經實際測試,MobileNet-SSD 物件偵測,推理速度約可達到每秒 80 張 FPS。 MobileNet 物件分類,推理速度更是能達到每秒 329 張 FPS。 比起同級的 GPU (GC7000XSVX) 而言,能快上約莫 4 倍的運算效益!!
圖3 OP-Killer EVM Board 深度學習應用示意圖
如下圖所示,展示了更多實際的應用。如 ADAS、智慧相機、智慧城市、智慧生活。都可藉由你的想像力與創造力,開發出更具潛在力的殺手應用!!
圖4 OP-Killer EVM Board 深度學習-更多實際應用示意圖
這裡,亦提供實際應用數據,而多數應用皆能達到每秒 30 張以上的推理速度 !! 如同著名的物件偵測算法 YOLO V3 Tiny 與 YOLO V4 Tiny 亦有高達 67 與 43 張的 FPS 。 足以落實大部分視覺相關的應用 !! 潛力無限 !!
圖5 OP-Killer EVM Board 深度學習-更多實際應用數據表
?場景應用圖
?展示板照片
?方案方塊圖
?核心技術優勢
1. 搭配算力 2.3 TOPS 的神經處理器(Neural Processing Unit , NPU),即擁有強大的機器學習推理能力。比起廣為人知的 圖形處理器(Graphics Processing Unit , GPU) 更為省電,效率更高,是專門設計應用於深度學習、人工智慧的處理器 !! 2. 獨立 SOM 開發板設計,並搭配強大的 NXP i.MX8M Plus 晶片。能夠提供最小開機系統以及未來可配合 USB Wi-FI / BT 模組,更加適合應用於 IoT 與工業控制領域。 3. 結合 I / O 開發板能夠提供齊全的周邊配置。如高畫質多媒體介面(HDMI)、低壓差分訊號技術介面(LVDS)、乙太網路(Ethernet)、控制器區域網路(CAN bus)、非同步收發傳輸器(UART)、通用序列匯流排接口(USB Type A/C)、3.5 mm headset 音源接口、鏡頭資料傳輸介面(MIPI-CSI)、顯示資料傳輸介面(MIPI-DSI)、M.2 - PCIe 3.0 傳輸介面。 4. 可快速上手應用 eIQ / PyeIQ 機器學習開發環境,提供 TensorFlow Lite、ONNX、DeepViewRT 等多種深度學習框架的應用範例。
?方案規格
** SOM Borad 規格 ** MPU ( NXP i.MX8M Plus, MIMX8ML8CVNKZAB / MIMX8ML8DVNLZAB ) 規格: 1. 搭配 4 顆 Arm Cortex-A53 高效能處理器,最高時脈分別為 1.6 GHz 與 1.8 GHZ 2. 搭配 2.3 TOPS 算力的神經處理器(NPU, Neural Processing Unit) 給予機器學習應用 3. 搭配兩組影像訊號處理單元 (ISP) 能夠解析 12 萬畫素與每秒可達 375 MPixels/s 像素 4. 支持兩組 MIPI-CSI 鏡頭介面 5. 支援低功耗聲音加速器 : Cadence? Tensilica? HiFi 4 DSP at 800 MHz 6. 強健的 3D/2D 圖強加速器(GPU, GC7000UL) 7. 強大的視訊解碼器與編碼器能夠支援 1080p at 60 frame 的影像串流. PMIC (PCA9450C) 規格: 1. 提供一組雙向降壓穩壓器 2. 提供五組線性穩壓器 3. 提供400 mA 主動負載開關 4. 支援 ESD 保護機制 : +/- 2000V HBM 與 +/-500V CDM . eMMC 5.1 (MTFC32GAPALBH-IT) 規格: 1. 儲存容量為 32 GB 2. 操作電壓為 2.7 至 3.6 V 3. 操作溫度為 -40 至 85 °C External Memory LPDDR4 (MT53D1024M32D4DT-046 AAT:D) 規格: 1. 最高運行時脈為 2133 MHz 2. 儲存容量為 4 GB 3. 操作電壓為 1.1 V 4. 操作溫度為 -40 至 105 °C NOR Flash (IS25WP256E-JLLE) 規格: 1.儲存容量為 32 MB 2.操作電壓為 1.7 至 1.95 V 3.操作溫度為 -40 至 105 °C ** IO Board 規格 ** ◆ 1x PCIe M.2 Key M 傳輸介面 ◆ 1x Expansion Connector 擴充介面 ( I2C、GPIO、UART、PWM、SPI、PDM ) ◆ 2x LVDS 低壓差分訊號技術介面 ◆ 1x USB Type A 3.0 通用序列匯流排接口 ◆ 1x USB Type C 3.0 通用序列匯流排接口 ◆ 1x Debug 連接埠 ( Micro USB ) ◆ 2x CAN Bus 控制器區域網路 ◆ 1x MIPI-DSI 顯示資料傳輸介面 ◆ 3.5 mm headset 音源接口 ◆ 2x Gigabit Ethernet 乙太網路 ◆ 1x HDMI 高畫質多媒體介面 ◆ 2x MIPI-CSI 鏡頭資料傳輸介面