基于多年研發(fā)的CVKit? NN IP的N1系列SoC芯片刷新了端側AI芯片性能記錄。領先的每TOPs處理幀數(shù),實時數(shù)據(jù)流處理能力,支持高精度FP16神經(jīng)網(wǎng)絡模型直接無損部署,高性能的INT8網(wǎng)絡支持能力,多級精細功耗控制,將端側AI芯片的能力提升到了一個新的高度。
01. 單位算力下,誰能夠支撐更快更準的神經(jīng)網(wǎng)絡推理,是衡量AI芯片性能的關鍵
對于AI應用和系統(tǒng)廠商而言,AI芯片是其核心元器件,是人工智能的基礎設施,其重要性不言而喻。 每個應用和系統(tǒng)廠商都在尋找在性能、功耗、成本等方面綜合因素下合用的AI芯片。 評估AI芯片是否適合使用往往從每元錢能獲得的性能、每度電能獲得的性能、部署實施的成本、元器件是否穩(wěn)定可靠等幾個方面來衡量。其中,芯片廠商宣稱的每TOPs(Tera operations per second)的算力對應的實際每秒計算多少幀數(shù)據(jù)(例如圖片或者視頻),以及算法從訓練到部署的轉換中對精度的保持成為關鍵。每秒計算多少幀數(shù)據(jù)的能力,決定了應用和系統(tǒng)廠商能以什么樣的性價比來部署AI算法;算法從訓練到部署的數(shù)據(jù)類型轉換帶來精度損失,決定了應用和系統(tǒng)廠商算法部署前的數(shù)據(jù)投入(比如如何增加數(shù)據(jù)來盡量覆蓋數(shù)據(jù)類型轉換所帶來的損失從而保持精度)、和部署后的實際效果。
肇觀電子作為2016年成立的AI芯片領域第一梯隊企業(yè),其團隊在芯片、數(shù)學、算法等方面深耕多年,一直潛心研發(fā)核心技術,已獲60余件國內外專利授權。
02. AI 芯片性能,“又快又準”是主要指標
AI應用和系統(tǒng)的客戶對于AI芯片實際的深度神經(jīng)網(wǎng)絡處理能力有著明確需求。對于系統(tǒng)性能而言,“又快又準“是其主要指標。“快”主要取決于芯片的每秒計算能力。芯片是個復雜系統(tǒng),由于各種因素,芯片的理論計算能力和實際能達到的計算能力之間往往存在差距。 如何能夠在單位成本和單位功耗下最優(yōu)地支持神經(jīng)網(wǎng)絡模型的各種神經(jīng)層的不同數(shù)據(jù)類型并使得客戶的模型部署的精度損失最小,體現(xiàn)出不同公司之間的技術水平的差異。綜合來看,客戶可感知、利用、發(fā)揮的芯片性能是整個系統(tǒng)的性能的關鍵因素。
根據(jù)不同算法網(wǎng)絡的測試結果,N161芯片每TOPS算力下每秒可推理圖片的數(shù)量展示出了業(yè)界領先的水平。同時,N161還支持FP16高精度網(wǎng)絡,同樣展示出強悍的性能。

▲在INT8精度下,N161跑各項網(wǎng)絡可以達到的每秒幀數(shù)

▲在FP16的精度下,N161跑各項網(wǎng)絡可以達到的每秒幀數(shù)

▲針對五種算法網(wǎng)絡,N161芯片與某業(yè)界旗艦芯片的運行結果對比
“準”主要取決于芯片對于算法中的神經(jīng)網(wǎng)絡模型的各種神經(jīng)層的不同數(shù)據(jù)類型的支持,支持能力方面的差異帶來模型部署的精度損失方面的差異??蛻舻乃惴◤哪P偷挠柧毜侥P偷牟渴鸬臄?shù)據(jù)類型轉換所導致的精度損失往往十分昂貴。比如在無人零售設備的應用中,如果物體識別算法在實際運行中有1%的精度下降,會直接導致貨損率的上升以及運營成本的增加。
根據(jù)各種不同網(wǎng)絡的測試結果,N161 INT8量化網(wǎng)絡幾乎無精度損失(1%以內)。
測試網(wǎng)絡 | 網(wǎng)絡大小 | PC NCNN fp32精度 | 板端INT8精度 |
GoogleNet_V1/Inception v1 | 224x224x3 | top_1= 0.661 top_5= 0.884 | top_1= 0.653 top_5= 0.886 |
mobilenetv1 | 224x224x3 | top_1= 0.698 top_5= 0.904 | top_1= 0.695 top_5= 0.903 |
mobilenetv2 | 224x224x3 | top_1= 0.713 top_5= 0.895 | top_1= 0.711 top_5= 0.892 |
resnet18 | 224x224x3 | top_1= 0.664 top_5= 0.889 | top_1= 0.670 top_5= 0.886 |
resnet50 | 224x224x3 | top_1= 0.743 top_5= 0.926 | top_1= 0.743 top_5= 0.921 |
SENet-R50 | 224x224x3 | top_1= 0.760 top_5= 0.936 | top_1= 0.763 top_5= 0.935 |
squeezenet_v1.1 | 227x227x3 | top_1= 0.577 top_5= 0.796 | top_1= 0.577 top_5= 0.798 |
▲采用1000張imagenet數(shù)據(jù)測試
基于對應用的深刻理解和長時間的技術積累,肇觀電子創(chuàng)新的CVKIT? NN IP在諸多方面遙遙領先,并已部署至N1系列芯片,以及D163(3D視覺)、V163(車載)芯片。
03. Infer Studio?解決“算法落地難”問題
人工智能落地的挑戰(zhàn),一方面在于整個產業(yè)鏈亟待在性能、成本、功耗等方面合用的上游核心芯片來破局;另一方面在于算法部署實施至具體應用所需知識技能過于專業(yè)而導致的綜合成本高昂。人工智能等相關領域的人才,由于稀缺,其薪酬水平較高已是業(yè)界共識;既懂AI算法又懂硬件部署的人才更為缺乏,這導致很多應用和系統(tǒng)廠商的開發(fā)能力較為欠缺,落地較慢。不僅是各個中小企業(yè)面對這一挑戰(zhàn),大廠也往往面對高薪招不到合用的人才的問題。人工智能落地成本高昂,是業(yè)界公認的一個突出問題。
為了解決“算法落地難”的問題,肇觀電子發(fā)布了“5分鐘部署”的AI應用開發(fā)平臺Infer Studio?,助力算法快速商用。Infer Studio?能夠將算法“翻譯”成芯片能讀懂的表述文件,并快速部署,這種“一鍵式”開發(fā)體驗顯著地提高了開發(fā)者的效率。 Infer Studio?支持TensorFlow / TensorFlow Lite / ONNX / Caffe這些主流框架,開發(fā)者可以自由選擇訓練框架。從功能上來說,在軟件層Infer Studio? 具有 Model Visualization 可視化模型、Compiler 編譯器、Evaluator 效果評估器、Debugger 調試器四種功能。

▲ Infer Studio? 操作平臺
不同于算法表現(xiàn)出來的精彩效果,算法網(wǎng)絡在PC端呈現(xiàn)出來的是一連串晦澀難懂的二進制數(shù)據(jù)和無數(shù)層的文本描述。然而Model Visualization可視化模型卻可以將這些描述轉換成網(wǎng)絡圖,便于開發(fā)者直觀地分析網(wǎng)絡的結構和屬性。
Compiler編譯器 可支持將客戶基于主流AI框架開發(fā)出來的算法,包括Caffe,Tensorflow,Tensoflow Lite,ONNX等,轉換成芯片可以理解的表述文件。同時Compiler還能完成Weight Compression的功能,進一步精簡算法模型大小,使其真正部署到存儲空間有限的端設備,提升了網(wǎng)絡推理性能。同時,編譯器也支持算子融合,預編譯等優(yōu)化選項,進一步將推理性能提升至硬件的極限
一套在PC端運行強大的算法如何確保在芯片上也能快速呈現(xiàn)效果?Evaluator 評估器可以幫助客戶快速評估結果是否正確,性能是否能被發(fā)揮出來。通過Infer Studio?的Evaluator功能,客戶可以一鍵式將模型部署在設備上,全面透徹的看到運行結果,同時對分類,檢測分割等網(wǎng)絡在測試圖片中可視化呈現(xiàn)算法效果。
為了高效分析算法移植過程中可能遇到的偏差和兼容性問題,Infer Studio? 的Debugger調試器能夠按層調試,隨時發(fā)現(xiàn)錯誤。客戶可以導出算法運行中的每一層數(shù)據(jù),跟原本算法中的每一層數(shù)據(jù)做對比,便于隨時調試,找出錯誤。
04. Infer Studio? 的行業(yè)落地應用
客戶的方案在算法移植驗證以后,是否也能在產品層面快速部署,正常運行?與Infer Studio? 配套的SDK可以通過積木搭建的方式快速構建多媒體pipeline,并將算法模型靈活嵌入到pipeline中。
例如,一個經(jīng)典的AI應用是:VI (Video Input) 從攝像頭外部接入原始數(shù)據(jù),這些數(shù)據(jù)經(jīng)過ISP模塊轉換成YUV格式,一路傳輸?shù)紼ncoder進行編碼,并輸出。另一路ISP輸出的數(shù)據(jù)傳輸?shù)紺NN引擎運行各種AI算法。AI應用中各個功能模塊之間有著靈活的數(shù)據(jù)流向構建方式;通過模塊間Bind(一種數(shù)據(jù)建立的方法)的方式,客戶可以更靈活的根據(jù)自己的應用需求,組合功能模塊,完成應用部署落地。
客戶也可以自由刪除某些模塊,替換或者增加某些算法模塊。所有這些pipeline搭建工作都可以通過可視化或者幾行配置代碼來實現(xiàn)。將AI算法開發(fā)到產品落地的時間壓縮到極限。對于典型的AI應用,物體分類,人臉/車輛檢測,物體分割等應用,從算法編譯到應用部署,5分鐘內即可完成。
目前,Infer Studio? 在諸多客戶的項目中作為日常使用的重要工具,得到了普遍認可和好評。
例如:在一個監(jiān)測司機是否在說話、瞌睡、打電話的車載項目中,工程師需要檢測眼部的狀態(tài)來判斷司機是否在走神或者瞌睡,檢測耳朵旁邊是否有電話,等等??蛻粼拘枰粋€星期甚至更久才能讓這套算法在芯片上跑起來,但是結合了Infer Studio?之后, 對多個神經(jīng)網(wǎng)絡進行硬件加速,對神經(jīng)網(wǎng)絡的前后處理再結合計算機視覺加速單元 CV Accelerator里的內置算子來完成,使得該算法迅速完成編譯并在平臺上高性能跑起來。
肇觀電子的Infer Studio?是目前市面上罕見的的人工智能算法的硬件移植和部署開發(fā)平臺,在提高人工智能算法的落地效率、降低部署實施成本方面實效顯著,受到下游廠商的廣泛好評。
05. 結語
人工智能技術所賦予時代的意義,往往短期被高估,長期被低估。作為AI芯片設計領域的核心公司之一的肇觀電子,不僅在芯片核心技術上不斷突破,還為客戶提供 “一鍵式” 配套開發(fā)工具。 這不僅促進了客戶的解決方案在應用場景中的部署,也推動了整個人工智能行業(yè)的發(fā)展。