數碼相機所用的現代圖像傳感器基于半導體(固態)技術,并于二十世紀七十年代初問世。主要分為兩種類型:電荷耦合器件(charge-coupled devices)和主動式像素傳感器(active-pixel sensors)。它們可以“忠實地”從環境中捕獲視覺信息,但會生成大量冗余數據。通常的方式是將大量光學信息轉換為數電格式,然后傳遞到計算單元進行圖像處理。
在傳感器和處理單元之間大量數據移動會引起延遲和高功耗等問題。隨著成像速度和像素數量的增加,帶寬帶來的限制使得難以將所有內容快速返回到中央計算機或基于云的計算機并進行實時處理和決策,這對一些對延遲非常敏感的應用如無人駕駛汽車、機器人或工業制造等尤為重要。
一種更好的解決方案是將一些計算任務轉移到計算機系統外部邊緣傳感設備,從而減少不必要的數據移動。由于傳感器的輸出通常是模擬信號(連續變化),模擬處理勝于數字處理:眾所周知,模數轉換既耗時又耗能。
為了模擬大腦對信息的有效處理,生物神經形態
圖(tu)(tu)(tu)1:在(zai)視覺傳(chuan)感(gan)器(qi)(qi)內進行計算(suan),實現(xian)智能(neng)高效的預(yu)處(chu)理(li)。(a)傳(chuan)統(tong)人工(gong)智能(neng)(AI)視覺傳(chuan)感(gan)器(qi)(qi)從(cong)光敏傳(chuan)感(gan)器(qi)(qi)收(shou)集(ji)信(xin)(xin)(xin)號(hao)(hao),利用模數轉換器(qi)(qi)(ADC)將模擬信(xin)(xin)(xin)號(hao)(hao)轉換為(wei)數字信(xin)(xin)(xin)號(hao)(hao),放大(da)后(hou)輸(shu)入到外部人工(gong)神經(jing)網絡(ANN)——連(lian)接可(ke)(ke)以進行調整的互連(lian)計算(suan)單(dan)元(yuan)(圖(tu)(tu)(tu)中(zhong)(zhong)用圓形(xing)表(biao)示(shi))層,經(jing)過訓練后(hou),此網絡可(ke)(ke)以執行諸(zhu)如圖(tu)(tu)(tu)像(xiang)分類之類的任(ren)務(wu)。ANN輸(shu)入層接收(shou)的信(xin)(xin)(xin)號(hao)(hao)是編碼后(hou)的簡單(dan)物理(li)元(yuan)素(su)(圖(tu)(tu)(tu)中(zhong)(zhong)用點和線表(biao)示(shi));在(zai)后(hou)續層中(zhong)(zhong),這些已優化為(wei)中(zhong)(zhong)級(ji)特征(圖(tu)(tu)(tu)中(zhong)(zhong)用簡單(dan)形(xing)狀表(biao)示(shi));在(zai)輸(shu)出(chu)層上形(xing)成精細圖(tu)(tu)(tu)像(xiang)(圖(tu)(tu)(tu)中(zhong)(zhong)用3D形(xing)狀表(biao)示(shi))。整體響應可(ke)(ke)能(neng)是又慢又耗能(neng)。(b)Mennel等研(yan)究(jiu)人員設計的系統(tong)中(zhong)(zhong),芯片上的互連(lian)傳(chuan)感(gan)器(qi)(qi)(圖(tu)(tu)(tu)中(zhong)(zhong)用正方(fang)形(xing)表(biao)示(shi))不僅可(ke)(ke)以收(shou)集(ji)信(xin)(xin)(xin)號(hao)(hao),還可(ke)(ke)以作為(wei)ANN來識別簡單(dan)功能(neng),從(cong)而(er)減少了(le)傳(chuan)感(gan)器(qi)(qi)和外部電(dian)路的冗余數據移動。
Mennel等研究人員直接在圖像傳感器加入了人工神經網絡。他們在芯片上構建了光電二極管網絡,這些光電二極管是對光敏感的微型單元,每個單元中有幾層二硒化鎢(WSe2)原子層。通過調節施加在二極管上的電壓,半導體器件對光的響應程度發生變化,從而實現對每個二極管靈敏度的分別調節。實際上,這將光電傳感器網絡變成了神經網絡(見圖1b),能夠執行簡單的計算任務。改變光電二極管的光響應能力則改變網絡的連接強度(突觸權重)。因此,該器件實現了光學傳感與神經形態計算的結合。
作者將光電二極管排列成九個像素的正方形陣列,每個像素有三個二極管。當圖像投影到芯片上時,會產生不同的二極管電流,再進行組合和讀取。硬件陣列提供了一種模擬計算形式:每個光電二極管都會產生與入射光強度成比例的輸出電流,并且根據基爾霍夫定律(電路電流所遵循的基本規律)將沿行或列的電流值求和。
圖2:光電二極管排列成九
接著對陣列進行執行任務的訓練。芯片陣列產生的電流與預測電流(對于給定任務,陣列正確響應圖像應產生的電流)的差異,并用于調整下一次訓練周期的突觸權重。這個學習階段會占用時間和計算資源,但是一旦經過訓練,該芯片將迅速執行其任務。
神經網絡可以采用不同算法,作者在文中演示了兩種神經
圖3:27個光(guang)電(dian)(dian)探測(ce)(ce)器的(de)(de)(de)光(guang)響(xiang)(xiang)(xiang)應(ying)值(zhi)(zhi),其中訓(xun)練(lian)數(shu)(shu)據(ju)σ = 0.3。(a,b):其中(a)為初始時(shi)(shi)期(qi)(epoch)的(de)(de)(de)響(xiang)(xiang)(xiang)應(ying)度值(zhi)(zhi),(b)時(shi)(shi)期(qi)為30時(shi)(shi)的(de)(de)(de)響(xiang)(xiang)(xiang)應(ying)度值(zhi)(zhi),訓(xun)練(lian)數(shu)(shu)據(ju)σ = 0.2和σ= 0.4的(de)(de)(de)權重相似。c:在(zai)特定(ding)的(de)(de)(de)投影字母和三種噪(zao)聲水平下,所有時(shi)(shi)期(qi)測(ce)(ce)得的(de)(de)(de)電(dian)(dian)流。d:三種不(bu)同噪(zao)聲水平的(de)(de)(de)初始和最(zui)終響(xiang)(xiang)(xiang)應(ying)度值(zhi)(zhi)的(de)(de)(de)直方圖。
第二個功能是自動編碼:即使在存在信號噪聲的情況下,傳感器計算陣列也可以通過學習圖像的關鍵特征來生成處理后圖像的簡化表示。編碼版本僅包含最基本的信息,但可以解碼以重建與原始圖像最相似的圖像。
這項有前途的技術在投入實際應用之前,還有許多工作要做。用于自動駕駛車輛和機器人技術的神經形態視覺系統需要捕獲視場角較大的3D動態圖像和視頻。當前使用的圖像捕獲技術通常將3D真實世界轉換為2D信息,這樣就丟失了運動信息和深度信息。現有的平面圖像傳感器陣列也限制了廣角相機的發展。
作者描述的器件很難在昏暗的光線下成像。需要重新設計以改善薄半導體的光吸收并增加探測光強范圍。此外,論文中提到的這種設計需要高電壓并消耗大量功耗。相比之下,生物神經網絡中每項操作的能量消耗處于亞飛焦耳級(10?1?至10?13焦耳)。這有利于擴展到紫外線和紅外光應用,以捕獲可見光譜無法提供的信息。
所使用的薄半導體很難實現大面積
Mennel及其同事的“在傳感器中實現計算”系統會激發對人工智能(AI)硬件的進一步研究。一些企業已經開發了基于硅電子的AI視覺芯片,但是這些芯片的固有數字架構無法解決延遲和功率效率問題。
更廣泛地講,作者的策略不僅限于視覺系統。它可以擴展到用于聽覺、觸覺、熱感或嗅覺的其它物理參數輸入。此類智能系統的開發以及5G無線網絡的到來,會在將來允許進行實時邊緣(低延遲)計算。