主人在调教室性调教女仆游戏,青青草无码视频,成人精品老熟妇一区二区,男的把女的操喷水的网站

24小時聯(lián)系電話:18217114652、13661815404

中文

您當前的位置:
首頁>
電子資訊>
技術專題>
電阻式存儲器為邊緣AI...

技術專題

電阻式存儲器為邊緣AI提供了受生物啟發(fā)的架構


近年來,在腦啟發(fā)計算領域的研究活動獲得了巨大的發(fā)展。主要原因是試圖超越傳統(tǒng)的馮·諾依曼架構的局限性,后者越來越受存儲器-邏輯通信的帶寬和等待時間的局限性影響。在神經(jīng)形態(tài)架構中,內存是分布式的,可以與邏輯共定位。鑒于新的電阻式存儲器技術可以集成在CMOS工藝的互連層中,因此可以輕松地提供這種可能性。

雖然目前AI部署中的大部分注意力都集中在大型常規(guī)計算系統(tǒng)中實現(xiàn)深度學習算法,但對設備和電路技術的影響卻是混雜的。盡管先進的標準CMOS技術已用于開發(fā)GPU和特定的電路加速器,但并沒有真正推動使用任何受生物啟發(fā)的硬件。新興的電阻式存儲設備(RRAM)可以打開途徑,由于能夠(感知到)不夠成熟,可以通過在相對較低的偏置電壓下調節(jié)電導來在納米尺度上模擬生物學上合理的突觸行為,因此這些方法僅限于研究組。技術。

但是,這些新設備可以為將AI大量部署到消費和工業(yè)產(chǎn)品中所面臨的主要問題之一提供解決方案:能源效率。如果將AI的使用范圍擴大,將所有數(shù)據(jù)傳輸?shù)皆?/span>/服務器系統(tǒng)進行分析的能源開銷將很快達到AI的經(jīng)濟可行性的極限。此外,對于自動駕駛汽車和工業(yè)控制等實時系統(tǒng)而言,如果連接到5G基礎架構以處理數(shù)據(jù)的服務器集中在定義明確的區(qū)域而不是分布在整個基礎架構中,則延遲仍然是一個問題。由于這些原因,并且在歐洲也出于隱私考慮,具有高度節(jié)能的邊緣/使用點的,具有AI的系統(tǒng)將變得越來越重要,并且可能會逐步改善本地學習能力。

嵌入式AI系統(tǒng)非常適合處理需要實時響應的數(shù)據(jù),并且在能源是主要問題的情況下。如tinyML計劃的成功所證明的那樣,對此類系統(tǒng)的興趣正在增長[1]。當處理稀疏,時域,由傳感器(如麥克風,激光雷達,超聲波等)生成的數(shù)據(jù)流時,該領域的生物啟發(fā)(即存儲元件還充當互連和計算元件)方法具有額外的優(yōu)勢。這些系統(tǒng)將然后能夠在模擬域中進行大多數(shù)操作,從而避免了耗電,不必要的多次模數(shù)轉換以及使用非時鐘數(shù)據(jù)驅動架構來簡化數(shù)據(jù)流。僅在信號脈沖期間沒有時鐘和存儲元件中的耗散,在沒有輸入的情況下會導致極低的功耗(因此適用于稀疏信號),并且可能不需要特定的睡眠模式即可獲得電池供電的工作狀態(tài)。而且,非易失性僅在首次上電或系統(tǒng)最終更新時才需要設置參數(shù),而在每次上電時都不需要從外部來源進行傳輸。

但是,使用新型電阻式存儲器不僅限于此類邊緣生物啟發(fā)應用,還可以使執(zhí)行慢速非易失性高速緩存/快速大容量存儲中間存儲器功能的傳統(tǒng)全數(shù)字時鐘系統(tǒng)受益神經(jīng)加速器的水平。在這種情況下,好處將是減少快速DRAMSRAM緩存區(qū)域,同時仍減少訪問大容量存儲的延遲。

生物啟發(fā)式計算的硬件平臺

從技術角度來看,RRAM由于具有CMOS兼容性,高可伸縮性,強大的耐用性和良好的保留特性,因此是神經(jīng)形態(tài)應用的良好候選者。但是,定義大規(guī)?;旌霞缮窠?jīng)形態(tài)系統(tǒng)(具有阻性記憶突觸的CMOS神經(jīng)元)的實際實施策略和有用應用仍然是一個困難的挑戰(zhàn)

已經(jīng)提出了諸如相變存儲器(PCM),導電橋RAMCBRAM)和氧化物RAMOxRAM)之類的電阻RAMRRAM)設備來模擬生物學上受突觸功能啟發(fā)的功能,這些功能對于實現(xiàn)神經(jīng)形態(tài)硬件至關重要。在不同類型的模擬突觸特征中,依賴于尖峰時序的可塑性(STDP)是最常用的一種,但肯定不是唯一的可能性,并且某些可能顯示出對實際應用的實現(xiàn)更為有用。

實施這些思想并驗證該方法的電路示例是SPIRIT,由IEDM 2019提出[2]。已實現(xiàn)的SNN拓撲是單層的,完全連接的拓撲,其目的是在MNIST數(shù)據(jù)庫上執(zhí)行推理任務,有10個輸出神經(jīng)元,每個類一個。為了減少突觸的數(shù)量,將圖像縮小到12×12像素(每個神經(jīng)元144個突觸)。使用單級單元(SLCRRAM實現(xiàn)突觸,即僅考慮低和高電阻級別。結構為1T-1R類型,每個單元帶有一個訪問晶體管。多個單元并聯(lián)連接以實現(xiàn)各種重量。在學習框架上進行的突觸量化實驗表明,介于-4+4之間的整數(shù)值是分類精度和RRAM數(shù)量之間的良好折衷。由于我們旨在獲得加權電流,因此必須使用4RRAM作為正權重。對于負權重,也可以使用RRAM對符號位進行編碼:但是,由于將需要容錯三重冗余,因此最好使用4個附加RRAM來實現(xiàn)負權重。

集成與射擊(IF模擬神經(jīng)元設計是在數(shù)學等效性的指導下進行的,該數(shù)學等效性是在有監(jiān)督的離線學習中使用的tanh激活函數(shù)。規(guī)格如下:(1)突觸重量等于±4的刺激必須產(chǎn)生尖峰;(2)神經(jīng)元必須產(chǎn)生正負尖峰;(3)它們必須有一個不應期,在此期間它們不能散發(fā)尖峰,但必須繼續(xù)積分。神經(jīng)元是圍繞MOM 200fF電容器設計的。使用兩個比較器將其電壓電平與正閾值和負閾值進行比較。由于必須在RRAM的端子之間以不超過100mV的電壓降讀取RRAM,因此,為了防止將設備設置為LRS,所獲得的電流不能被神經(jīng)元直接積分,因此它們會被電流注入器復制。評估了編程條件的影響,并使用足夠的編程條件來確保有足夠大的內存窗口。放松機制的確出現(xiàn)在很短的時間范圍內(不到一小時)。因此,分類精度不會隨時間降低。還驗證了讀取穩(wěn)定性,將高達800M的峰值發(fā)送到電路。

MNIST數(shù)據(jù)庫的10K測試圖像上的分類精度測得為84%。該值必須與88%的理想模擬獲得的精度進行比較,該精度受簡單的網(wǎng)絡拓撲限制(1層具有10個輸出神經(jīng)元)。每個突觸事件的能量耗散等于3.6 pJ。當考慮電路邏輯和SPI接口時,它總計為180 pJ(可以通過優(yōu)化通信協(xié)議來降低它)。測量表明,圖像分類平均需要136個輸入峰值(對于ΔS= 10):每個輸入所累積的峰值少于一個峰值,與130nm節(jié)點中的等效形式編碼MAC操作相比,能量增益提高了5倍。能量增益來自(1)基本操作的輕度(累積,而不是像經(jīng)典編碼中那樣進行乘法累加)和(2)由于尖峰編碼而導致的活動稀疏性。稀疏性的好處將隨著層數(shù)的增加而增加。

這個小演示者展示了如何可以與傳統(tǒng)的嵌入式方法相提并論,但功耗卻大大降低了。實際上,在SNN演示中使用的速率代碼使該實現(xiàn)等效于經(jīng)典編碼的實現(xiàn):從經(jīng)典域到尖峰域的代碼轉換不會引起準確性上的任何損失。但是,從概念驗證中使用的簡單拓撲(即單層感知器)可以解釋,與使用更大網(wǎng)絡和更多層的最新深度學習模型相比,分類精度略低。為了克服這種差異,目前正在實施一種更為復雜的拓撲結構(MobileNet類),并且分類精度將相應提高,同時具有相同的能源優(yōu)勢。

相同的方法將擴展到嵌入了麥克風或激光雷達的電路,以本地和實時分析數(shù)據(jù)流,從而無需通過網(wǎng)絡傳輸。速率編碼和時間編碼策略都可以用于優(yōu)化網(wǎng)絡,具體取決于信號的信息內容。最初,學習將集中進行,并且僅將推理集成到系統(tǒng)中,但是在以后的世代中將引入一定程度的增量學習。

利用對嵌入式AI產(chǎn)品有益的屬性RRAM的另一種方法是使用基于RRAM交叉開關陣列的模擬架構。與傳統(tǒng)的數(shù)字實現(xiàn)相比,它們可以提供更密集的乘法累加器(MAC)功能實現(xiàn),在推理和學習電路中居于中心。如果采取進入時域并消除時鐘的進一步步驟,則可獲得超出當前技術水平的緊湊型低功率系統(tǒng)。盡管這種方法非常有前途并且受到學術界的廣泛研究,但該方法仍未被業(yè)界廣泛接受,這指出了設計,驗證,表征和認證模擬異步設計的難度,以及擴展模擬解決方案的難度。在我們看來,

這些記憶的部分感知困難來自觀察到的變異性,但這是實驗條件的反映。當在300mm內工作并且集成過程更加成熟時,我們觀察到更好的分布,因此我們假設可變性問題可以在工業(yè)化過程中解決。設計工具也即將問世,更精確的模型也逐漸可用。溫度變化當然會產(chǎn)生影響,但是這種計算類型的統(tǒng)計性質及其在推理階段對參數(shù)變化在某種程度上具有固有的魯棒性,因此其最終影響遠不如使用社區(qū)的常規(guī)模擬設計那么重要。模擬交叉開關方法的優(yōu)點之一是,當施加數(shù)據(jù)時,自動沒有電流。

有些問題更為根本。第一個是功率效率和高度并行性來自權衡時間復用(工作頻率)與面積的關系:權衡有利的網(wǎng)大小(問題或類別數(shù)量)的極限是多少?它如何取決于實現(xiàn)節(jié)點?另一個是這些存儲器的可循環(huán)性。雖然對于推理階段就足夠了,并且可以在初始化階段以可接受的開銷進行交叉開關的編程,但是由于過多的寫入負載,使用經(jīng)典的反向傳播方案和迭代次數(shù)的片上學習是毫無疑問的。但是,正在探索使用其他學習方法的非常有前途的途徑,并有望在未來幾年內提供有效的解決方案。

在引入這種類型的電路之前,可以在常規(guī)實現(xiàn)中使用RRAM3D集成等技術來以較小的功率預算和較小的尺寸系數(shù)提供解決方案。如今,用于高度定制化應用的FPGA實現(xiàn),運行在MCUCPU上的純軟件實現(xiàn),或專用于GPU的高度并行多核/加速器(類似于或類似的GPU)用于更通用的應用,已成為當今的主流。所有這些都可以從本地非易失性存儲器中受益,這可以使FPGA變得更緊湊,為MCU / CPU和多核/加速器芯片提供更優(yōu)化的存儲器層次結構。

 

請輸入搜索關鍵字

確定
美女被男人疯狂的操骚逼| 久久久蜜桃一区二区三区| 久久久久久九九| 亚洲中文字幕永久在线看| 国产精品96久久久久孕妇| 韩国禁自慰系列免费观看| 国产无遮挡又黄又湿又爽| 操操操操操美女| 欧洲女生十四个喷液视频| 被大鸡巴爆操到高潮视频| 人天天爽夜夜爽精品视频| 欧美区 亚洲区 国产区| 白虎黄片的视频| 久99久热免费视频播放| 亚洲av夜夜夜区二区三区| 插死你在线视频| 大屌的网站在线观看视频| 国产精品成人一区二区三 | 青娱乐超碰在线| 久久久偷拍视频| 久久 中文字幕 一区二区| 女人囗交深喉吞精口视频| 免费在线观看国产日韩av| 到哪里去操騒屄| 亚洲人一区二区中文字幕| 男叉女视频网站| 好厉害 艹 的爽 在线| 日本一区二区三区在线电影 | 日韩在线精品视频一区二区| 国产女女疯狂磨豆腐视频| 挡不住的风情在线观看。 | 大香蕉在线一区二区三区| 日韩视频在线这里只有精品| 激情文学亚洲无码分享吧| 成人免费播放1000部| 亚洲婷婷久久狠狠伊人影院| 男生和女生插鸡网站下载| 男子肉棒插BB黄色视频| 最近在线中文字幕一区二区| 男女生床上日B色色视频| 亚洲污视频网站|