使用光而不是電的處理器有望成為實(shí)現(xiàn)人工智能的一種更快、更節(jié)能的方式。到目前為止,它們只被用于運(yùn)行已經(jīng)訓(xùn)練過的模型,但新的研究首次證明了在光學(xué)芯片上訓(xùn)練人工智能的能力。
隨著AI模型變得越來越大,人們越來越擔(dān)心它們消耗的能量,這既是由于不斷膨脹的成本,也是由于對環(huán)境的潛在影響。這激發(fā)了人們對可以減少AI能源費(fèi)用的新方法的興趣,其中光子處理器成為主要候選者。
這些芯片用光子代替?zhèn)鹘y(tǒng)處理器中的電子,并使用波導(dǎo)、濾波器和光探測器等光學(xué)元件來創(chuàng)建可以執(zhí)行計算任務(wù)的電路。它們在運(yùn)行AI方面特別有前途,因?yàn)樗鼈冊趫?zhí)行矩陣乘法方面非常高效,這是所有深度學(xué)習(xí)模型核心的關(guān)鍵計算。總部位于波士頓的Lightmatter和位于馬薩諸塞州劍橋的Lightelligence等公司已經(jīng)在努力將光子AI芯片商業(yè)化。
不過,到目前為止,這些設(shè)備僅用于推理,即已經(jīng)訓(xùn)練過的AI模型對新數(shù)據(jù)做出預(yù)測。這是因?yàn)檫@些芯片一直在努力實(shí)現(xiàn)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的關(guān)鍵算法——反向傳播。但在《科學(xué)》雜志的一篇新論文中,斯坦福大學(xué)的一個團(tuán)隊(duì)描述了首次在光子芯片上實(shí)施訓(xùn)練方法。
“我們的實(shí)驗(yàn)首次證明了原位反向傳播可以訓(xùn)練光子神經(jīng)網(wǎng)絡(luò)來解決任務(wù),這為訓(xùn)練神經(jīng)網(wǎng)絡(luò)提供了一種新的節(jié)能途徑,”Sunil Pai說,他在斯坦福大學(xué)領(lǐng)導(dǎo)了這項(xiàng)研究,目前在加州的PsiQuantum工作,該公司正在制造光子量子計算機(jī)。
反向傳播包括反復(fù)將訓(xùn)練示例輸入神經(jīng)網(wǎng)絡(luò),并要求其對數(shù)據(jù)進(jìn)行預(yù)測。每次,算法都會測量預(yù)測的偏差,然后通過網(wǎng)絡(luò)將誤差信號反饋回來。這用于調(diào)整神經(jīng)元之間的連接強(qiáng)度或權(quán)重,以提高預(yù)測性能。這個過程重復(fù)多次,直到網(wǎng)絡(luò)能夠解決它所設(shè)置的任何任務(wù)。
不過,這種方法很難在光子處理器上實(shí)施,麻省理工學(xué)院的博士后助理Charles Roques-Carmes說,因?yàn)榕c標(biāo)準(zhǔn)芯片相比,這些設(shè)備只能執(zhí)行有限的操作。因此,計算光子神經(jīng)網(wǎng)絡(luò)的權(quán)重通常依賴于在傳統(tǒng)計算機(jī)上進(jìn)行片外處理器的復(fù)雜物理模擬。
但在2018年,《科學(xué)》新論文的一些作者提出了一種算法,理論上可以有效地在芯片上執(zhí)行這一關(guān)鍵步驟。該方案包括將訓(xùn)練數(shù)據(jù)編碼為光信號,使其通過光子神經(jīng)網(wǎng)絡(luò),然后計算輸出的誤差。然后,該錯誤信號通過網(wǎng)絡(luò)反向發(fā)送,并對原始輸入信號進(jìn)行光學(xué)干擾,其結(jié)果告訴您需要如何調(diào)整網(wǎng)絡(luò)連接以改進(jìn)預(yù)測。然而,該方案依賴于通過芯片向前和向后發(fā)送光信號,并能夠測量通過單個芯片組件的光的強(qiáng)度,這在現(xiàn)有設(shè)計中是不可能的。
目前,Pai和他的同事已經(jīng)構(gòu)建了一種定制的光子芯片,可以成功地實(shí)現(xiàn)這種算法。它使用了一種被稱為“光子網(wǎng)格”的常見設(shè)計,其特點(diǎn)是一組可編程光學(xué)元件,控制光信號如何在芯片上分裂。通過使光束相互混合和干涉,芯片能夠進(jìn)行矩陣乘法運(yùn)算,從而實(shí)現(xiàn)光子神經(jīng)網(wǎng)絡(luò)。
不過,新芯片的與眾不同之處在于,它的兩端都有光源和光探測器,允許信號在網(wǎng)絡(luò)中向前和向后傳遞。它還在網(wǎng)絡(luò)中的每個節(jié)點(diǎn)上都有小的“抽頭”,可以吸走少量的光信號,將其重定向到測量光強(qiáng)度的紅外相機(jī)。這些變化共同使得實(shí)現(xiàn)光學(xué)反向傳播算法成為可能。研究人員表明,他們可以訓(xùn)練一個簡單的神經(jīng)網(wǎng)絡(luò),根據(jù)點(diǎn)的位置在圖上標(biāo)記點(diǎn),準(zhǔn)確率高達(dá)98%,與傳統(tǒng)方法相當(dāng)。
Pai說,在這種方法變得實(shí)用之前,還有很多工作要做。光學(xué)抽頭和相機(jī)對于實(shí)驗(yàn)裝置來說很好,但需要用商業(yè)芯片中的集成光電探測器來取代。Pai表示,他們需要使用相對較高的光功率才能獲得良好的性能,這表明在精度和能耗之間需要權(quán)衡。
Roques Carmes說,同樣重要的是要認(rèn)識到斯坦福大學(xué)研究人員的系統(tǒng)實(shí)際上是一種混合設(shè)計。計算成本高昂的矩陣乘法是以光學(xué)方式進(jìn)行的,但被稱為非線性激活函數(shù)的更簡單的計算是以數(shù)字方式在芯片外進(jìn)行的,非線性激活函數(shù)決定了每個神經(jīng)元的輸出。目前,這些技術(shù)的數(shù)字實(shí)現(xiàn)成本低廉,光學(xué)實(shí)現(xiàn)復(fù)雜,但Roques Carmes表示,其他研究人員也在這個問題上取得了進(jìn)展。
Roques Carmes說:“這項(xiàng)研究是在光子芯片上實(shí)現(xiàn)有用的機(jī)器學(xué)習(xí)算法的重要一步。將其與目前正在開發(fā)的高效片上非線性運(yùn)算相結(jié)合,這可能為人工智能中的全光子片上計算開辟道路?!?/p>
該研究4月27日發(fā)表于《科學(xué)》期刊。
DOI:10.1126/science.ade8450
還沒有評論,來說兩句吧...