當(dāng)一個人因受傷或疾病而四肢癱瘓,甚至不能說話時,只要大腦的神經(jīng)活動仍然存在,科學(xué)家們就有能力幫助患者恢復(fù)交流能力。這不是科幻,最新的腦機(jī)接口(BCI)技術(shù)已經(jīng)在這一方面實(shí)現(xiàn)突破,而且效率超乎想象,最高可超 99%。此前,腦機(jī)接口領(lǐng)域的一大研究焦點(diǎn)是恢復(fù)患者 “運(yùn)動技能”,比如通過腦機(jī)接口操控機(jī)械臂抓取物品,或通過腦機(jī)接口移動電腦光標(biāo)、點(diǎn)擊字母輸入等。這次,來自斯坦福大學(xué)的研究人員開辟了一條新路徑,他們將人工智能(AI)軟件與腦機(jī)接口設(shè)備結(jié)合,成功開發(fā)出一套全新的皮質(zhì)內(nèi)腦機(jī)接口系統(tǒng),該系統(tǒng)利用大腦運(yùn)動皮層的神經(jīng)活動可解碼 “手寫” 筆跡,并使用遞歸神經(jīng)網(wǎng)絡(luò)(RNN)解碼方法將筆跡實(shí)時翻譯成文本,快速將患者對手寫的想法轉(zhuǎn)換為電腦屏幕上的文本。  圖|通過腦機(jī)接口 “手寫輸入” 的示意圖(來源:學(xué)術(shù)頭條基于 YouTube 視頻制作) 研究論文以封面形式發(fā)表在最新一期的《自然》雜志上,被視為是該領(lǐng)域的一大技術(shù)進(jìn)步。 該研究論文的作者之一、斯坦福大學(xué)霍華德?休斯醫(yī)學(xué)研究所(HHMI)研究員克里希納?謝諾伊(Krishna Shenoy)表示,此次研究的最大的創(chuàng)新是首次破譯了與手寫筆記有關(guān)的大腦信號,可以讓癱瘓患者不用手也能快速打字。他與斯坦福神經(jīng)外科醫(yī)生杰米?亨德森(Jaimie Henderson)共同參與了這項(xiàng)研究,論文的第一作者則是同樣來自 HHMI 的科學(xué)家弗蘭克?威利特(Frank Willett)博士。在實(shí)驗(yàn)中,一名受試者可以每分鐘輸入 90 個字符,這是此前使用腦機(jī)接口打字紀(jì)錄的兩倍多,接近同齡健全人每分鐘 115 個字符的智能手機(jī)打字速度,而且在線原始準(zhǔn)確率為 94.1%,離線自動校正的準(zhǔn)確率超過 99%。 圖|受試者在實(shí)驗(yàn)中(來源:NPG Press) 加州大學(xué)伯克利分校的神經(jīng)工程師何塞?卡梅納(Jose Carmena)并未參與這項(xiàng)研究,但他認(rèn)為,這項(xiàng)技術(shù)有潛力幫助各種殘疾人,盡管研究結(jié)果是初步的,但 “這是該領(lǐng)域的一大進(jìn)步。”美國國立衛(wèi)生研究院腦科學(xué)計(jì)劃(NIH BRAIN Initiative)主任約翰?恩蓋(John Ngai)博士表示:“這項(xiàng)研究代表了 BCI 和機(jī)器學(xué)習(xí)技術(shù)發(fā)展的重要里程碑,相關(guān)研究正在揭示人腦如何控制像通訊這樣復(fù)雜的過程,為改善神經(jīng)損傷和癱瘓者的生活提供了重要基礎(chǔ)。”事實(shí)上,這項(xiàng)研究其實(shí)是腦機(jī)接口項(xiàng)目 BrainGate 臨床試驗(yàn)的一部分,這是一個多機(jī)構(gòu)聯(lián)盟項(xiàng)目,旨在幫助那些失去肢體或其他身體功能控制能力的人,比如患有肌萎縮性側(cè)索硬化癥(ALS)或脊髓損傷的患者等。實(shí)驗(yàn)中被稱為 “T5” 的受試者,在 2007 年由于脊髓損傷幾乎失去了頸部以下的所有活動能力,手部動作僅限于抽搐和微動。在實(shí)驗(yàn)中,亨德森在 T5 的左側(cè)大腦植入了兩個腦機(jī)接口芯片,每一個芯片都有 100 個電極,負(fù)責(zé)接收運(yùn)動皮層(大腦最外層的一個區(qū)域)神經(jīng)元發(fā)出的信號,運(yùn)動皮層是控制手部運(yùn)動的區(qū)域,這些神經(jīng)信號通過電線發(fā)送到計(jì)算機(jī),由人工智能算法解碼信號并推測 T5 的手和手指的預(yù)期運(yùn)動。 圖|植入大腦的微型電極陣列(來源:BrainGate) 與真實(shí)可見的手寫筆跡相比,要 “讀取” 想象中的筆跡最難的一點(diǎn)是什么?無疑,是如何捕捉這些筆跡在大腦中的神經(jīng)表征,以及這些表征能不能用。為了評估手寫的神經(jīng)表征,受試者 T5 需要按照電腦屏幕給出的指令,一次 “手寫” 一個字符,每個字母重復(fù) 27 次試驗(yàn)。 圖|受試者的 “手寫” 筆跡(來源:NPG Press)根據(jù)以往的經(jīng)驗(yàn),研究人員首先使用主成分分析來顯示包含最多方差的前三個神經(jīng)維度特征。研究人員發(fā)現(xiàn),由于神經(jīng)活動的高峰和低谷因時間有所不同,可能由于書寫速度的波動,神經(jīng)活動似乎是強(qiáng)烈和可重復(fù)的。為了直觀地觀察筆跡嘗試過程中記錄的神經(jīng)活動,他們使用時間比對技術(shù)來消除時間變異性,這揭示了每個字符特有的顯著一致的神經(jīng)活動模式。為了確定神經(jīng)活動是否編碼繪制了每個形狀所需的筆尖運(yùn)動,研究人員通過從試驗(yàn)平均神經(jīng)活動中線性解碼筆尖速度來重建每個字符,容易辨認(rèn)的字母形狀證實(shí)了筆尖速度是可靠編碼的,代表筆尖速度的神經(jīng)維度占總神經(jīng)方差的 30%。 圖|筆跡的神經(jīng)表征(來源:Nature) 其次,研究人員采用非線性降維方法(t-SNE),對每個試驗(yàn)的神經(jīng)活動進(jìn)行二維(2D)可視化,在對受試者給出 “go” 的提示后記錄相關(guān)信息。t-SNE 方法顯示了每個字符的神經(jīng)活動緊密簇和一種主導(dǎo)運(yùn)動編碼,在這種編碼中,書寫相似的字符更接近,將近鄰分類器離線應(yīng)用到神經(jīng)活動中,可以對字符進(jìn)行分類,準(zhǔn)確率為 94.1%。于是,研究人員得出結(jié)論,即使在癱瘓多年后,運(yùn)動皮層中筆跡的神經(jīng)表征可能仍足夠強(qiáng)大,可以通過腦機(jī)接口技術(shù)表達(dá)出來。成功解碼手寫字母的最終目標(biāo),是讓癱瘓患者實(shí)現(xiàn)流暢的對外交流能力,這需要實(shí)時解碼 “意念” 手寫筆跡,并完整呈現(xiàn)出他們想要表達(dá)的信息。為此,研究人員特意訓(xùn)練了一個遞歸神經(jīng)網(wǎng)絡(luò),將神經(jīng)活動轉(zhuǎn)化為描述每個字符在每個時刻被寫入的可能性概率,這些概率可以用一種簡單的方法來設(shè)定閾值,從而發(fā)出離散字符,或者通過使用一個大詞匯量語言模型進(jìn)行更廣泛的處理,以模擬離線應(yīng)用的自校正特征。研究人員在實(shí)驗(yàn)中使用了 31 個字符的限定集,包括字母表中的 26 個小寫字母,以及逗號、頓號、問號、句號和空格,為了收集實(shí)驗(yàn)中遞歸神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),他們需要記錄 T5 按照電腦顯示器上的指示,以自己的速度手寫完整句子時的神經(jīng)活動。在第一天的實(shí)時評估之前,研究人員收集了 3 個試驗(yàn)日內(nèi)總共 242 句話,這些句子被組合起來訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)。在隨后每一天的實(shí)時測試中收集額外的訓(xùn)練數(shù)據(jù),并在評估前重新校準(zhǔn),至最后一天總共產(chǎn)生了 572 個訓(xùn)練句子(包括 31472 個字符)。為了訓(xùn)練這個遞歸神經(jīng)網(wǎng)絡(luò),研究人員采用了語音識別中的神經(jīng)網(wǎng)絡(luò)方法來克服兩個關(guān)鍵挑戰(zhàn):(1)訓(xùn)練數(shù)據(jù)中每個字母的書寫時間未知(因?yàn)?T5 的手癱瘓),這使得應(yīng)用監(jiān)督學(xué)習(xí)技術(shù)具有挑戰(zhàn)性;(2)與典型的 RNN 數(shù)據(jù)集相比,數(shù)據(jù)集的大小有限,因此很難防止對訓(xùn)練數(shù)據(jù)的過度擬合。 圖|對手寫神經(jīng)信號進(jìn)行實(shí)時解碼(來源:Nature) 在這樣的基礎(chǔ)上,研究人員在 5 天的時間里對遞歸神經(jīng)網(wǎng)絡(luò)的表現(xiàn)進(jìn)行評估,每天包含 4 個評估塊,包含 7-10 個遞歸神經(jīng)網(wǎng)絡(luò)從未接受過訓(xùn)練的句子。受試者 T5 會從屏幕提示中復(fù)制每個句子,試圖一個字母一個字母地手寫,而解碼的字符在遞歸神經(jīng)網(wǎng)絡(luò)檢測到時實(shí)時出現(xiàn)在屏幕上。經(jīng)測試,字符出現(xiàn)與 T5 在大腦里 “手寫” 之間會有一個短暫的延遲,大概為 0.4-0.7 秒,令人興奮的是,整體打字速度很快,平均每分鐘可打出 90 個字符,平均錯誤率僅為 5.4%。當(dāng)研究人員使用語言模型離線進(jìn)行自動更正錯誤時,整個系統(tǒng)的錯誤率則進(jìn)一步降低了,其字符錯誤率下降到 0.89%,單詞錯誤率下降到 3.4%,與世界上最先進(jìn)的語音識別系統(tǒng)(單詞錯誤率為 4–5%)相比,展現(xiàn)出了極好的可用性。最后,為了探索可能的解碼性能限制,研究人員還離線訓(xùn)練了一個新的遞歸神經(jīng)網(wǎng)絡(luò),使用所有可用的句子以非因果的方式處理整個句子。在這種情況下,僅出現(xiàn)了 0.17% 的字符錯誤率,這表明性能的潛在上限其實(shí)很高,盡管這種解碼器目前無法向用戶提供逐字反饋。實(shí)驗(yàn)結(jié)果還證實(shí),當(dāng)受試者編寫自己生成的句子(而不是復(fù)制屏幕上的提示句)時,也可以獲得較高的性能,每分鐘可打出 73.8 個字符,實(shí)時字符錯誤率為 8.54%,語言模型錯誤率為 2.25%。借助每天收集的 “校準(zhǔn)” 數(shù)據(jù),研究人員每天也對 “手寫筆跡” 解碼器進(jìn)行再訓(xùn)練。再訓(xùn)練有助于解釋隨著時間的推移而產(chǎn)生的神經(jīng)記錄變化,這可能是由神經(jīng)可塑性或電極陣列微動引起的,而理想情況下,為了減輕受試者的負(fù)擔(dān),應(yīng)該用最少或不需要校準(zhǔn)數(shù)據(jù)。 值得注意的是,實(shí)驗(yàn)數(shù)據(jù)表明,當(dāng)兩個會話之間只經(jīng)過 2-7 天時,在沒有解碼器重新訓(xùn)練的情況下,性能顯示出了神經(jīng)記錄的短期穩(wěn)定性。面對這種情況,研究人員測試了解碼器是否可以通過使用語言模型來糾錯和重新訓(xùn)練解碼器,從而繞過中斷用戶校準(zhǔn)的需要,以無監(jiān)督的方式重新訓(xùn)練。令人鼓舞的是,無監(jiān)督再訓(xùn)練的原始錯誤率僅為 7.3%。解碼器是否能用最少的重新校準(zhǔn)數(shù)據(jù)成功地再訓(xùn)練,也取決于神經(jīng)活動隨時間變化的速度。實(shí)驗(yàn)評估了與每個特征相關(guān)的神經(jīng)模式的穩(wěn)定性,發(fā)現(xiàn)短期穩(wěn)定性很高(相隔 7 天或更短時間),這些結(jié)果對臨床病例是有希望的,因?yàn)樗鼈儽砻鳠o監(jiān)督解碼器再訓(xùn)練,可能有助于實(shí)現(xiàn)高性能。 這項(xiàng)研究實(shí)現(xiàn)的每分鐘輸入 90 個字符,創(chuàng)造了迄今為止報(bào)道的相關(guān)類型腦機(jī)接口技術(shù)的最快速度,對于皮質(zhì)內(nèi)腦機(jī)接口來說,之前最好的方法是用 2D 電腦光標(biāo)點(diǎn)擊輸入,每分鐘僅可以輸入 40 個正確字符,點(diǎn)擊式腦機(jī)接口的輸入速度主要受解碼精度的限制,在參數(shù)優(yōu)化過程中增加光標(biāo)增益以提高打字速度,直到光標(biāo)移動過快,由于解碼錯誤而變得無法控制為止。研究人員經(jīng)對比分析,手寫字母可能比點(diǎn)對點(diǎn)運(yùn)動更容易區(qū)分,因?yàn)槭謱懽帜傅纳窠?jīng)活動時空模式比直線運(yùn)動更為多樣,而隨時間變化的運(yùn)動模式,從根本上說比點(diǎn)對點(diǎn)運(yùn)動更容易解碼。據(jù)了解,其實(shí)目前業(yè)內(nèi)用于恢復(fù)患者交流能力的腦機(jī)接口有很多種方案。其中,基于奇異電位或運(yùn)動想象的腦電拼寫器通常每分鐘能達(dá)到 1-5 個字符;使用視覺誘發(fā)電位的腦電拼寫器已經(jīng)達(dá)到了每分鐘 60 個字符的速度,但有明顯的可用性限制,比如會束縛眼睛,通常不會自動調(diào)整節(jié)奏,以及需要在屏幕上安裝閃光燈等;盡管基于 2D 光標(biāo)移動的皮層內(nèi) BCI 技術(shù)讓用戶可以更自由地四處查看并設(shè)置自己的交流節(jié)奏,但每分鐘的正確字符數(shù)還沒有超過 40 個。此次研究人員不僅將腦機(jī)接口通信速率提升到了每分鐘 90 個字符,而且該實(shí)時系統(tǒng)還具有通用性(用戶可以表達(dá)任何句子)、易用性(完全自定節(jié)奏,眼睛可以自由移動)和足夠精確的特點(diǎn)(94.1% 的原始準(zhǔn)確率,在大詞匯量語言模型下離線準(zhǔn)確率大于 99%),在現(xiàn)實(shí)世界中非常有用。當(dāng)前的實(shí)驗(yàn)結(jié)果證明了高性能 “手寫” 腦機(jī)接口是可能的,但它目前還不是一個完整的、臨床上的商用系統(tǒng),接下來還有更多工作值得探索,比如進(jìn)一步提高打字性能,擴(kuò)展字符集、啟用文本編輯和刪除等操作。來自華盛頓大學(xué)生物工程系的專家帕維斯特拉?拉杰斯瓦蘭(Pavithra Rajeswaran)、華盛頓大學(xué)電氣和計(jì)算機(jī)工程系專家艾米?奧斯本(Amy L. Orsborn)在評論文章中表示,這項(xiàng)研究仍需要經(jīng)過試驗(yàn)論證,將電極植入大腦的費(fèi)用和風(fēng)險(xiǎn)是否合理。另外一點(diǎn)重要的是,打字速度并不是決定這項(xiàng)技術(shù)能否落地的唯一因素 —— 這種方法的壽命和健壯性同樣需要分析,是否可以推廣到其他用戶和實(shí)驗(yàn)室以外的環(huán)境中也至關(guān)重要。目前的微電極陣列技術(shù)已被證明在植入后能保持功能超過 1000 天,而隨著皮質(zhì)內(nèi)微電極陣列技術(shù)的成熟,也需要進(jìn)一步證明其壽命、安全性和有效性,才能廣泛應(yīng)用于臨床。總體來講,將腦中的 “筆跡” 轉(zhuǎn)化為屏幕上的單詞、句子,其技術(shù)前景和商用潛力都十分令人鼓舞,人機(jī)結(jié)合的時代正在走來。https://www./articles/s41586-021-03506-2https://www./articles/d41586-021-00776-8https://www./watch?v=3Y7BJbtMSVk&ab_channel=NPGPresshttps://www./watch?v=FISFa-JkveQ&ab_channel=NPGPresshttps://www./watch?v=3gVvde54iro&ab_channel=NPGPresshttps://www./pub_releases/2021-05/sm-sss051021.php https://www./pub_releases/2021-05/nion-ctm051121.php https://www./pub_releases/2021-05/bu-bic051021.php https://www./pub_releases/2021-05/hhmi-bci050721.php
|