8月10日晚20點,中國科學院心理研究所杜憶研究員作為腦客中國科研第67位講者為大家帶來主題為《多模態言語感知與理解的腦環路機制》的報告。以下為報告部分內容:
1言語感知和理解的特點
我們先介紹一些言語感知和理解的背景知識。
1.言語感知與理解極具挑戰性:在日常生活中,我們都是在一些復雜的環境下進行言語感知,比如有背景噪音、背景音樂、甚至其他人同時在說話。比較著名的就是雞尾酒會問題,如下圖所示:
如果我們關心的是說話人B的語音,但是到達耳朵的其實是好多人聲整合在一起的語音,如何提取出我們關心的目標語音信號其實是一件很難的事情。現在我們遇到過的一些語音識別軟件在這方面能力做的不是很好,但人腦其實可以很簡單做到這樣一件事,是因為存在選擇性的注意機制。
2.言語感知的腦區不是模塊化的:我們知道大腦存在對于人臉加工的特異腦區,對位置加工的特異腦區,但并沒有一個腦區在特意的加工語音。
3.言語感知是多通道并行的:如同視覺通路一樣,言語感知同樣也是分成背側通路和腹側通路。
4.言語感知與理解是層級化的:語音有不同的時間尺度,不同的層級,從詞到短語、句子,最后組成一個篇章。所以你可以看到大腦對于這樣的一個不同時間尺度的語音信號的加工,它其實是存在著層次性的編碼。
5.言語感知與理解是多模態的:比較著名的一個現象McGurk Effrct,視覺信息會嚴重地影響到你的聽覺感知。語音信號放的是/ba/,唇動信息給出的是/ga/;如果你睜開眼看到這個視頻,聽語音的話,你的知覺應該是聽到的是一個/da/,而閉上眼睛就會只聽到/ba/。
6.言語感知與理解是預測式的:如言語感知和理解是將具有復雜動態結構的聲學信號投射到詞義表征的過程。聽者可以利用先驗知識和約束(包括語法、句法、轉移概率、視覺運動線索等)來預測下一時刻的語音輸入,該過程可被貝葉斯推理模擬。
2言語感知與理解和言語生成密切相關
言語感知與理解和言語生成具有密切的關系。比如左邊這個甲骨文文字,它的左部分是耳朵的意思,下面部分代表的是口,它表示的是我們現在的“聽”字。這說明在我們聽的過程中,其實存在聽覺系統跟運動系統之間的一個整合。一個人說話時,他也能夠聽到自己的實時聲音,這樣的一個聽覺反饋是有利于他更好地去控制他的發音動作。另外對于聽者而言,當聽到語音信號時,他不僅會利用到他的聽覺系統,他自己跟發音相關的那些言語運動系統也會主動地模擬說話人的發音,來預測說話人的發音。
這樣的過程其實是跟大腦內的鏡像神經元系統密切相關的。大家知道鏡像神經元系統最早是在猴腦上發現的,獼猴在執行一個動作或者是在觀看他人執行一個動作的時候,會有一群神經元被激活,位于額葉的地方。這個腦區對應到我們人腦上,其實就是跟我們發音密切相關的布洛卡區和腹側前運動皮層。近代有很多的腦成像研究也已經發現,我們的言語生成和言語感知功能區具有很多重疊的腦區,包括這些藍色重疊的腦區其實都是鏡像神經元所在的地方。
因此提出了一個語音加工的雙流通路模型,合成分析理論認為:在嘈雜、不穩定的情境下,言語運動系統會生成發音預期以限定和輔助語音信號的解析。
另外會有人發現,當我們在聽到一些動作詞的時候,我們會特意地去激活跟控制這些動作所屬的身體部位相關的運動區。比如說你聽到一些跟腿相關的運動區詞匯時,你會激活控制腿部相關的運動區;如果你聽到是跟面部發音相關的詞匯時,你會激活更加腹側的運動區域。
3三個相關研究
基于以上背景,和大家介紹一下我們實驗室所做的三個研究。
第一個研究是關心視覺唇動促進噪音下言語感知的神經機制,用到的技術手段包括磁共振的結構和功能成像。它的語音尺度是在音位,一個聲母的層級,很短的一個時間單元。
研究二是關心言語和手勢語義整合的動態腦環路機制。我們用到的技術手段是經顱磁刺激TMS,它的語音尺度是在字詞。
第三個研究關心的是運動皮層和聽皮層對言語感知的協同貢獻。用到的技術手段是一個經交流電刺激TACS,它的語音層級是在一個語句的層級上進行的。
可以看到三個研究分別用了不同的技術,關心的語音尺度也是不一樣的,一個比一個更長。
觀看本期及往期精彩視頻內容請掃描下方二維碼觀看。
掃描二維碼
觀看完整視頻
END