2023年11月29日晚20点,复旦大学附属华山医院神经外科副主任医师、博士生导师路俊锋教授作为脑客中国科研第125位讲者为大家带来主题为《植入式汉语言脑机接口研究进展》的报告。
大家好,我来自于复旦大学附属华山医院神经外科,同时也是国家神经疾病医学中心以及复旦大学神经外科研究所的一名神经外科医生。 今天我报告的很多内容都是从一个神经外科医生的角度来向线上的各位专家,老师来汇报,如何看待植入式语言脑机接口这项工作。
1、语言脑机接口的必要性
首先说明一下为什么我们日常工作会跟语言打交道? 因为我们在做脑肿瘤手术时,尤其是功能区的手术时,比如说语言区,我们需要保护患者的语言功能。所以这时候我们就会开展一系列的语言研究,需要搞清楚语言区在哪里,语言在表达以及感知时产生的机制。 然后再判断一下这些语言区跟肿瘤之间的关系,从而能够最大程度的做到切除肿瘤时,也能保护患者的语言功能。
大家都知道语言是我们人类所特有的一个高级认知功能之一,也是我们文明和传承的重要载体。 但是在包括渐冻症、脑卒中还有脑肿瘤在内的各类重大的脑疾病都可以导致严重的语言功能障碍。
比如说像霍金这一类的渐冻症患者,他意识完全清楚,但是他无法表达语言,无法说话。极大地影响了患者的社会生活,给我们的社会还有家庭造成了巨大的负担。 所以我们就想着对于这些患者,一类是渐冻症的患者,还有一类未来因为脑卒中或者脑肿瘤、脑外伤引起的语言功能障碍患者,是不是能够通过语言脑机接口的形式,实现患者语音的直接合成,这样的话能够极大的提高患者的交流效率。
2、语言脑机接口框架
语言脑机接口实现语音直接合成主要是基于以下的步骤和框架。我们希望首先能够记录到大脑在想象或者默念时的大脑神经活动。 对于语言功能障碍患者,我们希望能够记录到他在表达意图时,语言区的神经活动。之后建立这些语言神经活动,语言内容与神经电活动之间的对应关系, 进而解码我们大脑的神经活动,从而合成语音。
要想实现这样的一个语言脑机接口,其实有三个重要的环节。
第一个,我们希望能够记录到我们大脑非常准确的神经活动。 那么就需要有一个高精度的大脑活动记录技术平台。这样的记录技术需要有高的空间分辨率,高的时间分辨率。 因为我们的语言表达速度非常快,像我现在,正常的语言交流速率,在150个字到200个字每分钟。
第二个实现的重要环节就是我们希望能搞清楚我们大脑语言活动在大脑到底是怎么编码的,它的神经编码机制是什么? 就是我们在说的过程当中,在想的过程当中,它对应的大脑的编码的脑区在哪里? 它编码上存在什么机制? 这是脑机接口一个非常重要的环节。
第三个就需要建立从大脑活动到语音合成之间建立一个解码技术方法。
3、国际语言脑机接口研究进展
2013年,Nature上一篇文章首先揭示了言语过程中感觉运动皮质协调嘴唇、舌头、下颌、喉部等构音器官运动的时空编制、
2018年,Cell上一篇文章揭示喉部运动皮质如何在言语/歌唱过程中编码音高的变化。
2019年,Nature上一篇文章首先报道了利用高密度ECoG实现了英语的皮质脑电-语音合成。
2021,2022年,在NEJM、Nature Communication上,又被报道首次从瘫痪、部分发音的患者大脑活动中直接解码出完整的句子。
最新的2023年,他们又在另外一例脑干中风的患者身上植入一个电极,实现了实时语言的解码。 这时他们的词汇量扩大到了1024个单词。 中位词误率在25.5%,在线的合成速度达到了78个单词/分。 同时采用了虚拟化身的技术,来模仿患者受伤前的音色。
同期还发表的还有来自于斯坦福的Krishna和Jaimie团队。他们通过植入4个Utah array来解码语音,词汇量扩大到125000个单词,一个非常大的进步了;词误率也是在23.8%,在线合成速度达到了62单词/分。
4、汉语的脑机接口合成
这些以往研究工作主要是处理英文这种语言,那么汉语作为世界上使用人口最多的语言该怎么利用脑机接口合成呢?我们知道汉语有一个非常重要的特色就是声调,可以通过四个不同的声调来表达不同的语义。此外汉语还是单音节的字,我们通过单音节字加上四个声调,可以极大的提高我们表达的效率。
那么我们汉语的声调是如何产生和编码的呢? 声调产生有这样一个生理学基础,它是通过控制我们的声带来产生的。 产生声调时,我们的声带首先需要闭合,声带闭合后,气流通过肺冲出我们的声带之后去进行发声。 如果需要让我们的声音升高,声带就需要拉长,同样的缩短就可以使我们的声调降低。
既往的研究发现,大脑里面确实存在这样的功能区。在英语的研究当中发现,我们大脑里面有背侧的喉部运动区和腹侧的喉部运动区两个脑区。 那么我们大脑的喉部运动区是如何精准控制我们的声带肌肉,调节音高的变化,进而产生了我们汉语的四个声调?
所以我们就有了以下三个科学问题:
第一个,在声调产生的时候,大脑编码了什么声学或者语音特征?
第二个,产生音调的时候存在几种控制机制,单向的音高变化?还是双向的升高和降低?还是四个声调单独产生?
第三个,声调产生的编码脑区在哪里?
以上为本期直播部分内容,观看本期及往期完整视频内容可扫描下方二维码观看。
扫描二维码
观看完整视频
END
往期精彩节选