PNAS:清华王小勤/洪波团队揭示人声处理的Voice Patch大脑网络


“未见其人,先闻其声”,电话里只听几个字就能分辨出对方是谁。说话声,即所谓人声(Voice),不仅包含语言信息,更包含说话人身份和说话人情绪等信息。准确而快速地识别这些信息对于我们的日常交流至关重要。

影像学研究【1,2】表明在人脑中存在特殊处理人声的区域, 这些区域位于大脑皮层的颞上回(superior temporal gyrus)和颞上沟(superior temporal sulcus)

人声被认为是“听觉系统的人脸”,因为人声和人脸都能携带社交相关的信息。在视觉系统中,发现颞叶有一组参与人脸特征处理和识别的子区域,称为face patch系统【3-5】。Face patch系统是由多个离散的,相互连接的,对人脸有特殊选择性的大脑区域组成。

一个有趣而重要的猜想是, 人声处理是不是也是由多个不相连的脑区(voice patch)完成的?。以功能磁共振为代表的影像学研究由于时间分辨率的限制,很难得到不同大脑区域在处理声音时随时间变化的信息,因而很难揭示不同区域之间的功能联系。

2021年12月28日,清华大学脑与智能实验室和生物医学工程系的王小勤教授和洪波教授团队在PNAS上发表了题为“Hierarchical cortical networks of “voice patches” for processing voices in human brain”的文章,通过颅内脑电揭示了人声处理的神经机制。已毕业博士生张杨为论文的第一作者,张杨、洪波教授和王小勤教授为论文通讯作者。

在此项研究中,作者发现,颞上回(superior temporal gyrus)的几个不相连的子区域表现出对于人声的选择性,这些子区域被定义为“voice patch”。这些区域的响应特性以及响应延时的结果表明,它们按照两条通路形成层次化的网络排布(dual hierarchical organization)。

进一步的研究表明,相比于其他区域,这些子区域在任务态和静息态情况下都表现出显著的连接性,形成一个功能网络。作者还发现,左侧的运动区在听人声的任务下被显著激活,这种激活与颞叶的子区域(voice patch)有显著时间相关性。

该项研究提供了直接的电生理证据,发现了人声处理中“voice patch”系统,表明人声和人脸处理在大脑皮层拥有类似的层次化加工机制,并意外发现了运动皮层参与人声处理。


在这一工作中,团队和清华大学玉泉医院癫痫中心、301医院神经外科密切合作,在进行癫痫病灶切除手术病人的大脑表面放置用于电生理监测的电极。这项研究包含了5名病人的数据,这些病人拥有覆盖颞叶,前额叶,和顶叶的电极。 

整个刺激集包含中文语言(Chinese speech,3 个样本),英文语言 (English speech,3 个样本),非语言人声 (nonspeech voice,6 个样本),动物叫声(Animal vocalizations,6 个样本),自然声音 (Natural sounds,6 个样本),以及打乱的声音(相位打乱的语音, Scramble sounds,6 个样本)。总共有30个刺激材料。 

在实验过程中,病人需要按键表达他刚才听到的是不是人声, 每个刺激重复20次。通过对每个电极记录到的神经信号进行高频(high gamma band)分析,作者观察到每个电极对不同刺激有着不同的选择性响应,响应特性可以分成五类。通过比较这五类电极的选择性,发现它们的人声选择性范围逐步变小,少数电极甚至只响应中文语音(图1)。

图1 五类不同的响应类型(图源:Y. Zhang, et al., PNAS, 2021

然后作者定义了一个类别选择性的指标,去衡量一个电极的类别选择性的强弱。图2A表明类别选择性的区域位于左右脑的颞叶前中后三部分,以及运动区。

接着作者计算了这些子区域中所有电极对于所有类别声音刺激的响应强度(图2C),作者发现所有子区域都选择性地响应人声或者人声的一个子集。这些区域因而被定义为人声选择的子区域(voice patch)

图2 人声选择性的子区域Voice patch(图源:Y. Zhang, et al., PNAS, 2021

为了进一步了解这些子区域的特性,作者比较了这些区域的响应的类别数量,响应延时,响应强度,以及响应稀疏性(图3)。

结果发现,相比于偏前和偏后的颞叶子区域,中间的颞叶子区域表现为人声处理的上游节点,因为它拥有更短的响应延迟,响应更多类别的刺激,更强的响应强度,以及更低的稀疏度。这些结果表明,这些人声选择性的子区域是按照层级化结构组织在一起的。

图3 人声子区域的响应特性呈现从中央到两边的层次化规律(图源:Y. Zhang, et al., PNAS, 2021

接下来,作者计算了这些子区域的功能连接性。连接性的大小是通过计算任务态响应强度的相关性和静息态的高频包络的相关性来完成的【6】。

结果表明,相对于在子区域外的电极,子区域内的电极间以及子区域间的电极间在任务态和静息态情况下都表现出显著强的连接性(图4)。以上证据表明,所有人声选择性的子区域是相互连接的,它们处于同一个功能网络里面。

 图4 人声子区域之间的功能连接(图源:Y. Zhang, et al., PNAS, 2021

除了颞叶的参与,作者还发现运动区在这个听声音的任务中也被显著激活。尤其是左侧运动区在刺激是语言的情况下激活更突出(图5A)。

此外作者通过计算任务状态下运动区的电极和颞叶区的电极的相关性,发现运动区电极与颞叶人声子区域的电极在语言刺激任务下有显著相关性。这些结果表明,运动区参与了语言听的任务,并且与颞叶保持了很强的信息沟通。

图5 运动区的激活(图源:Y. Zhang, et al., PNAS, 2021


总 结

综上所述,作者通过分析病人大脑皮层采集到的神经电生理信号,发现人脑中对于人声的处理是有多个不相连的子区域共同完成。这些子区域具有逐步提升的选择性;响应特性以及响应延时分析,表明这些子区域是按照层级化结构组织在一起的。

此外,作者还意外发现运动区在语言任务中扮演了重要的角色。这些直接的电生理证据,支持了Voice patch系统的存在,揭示了其内在结构,回答了神经影像领域悬而未决的问题,也给语音识别、语音合成等人工智能架构的设计带来了新启发。

当然,这项研究还有一些更加深入的问题有待回答。比如,每个人声选择性的子区域编码的是什么人声特征?运动区参与人声处理的功能意义是什么?人声识别和人脸识别如何整合,形成抽象的身份识别?


参考文献:

1,P. Belin, R. J. Zatorre, P. Lafaille, P. Ahad, B. Pike, Voice-selective areas in human auditory cortex. Nature 403, 309–312 (2000).

2, C. Perrodin, C. Kayser, T. J. Abel, N. K. Logothetis, C. I. Petkov, Who is that? Brain networks and mechanisms for identifying individuals. Trends Cogn. Sci. 19, 783–796 (2015).

3, D. Y. Tsao, W. A. Freiwald, R. B. Tootell, M. S. Livingstone, A cortical region consisting entirely of face-selective cells. Science 311, 670–674 (2006).

4, D. Y. Tsao, S. Moeller, W. A. Freiwald, Comparing face patch systems in macaques and humans. Proc. Natl. Acad. Sci. U.S.A. 105, 19514–19519 (2008).

5, S. Moeller, W. A. Freiwald, D. Y. Tsao, Patches with links: A unified system for processing faces in the macaque temporal lobe. Science 320, 1355–1359 (2008).

6, B. L. Foster, V. Rangarajan, W. R. Shirer, J. Parvizi, Intrinsic and task-dependent coupling of neuronal population activity in human parietal cortex. Neuron 86, 578–590 (2015).

2021-12-30

For more details, please refer to PNAS:清华王小勤/洪波团队揭示人声处理的Voice Patch大脑网络


Leave a Reply

Your email address will not be published. Required fields are marked *