自然语言处理( Natural Language Processing, NLP)是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。这意味着计算机能以自然语言文本来表达给定的意图、思想等,称为自然语言生成。如何让自然语言生成系统产生和人类语言相同质量的语言,一直都是自然语言处理领域的热点和难点。尽管已经取得了巨大的进步,但是在评估自然语言生成语言质量的方法方面仍然存在重大挑战。语言心理学研究表明,语言蕴含说话人丰富的社会和心理信息,并且语言的社会和心理信息主要是由读者或听众在内隐水平上加工处理。因此,将内隐感知信息加入自然语言生成语言的质量评估标准中是一个有广阔前景潜在方向。
2023年2月7日,中国科学技术大学心理学系张效初团队在Advanced Science(IF=17.5)杂志上发表了题为《Implicit perception of differences between NLP-produced and human-produced language in the mentalizing network》的研究论文,通过比较自然语言和自然语言生成语言在感知上的神经活动差异,揭示了内隐感知神经信息在语言感知和理解中的重要作用,也为评估自然语言生成语言质量提供了新的思路。
该研究收集了聊天机器人谷歌Meena和微软XiaoIce的语料作为自然语言生成语言的代表,同时收集了人类语料作为对照材料,采用功能磁共振成像技术记录受试者在浏览评估两种语料过程中的神经信号。结果分析发现,当受试者主观无法区分语料来源的时候,即主观判定人类语料和机器人语料都是人类语料的情况,大脑心智化脑网络的核心脑区背内侧前额叶和右侧颞顶联合区的激活水平依然可以显著区分语料的来源(图1)。并且不同来源和不同判定的语料所引起的神经活动在受试者之间表现出了显著的相似性(图2)。
图1 评定来源为“人类”的语料分类准确度
图2 受试间神经活动相似性分析
最后,通过全脑分析,发现显著激活的脑区与meta分析神经合成的心智化脑网络存在位置重叠(图3),说明参与内隐感知自然语言和自然语言生成语言差异的大脑区域确实是心智化脑网络。
图3 全脑分析和重叠分析结果
这些研究成果表明,大脑的内隐感知神经信号是比自我报告更为敏感的评估信息,可以将其加入评估自然语言生成语言质量的标准中。这不仅有助于自然语言处理技术的发展,也为发展新的衡量人工智能水平的图灵测验提供新的视角。
中国科学技术大学心理学系韦正德特任副研究员和陈颖研究生为本文共同第一作者,中国科学技术大学心理学系张效初教授为本文独立通讯作者。本项目得到了国家自然科学基金、科技创新2030-“脑科学与类脑研究”重大项目、教育部哲学社会科学研究重大项目、CASVPST丝路科学基金、合肥科学中心协同创新计划的支持。
原文链接:https://onlinelibrary.wiley.com/doi/10.1002/advs.202203990
(韦正德供稿)