探索人工智能中的类人对象概念表示:多模态大型语言模型的突破
摘要
本文探讨了多模态大型语言模型(LLMs)是否能通过大量语言和多模态数据的学习,自然地发展出类似于人类的对象概念表示。研究结合行为和神经影像分析方法,通过收集470万条LLM和多模态LLM(MLLM)的三元组判断数据,提取出能够捕捉1854个自然对象基础相似性结构的66维嵌入。这些嵌入显示出高度的稳定性和预测性,并表现出与人类心理表示相似的语义聚类。进一步分析表明,这些模型嵌入与人类大脑中许多功能定义的区域(如EBA、PPA、RSC和FFA)的神经活动模式有很强的对应关系,表明LLM和MLLM的对象表示虽然与人类不完全相同,但共享了反映人类概念知识关键模式的基本共性。这项研究深化了对机器智能的理解,并为开发更接近人类的人工认知系统提供了信息。
原理
研究通过收集大量三元组判断数据,利用稀疏正相似性嵌入(SPoSE)方法,从LLM和MLLM中提取出66维的低维嵌入。这些嵌入是通过随机初始化对象点在高维特征空间中的权重,然后通过优化这些对象在这些维度上的权重来预测三元组任务中的行为判断。这种方法不仅促进了嵌入空间的稀疏性,还确保了权重的正性,使得每个对象在特定维度上的权重直接对应于该对象相关属性的存在程度。这种嵌入方法的先进性在于其能够从大规模数据中提取出既稳定又具有高度解释性的对象表示,这些表示能够自然地按照语义类别进行聚类,类似于人类的心理表示。
流程
研究首先从THINGS数据库中选择1854个常见对象,然后采用三元组“异类”任务作为行为任务范式,通过在线平台收集人类和模型的行为数据。对于LLM,模型通过文本描述接收视觉图像信息,而对于MLLM,模型直接处理视觉图像。通过SPoSE方法,模型从这些判断中学习到对象的嵌入表示。随后,通过比较模型嵌入与人类嵌入以及大脑神经活动模式的对应关系,验证了模型嵌入的稳定性和预测性。此外,研究还通过多维尺度分析(MDS)和t-SNE图展示了对象在嵌入空间中的全局结构,显示出对象根据其维度值在图中自然聚类,这与人类数据中的聚类模式相似。
应用
这项研究揭示了LLM和MLLM在对象概念表示上的潜力,这些模型不仅能够捕捉到对象的语义类别,还能在一定程度上模拟人类的认知过程。这种能力可以应用于开发更自然的人机交互系统,改进机器对人类概念理解的对齐,以及在教育和娱乐等领域提供更个性化的体验。此外,研究中收集的大规模行为数据集也为评估和比较不同AI模型的表示能力提供了宝贵的资源。
