语言模型之船:探索科学术语的隐秘演变

What We Talk About When We Talk About LMs: Implicit Paradigm Shifts and the Ship of Language Models

摘要

本文探讨了“语言模型”(Language Models, LMs)这一术语在科学发展中的持续演变,将其比喻为“忒修斯之船”问题,即随着时间的推移,术语的含义不断更新,但其本质保持不变。研究通过构建基于近期自然语言处理(NLP)出版物的数据基础设施,进行了一系列文本分析,以量化理解“语言模型”这一术语的使用情况。文章强调了系统与理论在科学论述中的相互影响,并呼吁关注这一不断变化的“语言模型之船”,我们都在为其贡献力量。

原理

本文通过构建两个相关关键词集合(1)提及的集体LM概念,(2)特定模型名称,并从最近的10个主要NLP会议中构建了一个包含7,650篇论文的数据集。研究重点在于我们如何讨论LMs:我们多久讨论一次LMs,以及讨论的自信程度如何?哪些模型被提及,这些组件有何特殊之处?此外,LMs的指代在不同论文中如何变化?研究通过半自动、可泛化的框架提取和组织关键词,以揭示看似不变的总体术语中隐含的惊人变化程度。

流程

研究首先通过API获取论文的元数据,然后使用pypdf2工具扫描文本,进行后处理以去除多余格式并识别章节标题。接着,通过设计详细的上下文提示,利用先进的LLM自动从论文标题和摘要中检测模型名称。所有检测到的名称按频率排序为候选列表,并通过人工判断是否为新条目、别名或其他,最终形成模型名称字典。研究还通过统计函数计算模型名称在文本中的出现次数,以此分析LMs的讨论频率和变化。

应用

本文的研究方法不仅限于LMs的讨论,还可以扩展到更广泛的科学术语和领域,为理解科学进步提供新的视角。此外,该方法还可以作为进一步细粒度测量快速增长领域中微妙变化的切入点。