Large Language Models for History, Philosophy, and Sociology of Science: Interpretive Uses, Methodological Challenges, and Critical Perspectives

📄 arXiv: 2506.12242v1 📥 PDF

作者: Arno Simons, Michael Zichert, Adrian Wüthrich

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-06-13

备注: 27 pages, 2 tables


💡 一句话要点

探讨大型语言模型在科学史、哲学与社会学中的应用与挑战

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 科学史 哲学 社会学 解释性研究 计算技术 数据分析

📋 核心要点

  1. 现有的科学史、哲学与社会学研究方法在处理非结构化文本和上下文推断方面存在局限性。
  2. 论文提出将大型语言模型视为认识基础设施,探讨其在HPSS研究中的应用与挑战。
  3. 通过比较不同模型的优缺点,论文总结了将LLMs整合进HPSS的四个重要教训。

📝 摘要(中文)

本文探讨了大型语言模型(LLMs)作为科学史、哲学与社会学(HPSS)研究工具的使用。LLMs在处理非结构化文本和从上下文推断意义方面表现出色,提供了新的可能性,挑战了计算方法与解释方法之间的长期分歧。这为HPSS带来了机遇与挑战,HPSS强调解释性方法,并理解意义为依赖于上下文、模糊且历史性。我们认为HPSS不仅能从LLMs的能力中受益,还能质疑其认识论假设和基础设施影响。为此,我们首先为非技术读者提供了LLM架构和训练范式的简要介绍。我们将LLMs视为编码关于意义、上下文和相似性的认识基础设施,受其训练数据、架构和使用模式的影响。接着,我们探讨了如何利用LLMs增强的计算技术支持HPSS中的解释性研究。最后,我们总结了将LLMs整合进HPSS的四个教训。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在科学史、哲学与社会学研究中的应用问题,现有方法在处理非结构化文本和上下文理解方面存在不足。

核心思路:论文的核心思路是将LLMs视为认识基础设施,强调其在HPSS研究中的潜力,同时质疑其固有的认识论假设。

技术框架:整体架构包括对LLM架构的介绍、对计算技术的应用分析,以及对模型选择和适应策略的讨论,主要模块包括数据结构化、模式检测和动态过程建模。

关键创新:最重要的技术创新在于将LLMs的能力与HPSS的解释性研究相结合,提出了将计算技术与解释方法整合的新视角。

关键设计:论文讨论了模型选择的解释性权衡、LLM素养的重要性、HPSS自定义基准和语料库的必要性,以及LLMs应增强而非替代解释性方法的设计理念。

📊 实验亮点

论文通过比较不同的LLM模型,提出了在HPSS研究中应用LLMs的策略,强调了模型选择的解释性权衡和LLM素养的重要性,为未来的研究提供了实用的指导。

🎯 应用场景

该研究的潜在应用领域包括科学史、哲学与社会学的研究,尤其是在处理大量非结构化文本数据时。通过将大型语言模型应用于这些领域,研究者可以更有效地进行数据分析和模式识别,从而推动学科的发展和创新。

📄 摘要(原文)

This paper explores the use of large language models (LLMs) as research tools in the history, philosophy, and sociology of science (HPSS). LLMs are remarkably effective at processing unstructured text and inferring meaning from context, offering new affordances that challenge long-standing divides between computational and interpretive methods. This raises both opportunities and challenges for HPSS, which emphasizes interpretive methodologies and understands meaning as context-dependent, ambiguous, and historically situated. We argue that HPSS is uniquely positioned not only to benefit from LLMs' capabilities but also to interrogate their epistemic assumptions and infrastructural implications. To this end, we first offer a concise primer on LLM architectures and training paradigms tailored to non-technical readers. We frame LLMs not as neutral tools but as epistemic infrastructures that encode assumptions about meaning, context, and similarity, conditioned by their training data, architecture, and patterns of use. We then examine how computational techniques enhanced by LLMs, such as structuring data, detecting patterns, and modeling dynamic processes, can be applied to support interpretive research in HPSS. Our analysis compares full-context and generative models, outlines strategies for domain and task adaptation (e.g., continued pretraining, fine-tuning, and retrieval-augmented generation), and evaluates their respective strengths and limitations for interpretive inquiry in HPSS. We conclude with four lessons for integrating LLMs into HPSS: (1) model selection involves interpretive trade-offs; (2) LLM literacy is foundational; (3) HPSS must define its own benchmarks and corpora; and (4) LLMs should enhance, not replace, interpretive methods.