Choosing a Model, Shaping a Future: Comparing LLM Perspectives on Sustainability and its Relationship with AI

📄 arXiv: 2505.14435v2 📥 PDF

作者: Annika Bush, Meltem Aksoy, Markus Pauly, Greta Ontrup

分类: cs.CY, cs.AI

发布日期: 2025-05-20 (更新: 2025-09-30)

备注: Accepted for EMNLP Conference


💡 一句话要点

比较五种大型语言模型对可持续性与AI关系的看法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可持续性 AI决策支持 模型偏见 技术治理 可持续发展目标

📋 核心要点

  1. 现有的AI决策支持系统在可持续性领域存在固有偏见,影响决策质量。
  2. 本研究通过对五种LLMs进行系统比较,揭示其在可持续性概念上的差异与偏见。
  3. 实验结果显示,不同模型在可持续发展目标的理解上存在显著差异,影响组织的决策策略。

📝 摘要(中文)

随着组织越来越依赖AI系统在可持续性决策中的支持,理解大型语言模型(LLMs)中固有的偏见和观点变得至关重要。本研究系统地调查了五种最先进的LLMs——Claude、DeepSeek、GPT、LLaMA和Mistral——如何概念化可持续性及其与AI的关系。我们对每个模型进行了100次经过验证的心理测量可持续性相关问卷,以捕捉响应模式和变异性。研究发现模型间存在显著差异:例如,GPT对AI与可持续性的兼容性持怀疑态度,而LLaMA则表现出极端的技术乐观主义,在多个可持续发展目标(SDGs)中获得完美分数。模型在归属AI与可持续性整合的机构责任方面也存在分歧,这一结果对技术治理方法具有重要影响。研究结果表明,模型选择可能会显著影响组织的可持续性战略,强调在可持续性相关决策中部署LLMs时需关注模型特定的偏见。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在可持续性决策支持中固有偏见的问题。现有方法未能充分揭示不同模型在可持续性理解上的差异,可能导致决策失误。

核心思路:通过对五种主流LLMs进行系统的比较研究,分析它们在可持续性及其与AI关系的理解,揭示模型选择对决策的影响。

技术框架:研究采用经过验证的心理测量问卷,对每个模型进行100次测试,收集响应数据以分析模型间的差异。主要模块包括问卷设计、数据收集和结果分析。

关键创新:本研究的创新在于系统性地比较不同LLMs在可持续性理解上的差异,首次揭示了模型选择对可持续性决策的潜在影响。

关键设计:研究中使用的问卷经过心理测量验证,确保了数据的可靠性和有效性。每个模型的响应模式和变异性被详细记录和分析。

📊 实验亮点

实验结果显示,GPT对AI与可持续性的兼容性持怀疑态度,而LLaMA在多个可持续发展目标中获得完美分数,表现出极端的技术乐观主义。这些显著的模型间差异强调了在可持续性决策中选择合适模型的重要性。

🎯 应用场景

该研究的结果对组织在选择AI模型时具有重要指导意义,尤其是在可持续性决策领域。通过理解不同模型的偏见,组织可以更有效地制定可持续发展战略,优化资源配置,提升决策质量。未来,该研究可能推动技术治理方法的改进,促进AI与可持续性目标的更好结合。

📄 摘要(原文)

As organizations increasingly rely on AI systems for decision support in sustainability contexts, it becomes critical to understand the inherent biases and perspectives embedded in Large Language Models (LLMs). This study systematically investigates how five state-of-the-art LLMs -- Claude, DeepSeek, GPT, LLaMA, and Mistral - conceptualize sustainability and its relationship with AI. We administered validated, psychometric sustainability-related questionnaires - each 100 times per model -- to capture response patterns and variability. Our findings revealed significant inter-model differences: For example, GPT exhibited skepticism about the compatibility of AI and sustainability, whereas LLaMA demonstrated extreme techno-optimism with perfect scores for several Sustainable Development Goals (SDGs). Models also diverged in attributing institutional responsibility for AI and sustainability integration, a results that holds implications for technology governance approaches. Our results demonstrate that model selection could substantially influence organizational sustainability strategies, highlighting the need for awareness of model-specific biases when deploying LLMs for sustainability-related decision-making.