Guiding Evolution of Artificial Life Using Vision-Language Models

📄 arXiv: 2509.22447v1 📥 PDF

作者: Nikhil Baid, Hannah Erlebach, Paul Hellegouarch, Frederico Wieser

分类: cs.AI, cs.NE

发布日期: 2025-09-26

备注: 9 pages, 6 figures. Accepted for publication in the Proceedings of the Artificial Life Conference 2025 (MIT Press)


💡 一句话要点

ASAL++:利用视觉-语言模型引导人工生命演化,实现开放式探索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人工生命 视觉-语言模型 开放式探索 演化算法 多模态学习

📋 核心要点

  1. 现有ALife方法难以实现开放式探索,缺乏自动生成复杂演化目标的能力。
  2. ASAL++利用视觉-语言模型自动生成演化目标,引导ALife模拟朝着更复杂和有趣的方向发展。
  3. 实验表明,EST策略能产生更具视觉新颖性的结果,而ETT策略则能产生更连贯的演化序列。

📝 摘要(中文)

基础模型(FMs)通过提供强大的工具来自动化人工生命(ALife)模拟的搜索,为该领域开辟了新的前沿。先前的工作使用视觉-语言模型(VLMs)将ALife模拟与自然语言目标提示对齐。本文在人工生命自动搜索(ASAL)的基础上,引入了ASAL++,这是一种由多模态FM引导的开放式搜索方法。我们使用第二个FM来根据模拟的视觉历史提出新的演化目标,从而诱导具有日益复杂目标的演化轨迹。我们探索了两种策略:(1)在每次迭代中演化模拟以匹配单个新提示(演化监督目标:EST)和(2)演化模拟以匹配生成的提示的整个序列(演化时间目标:ETT)。我们在Lenia基质中使用Gemma-3来提出演化目标,并从经验上测试了我们的方法,结果表明EST促进了更大的视觉新颖性,而ETT培养了更连贯和可解释的演化序列。我们的结果表明,ASAL++为FM驱动的具有开放式特征的ALife发现指明了新的方向。

🔬 方法详解

问题定义:现有的人工生命(ALife)研究通常依赖于手动设计的演化目标,这限制了探索的范围和发现的潜力。如何自动生成多样且具有挑战性的演化目标,从而实现更具开放性的ALife探索,是本文要解决的核心问题。现有方法的痛点在于缺乏有效的机制来根据模拟的当前状态动态调整演化目标。

核心思路:本文的核心思路是利用视觉-语言模型(VLMs)来自动生成演化目标。具体来说,使用一个VLM来分析ALife模拟的视觉历史,并根据这些历史信息提出新的、更复杂的演化目标。这种方法允许演化过程根据模拟的进展情况进行自适应调整,从而实现更具开放性和创造性的探索。

技术框架:ASAL++的整体框架包含以下几个主要模块: 1. ALife模拟器:负责运行ALife模拟,并生成视觉输出。 2. 视觉历史记录器:记录ALife模拟的视觉历史,例如每一帧的图像。 3. 目标生成器:使用VLM分析视觉历史,并生成新的演化目标。本文使用Gemma-3作为目标生成器。 4. 演化算法:使用演化算法(例如遗传算法)来优化ALife模拟的参数,使其更接近目标生成器提出的目标。 5. 评估器:评估ALife模拟与目标之间的相似度,并为演化算法提供反馈。

关键创新:ASAL++的关键创新在于使用VLM来自动生成演化目标,从而实现了更具开放性的ALife探索。与现有方法相比,ASAL++不需要手动设计演化目标,而是可以根据模拟的进展情况动态调整目标,从而实现更具创造性和多样性的结果。此外,本文还探索了两种不同的演化策略:EST和ETT,分别侧重于视觉新颖性和演化序列的连贯性。

关键设计: * 目标生成器:使用Gemma-3模型,并根据ALife模拟的视觉历史生成自然语言描述,作为新的演化目标。 * 演化策略: * EST (Evolved Supervised Targets):在每次迭代中,ALife模拟的目标是匹配单个新的提示。 * ETT (Evolved Temporal Targets):ALife模拟的目标是匹配生成的提示的整个序列。 * 相似度评估:使用VLM来评估ALife模拟的视觉输出与目标描述之间的相似度。具体来说,将图像和文本描述输入VLM,并计算它们之间的相似度得分。

📊 实验亮点

实验结果表明,ASAL++能够有效地引导ALife模拟的演化,并产生具有视觉新颖性和连贯性的结果。具体来说,EST策略能够产生更具视觉新颖性的结果,而ETT策略则能够产生更连贯和可解释的演化序列。这些结果表明,ASAL++为FM驱动的ALife发现指明了新的方向。

🎯 应用场景

该研究成果可应用于游戏设计、艺术创作、科学发现等领域。例如,可以利用ASAL++自动生成具有复杂行为和视觉效果的虚拟生物,用于游戏或电影制作。此外,该方法还可以用于探索新的科学假设,例如研究生命起源或复杂系统的演化。

📄 摘要(原文)

Foundation models (FMs) have recently opened up new frontiers in the field of artificial life (ALife) by providing powerful tools to automate search through ALife simulations. Previous work aligns ALife simulations with natural language target prompts using vision-language models (VLMs). We build on Automated Search for Artificial Life (ASAL) by introducing ASAL++, a method for open-ended-like search guided by multimodal FMs. We use a second FM to propose new evolutionary targets based on a simulation's visual history. This induces an evolutionary trajectory with increasingly complex targets. We explore two strategies: (1) evolving a simulation to match a single new prompt at each iteration (Evolved Supervised Targets: EST) and (2) evolving a simulation to match the entire sequence of generated prompts (Evolved Temporal Targets: ETT). We test our method empirically in the Lenia substrate using Gemma-3 to propose evolutionary targets, and show that EST promotes greater visual novelty, while ETT fosters more coherent and interpretable evolutionary sequences. Our results suggest that ASAL++ points towards new directions for FM-driven ALife discovery with open-ended characteristics.