目录

AI Scientist-v2:智能体树搜索驱动的自动化科研论文生成

AI Scientist-v2:智能体树搜索驱动的自动化科研论文生成

一、项目概览

AI Scientist-v2 是由 SakanaAI 开发的一个通用端到端智能体系统,能够自主完成科学研究流程:提出假设、设计实验、运行实验、分析数据,并撰写科学论文。该项目在 GitHub 上获得了 3.6k Stars545 Forks,成为 AI 自动化科研领域的标杆项目。

1.1 核心定位

AI Scientist-v2 的诞生代表了 AI 自动化科研的重大突破:

  1. 完全自主的研究流程:从假设生成到实验设计,从结果分析到论文撰写,全流程无需人类干预
  2. 超越模板限制:不同于 v1 版本依赖人类编写的模板,v2 版本实现了完全自主的开放式科学探索
  3. 首个 AI 生成的 Workshop 论文被接收:ICLR Workshop 接收了完全由 AI Scientist-v2 生成的论文,开创了 AI 科研的新纪元

1.2 技术统计

指标数值
Stars3.6k
Forks545
Commits58
贡献者8 人
最新提交2025-12-19
许可证AI Scientist Source Code License
主要语言Python 70.4%

1.3 v1 与 v2 对比

维度AI Scientist v1AI Scientist v2
模板依赖依赖人类编写模板无需模板
成功率较高较低
适用场景目标明确、基础扎实的任务开放性科学探索
灵活性受限于模板广泛探索

重要说明:v2 并不一定比 v1 产生更好的论文,特别是当有强起始模板可用时。v1 遵循明确的模板,成功率高;v2 采用更广泛、更具探索性的方法,成功率较低。

二、核心功能

2.1 假设生成(Ideation)

AI Scientist-v2 能够自主生成研究假设:

  • 基于用户提供的研究主题描述(Markdown 格式)
  • 通过 LLM 大脑风暴并精炼研究想法
  • 访问 Semantic Scholar 检查新颖性
  • 输出结构化的 JSON 格式研究想法
# 运行假设生成脚本
python ai_scientist/perform_ideation_temp_free.py \
  --workshop-file "ai_scientist/ideas/my_research_topic.md" \
  --model gpt-4o-2024-05-13 \
  --max-num-generations 20 \
  --num-reflections 5

这是 v2 版本的核心创新:

  • 最佳优先树搜索(BFTS,Best-First Tree Search):系统地探索多个实验路径
  • 实验管理器智能体:指导整个探索过程
  • 并行探索:可同时扩展多个节点
  • 自适应调试:自动尝试修复失败的实验节点

关键参数配置bfts_config.yaml):

参数说明
num_workers并行探索路径数
steps最大探索节点数
max_debug_depth最大调试次数
debug_prob调试概率
num_drafts独立树的数量

2.3 论文撰写

基于实验结果自动生成 LaTeX 论文:

  • 分析实验数据
  • 生成可视化图表
  • 撰写 Introduction、Method、Experiment、Conclusion 等章节
  • 生成参考文献
  • 完整 PDF 输出

2.4 文献检索

集成 Semantic Scholar API:

  • 搜索相关学术文献
  • 检查假设的新颖性
  • 自动生成参考文献引用

三、技术架构

3.1 系统流程

研究主题描述 (Markdown)
       ↓
[阶段1:假设生成]
       ↓
结构化研究想法 (JSON)
       ↓
[阶段2:智能体树搜索实验]
       ↓
实验结果 + 树可视化
       ↓
[阶段3:论文撰写]
       ↓
完整论文 PDF

3.2 支持的模型

AI Scientist-v2 支持多种 LLM 后端:

模型调用方式用途
OpenAI GPT-4oOPENAI_API_KEY写作/审核
GeminiGEMINI_API_KEY写作/审核
Claude (via AWS Bedrock)AWS_* 环境变量实验/写作/审核

3.3 成本估算

阶段成本说明
假设生成~$2-3取决于使用的 LLM
实验运行~$15-20使用 Claude 3.5 Sonnet
论文撰写~$5写作 + 引用

一次完整运行的典型成本约为 $20-25

3.4 项目结构

AI-Scientist-v2/
├── ai_scientist/              # 核心代码目录
│   ├── perform_ideation_temp_free.py   # 假设生成脚本
│   └── ideas/                 # 研究想法目录
├── bfts_config.yaml           # BFTS 树搜索配置
├── launch_scientist_bfts.py   # 主启动脚本
├── docs/                     # 文档
└── requirements.txt           # Python 依赖

四、快速开始

4.1 环境要求

  • 操作系统:Linux(需 NVIDIA GPU)
  • Python:3.11
  • CUDA + PyTorch:GPU 计算支持
  • LaTeX:PDF 文档生成

4.2 安装步骤

# 1. 创建 conda 环境
conda create -n ai_scientist python=3.11
conda activate ai_scientist

# 2. 安装 PyTorch(根据你的 CUDA 版本调整)
conda install pytorch torchvision torchaudio pytorch-cuda=12.4 -c pytorch -c nvidia

# 3. 安装 PDF 和 LaTeX 工具
conda install anaconda::poppler
conda install conda-forge::chktex

# 4. 安装 Python 依赖
pip install -r requirements.txt

4.3 配置 API Key

# OpenAI
export OPENAI_API_KEY="YOUR_OPENAI_KEY_HERE"

# Semantic Scholar(可选)
export S2_API_KEY="YOUR_S2_KEY_HERE"

# AWS(使用 Claude via Bedrock)
export AWS_ACCESS_KEY_ID="YOUR_AWS_ACCESS_KEY_ID"
export AWS_SECRET_ACCESS_KEY="YOUR_AWS_SECRET_KEY"
export AWS_REGION_NAME="your-aws-region"

4.4 运行完整流程

第一步:生成研究想法

python ai_scientist/perform_ideation_temp_free.py \
  --workshop-file "ai_scientist/ideas/my_research_topic.md" \
  --model gpt-4o-2024-05-13 \
  --max-num-generations 20 \
  --num-reflections 5

第二步:运行实验并生成论文

python launch_scientist_bfts.py \
  --load_ideas "ai_scientist/ideas/my_research_topic.json" \
  --load_code \
  --add_dataset_ref \
  --model_writeup o1-preview-2024-09-12 \
  --model_citation gpt-4o-2024-11-20 \
  --model_review gpt-4o-2024-11-20 \
  --model_agg_plots o3-mini-2025-01-31 \
  --num_cite_rounds 20

五、使用指南

5.1 准备研究主题

创建一个 Markdown 文件描述研究领域:

# Title: 探索新的深度学习优化器

# Keywords:
深度学习, 优化器, 神经网络, 自适应学习率

# TL;DR:
提出一种新的自适应优化算法...

# Abstract:
我们提出一种...

5.2 理解树搜索结果

实验完成后,在 experiments/"timestamp"/logs/0-run/ 目录下可以找到:

  • unified_tree_viz.html:树搜索过程的可视化
  • 实验日志:每个节点的详细执行信息

5.3 故障排除

问题:没有生成 PDF 或审核结果

  • 成功取决于选择的模型和想法的复杂性
  • 建议使用 Claude 3.5 Sonnet 以获得更高成功率

问题:CUDA 内存不足

  • 在研究主题文件中指定使用更小的模型
  • 减少 num_workers 以降低并行度

六、安全与责任

6.1 警告

⚠️ Caution! 此代码将执行 LLM 生成的代码。存在多种与自主性相关的风险和挑战,包括潜在的危险包使用、不可控的网络访问,以及可能产生意外进程的可能性。确保在受控的沙箱环境中运行(例如 Docker 容器)。

6.2 强制性披露

根据许可证,使用此代码生成的科学论文必须:

  • 在论文的显眼位置明确披露 AI 的使用
  • 在摘要或方法部分添加适当的归属声明

推荐引用格式:

“This manuscript was autonomously generated using The AI Scientist.”

七、最佳实践

7.1 研究主题设计

  • 提供清晰的研究领域描述
  • 包含足够的背景信息帮助 LLM 理解研究 context
  • 明确研究的目标和预期贡献

7.2 模型选择

场景推荐模型理由
实验阶段Claude 3.5 Sonnet高成功率
写作阶段GPT-4o 或 o1成本效益
引用生成GPT-4o成本控制

7.3 成本优化

  • 使用较便宜的模型进行引用生成(model_citation
  • 仔细选择 num_workerssteps 参数
  • 在 ideation 阶段使用较小模型

八、常见问题

Q: AI Scientist-v2 和 v1 哪个更好?

A: 取决于你的需求。v1 适合有明确目标和良好基础的场景,成功率更高。v2 适合开放性科学探索,但成功率较低。

Q: 运行一次完整实验需要多少时间?

A: 完整流程通常需要数小时,具体取决于并行度和实验复杂度。

Q: 是否需要 GPU?

A: 是的,需要 NVIDIA GPU 和 CUDA 支持来运行深度学习实验。

Q: 如何处理 Semantic Scholar API 限制?

A: 可以跳过引用阶段,或者使用 S2_API_KEY 提高 API 限额。

九、总结

AI Scientist-v2 代表了 AI 自动化科研的前沿:

  • 完全自主:从假设到论文,全流程无需人类干预
  • 智能体树搜索:系统化探索实验空间
  • 多模型支持:OpenAI、Gemini、Claude 均可使用
  • 首个被接收的 AI 论文:证明了可行性

局限性

  • 成功率不如 v1 高
  • 需要强大的 LLM 支持
  • GPU 资源需求较高

无论你是 AI 研究者还是对自动化科研感兴趣,AI Scientist-v2 都是一个值得深入了解的项目。


相关资源: