← 返回工具列表

Llama 4 Meta 开源 2025.4

首款 MoE 架构多模态开源模型,千万 token 上下文,挑战 GPT-4o

2万亿Behemoth 参数
1000万Scout 上下文
128Maverick 专家数
#2Arena 排行榜

🦙 什么是 Llama 4?

Llama 4 是 Meta 于 2025 年 4 月 5 日发布的新一代开源大模型,首次采用混合专家(MoE)架构,支持文本、图像、视频、音频多模态处理。这是 Meta 在 AI 领域的重大突破,标志着开源模型正式进入与闭源模型正面竞争的新阶段。

架构革新:Llama 4 从"参数规模竞赛"转向"架构效率优化",MoE 架构让模型在保持强大能力的同时大幅降低推理成本。Maverick 版本推理成本仅为 DeepSeek V3 的一半。

MoE 架构

混合专家架构,动态路由,高效推理

多模态原生

文本/图像/视频/音频统一处理

超长上下文

Scout 支持 1000 万 token 上下文

🤖 Llama 4 模型家族

Llama 4 Scout 长文本专家

专为文档摘要、代码库分析等长文本任务设计,可在单张 H100 GPU 上运行。

1090亿
总参数
170亿
活跃参数
1000万
上下文
16
专家数

Llama 4 Behemoth 即将发布

终极版本,2 万亿参数,STEM 基准测试超越 GPT-4.5 和 Claude Sonnet 3.7。

2万亿
总参数
STEM #1
基准测试
教师模型
定位
2025 Q3
预计发布

📊 性能对比

模型参数量上下文多模态开源
Llama 4 Maverick4000亿128K
GPT-4o未公开128K
Gemini 2.0未公开1M
DeepSeek V36850亿128K

🚀 快速开始

使用 Hugging Face

from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "meta-llama/Llama-4-Maverick"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)

inputs = tokenizer("Hello, Llama 4!", return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(outputs[0]))

使用 Ollama

# 下载并运行 Llama 4
ollama pull llama4-maverick
ollama run llama4-maverick

🔗 相关资源