大模型70亿参数里究竟装着什么？程序、数据还是智能？

发布于 2026年5月23日 | 阅读时间约15分钟

很多人问我：大模型里面那几百亿参数，到底是什么？是写好的程序，还是存储的数据？

这个问题看似简单，但答案可能会颠覆你对AI的认知——参数既不是程序，也不是数据，而是两者的深度融合。

一、72B参数是什么？

以阿里巴巴的Qwen2.5-72B为例，这是目前最强大的开源大模型之一：

核心问题：这727亿个浮点数（FP16格式）里面，到底装着什么？

参数定义了神经网络"如何计算"：

# Transformer中的矩阵运算
# 参数 W 就是"程序"
output = input @ W

# W_q, W_k, W_v 定义了Attention的查询、键、值投影
# W_o 定义了注意力输出的变换
# W1, W2 定义了前馈网络的非线性变换

这些矩阵就是"程序代码"——但不是用文字写的，而是用数字编码的。每一个参数都在参与定义计算规则。

参数存储了"知道什么"——这就是知识编码。

"中国首都"这个知识在大模型中如何存储？

不是像数据库那样：北京 → "中国的首都"

而是分散在数百亿个参数中，形成"分布式表示"：

• 神经元模式A：响应"国家"概念 → [0.1, -0.3, 0.5, ...]

• 神经元模式B：响应"北京"相关 → [0.8, 0.2, -0.1, ...]

• 神经元模式C：响应"政治中心" → [0.4, 0.9, 0.1, ...]

当模型看到"中国首都"时，这三组模式同时激活，共同编码了这个知识。

参数还存储了"能做什么"——这就是技能习得：

当你问"9.11和9.8哪个大？"，不同层的参数分别负责：识别比较问题、调用数学逻辑、执行比较操作、生成回答。

当模型规模超过某个阈值后，突然获得了此前不具备的能力——这就是涌现（Emergence）。

小型模型只能区分简单模式，72B模型用1000+个特征区分"猫"的不同品种、姿态、颜色、表情。当维度从"够用"跨越到"富余"时，模型突然能捕捉极其细微的语义差异。

80层Transformer = 80次信息处理：

多步推理"A导致B，B导致C，所以A导致C"需要跨越多层的链接才能实现。浅层模型没有足够的深度来构建这种链条。

Self-Attention让每个词能"关注"上下文中的其他词。当层数和头数超过某阈值时，Attention自动学会构建"推理图"——词与词之间的逻辑关系网络。

这使得模型能够进行"跳跃式推理"，而不只是"连续性接龙"。

大型模型能从不完整的示例中学习新任务（In-Context Learning）：给3-5个示例就能泛化，不需要参数更新。这种"学会学习"的能力本身也是涌现的。

以数学推理为例，能力经历了5个阶段的涌现：

每个阶段都需要足够的参数来存储更多的模式、规则和推理链。

72.7B参数 = 程序（计算逻辑）+ 数据（知识编码）+ 能力（技能习得）

三者统一于727亿个浮点数中，无法分离。

智能涌现不是因为"写入了智能"，而是因为系统复杂度跨越了某个相变点，突然产生了处理复杂问题的能力。这不是"人工设计"，而是"系统自发"。