大模型70亿参数里究竟装着什么?程序、数据还是智能?

发布于 2026年5月23日 | 阅读时间约15分钟

很多人问我:大模型里面那几百亿参数,到底是什么?是写好的程序,还是存储的数据?

这个问题看似简单,但答案可能会颠覆你对AI的认知——参数既不是程序,也不是数据,而是两者的深度融合。

一、72B参数是什么?

以阿里巴巴的Qwen2.5-72B为例,这是目前最强大的开源大模型之一:

核心问题:这727亿个浮点数(FP16格式)里面,到底装着什么?

二、参数的"三重身份"

1. 作为"程序"的参数

参数定义了神经网络"如何计算":

# Transformer中的矩阵运算
# 参数 W 就是"程序"
output = input @ W

# W_q, W_k, W_v 定义了Attention的查询、键、值投影
# W_o 定义了注意力输出的变换
# W1, W2 定义了前馈网络的非线性变换

这些矩阵就是"程序代码"——但不是用文字写的,而是用数字编码的。每一个参数都在参与定义计算规则。

2. 作为"数据"的参数

参数存储了"知道什么"——这就是知识编码。

"中国首都"这个知识在大模型中如何存储?

不是像数据库那样:北京 → "中国的首都"

而是分散在数百亿个参数中,形成"分布式表示":

• 神经元模式A:响应"国家"概念 → [0.1, -0.3, 0.5, ...]

• 神经元模式B:响应"北京"相关 → [0.8, 0.2, -0.1, ...]

• 神经元模式C:响应"政治中心" → [0.4, 0.9, 0.1, ...]

当模型看到"中国首都"时,这三组模式同时激活,共同编码了这个知识。

3. 作为"能力"的参数

参数还存储了"能做什么"——这就是技能习得:

当你问"9.11和9.8哪个大?",不同层的参数分别负责:识别比较问题、调用数学逻辑、执行比较操作、生成回答。

三、为什么智能会"涌现"?

当模型规模超过某个阈值后,突然获得了此前不具备的能力——这就是涌现(Emergence)

机制一:维度跃升

小型模型只能区分简单模式,72B模型用1000+个特征区分"猫"的不同品种、姿态、颜色、表情。当维度从"够用"跨越到"富余"时,模型突然能捕捉极其细微的语义差异。

机制二:深度构建推理链

80层Transformer = 80次信息处理:

多步推理"A导致B,B导致C,所以A导致C"需要跨越多层的链接才能实现。浅层模型没有足够的深度来构建这种链条。

机制三:注意力机制的相位变化

Self-Attention让每个词能"关注"上下文中的其他词。当层数和头数超过某阈值时,Attention自动学会构建"推理图"——词与词之间的逻辑关系网络。

这使得模型能够进行"跳跃式推理",而不只是"连续性接龙"。

机制四:隐式学习

大型模型能从不完整的示例中学习新任务(In-Context Learning):给3-5个示例就能泛化,不需要参数更新。这种"学会学习"的能力本身也是涌现的。

四、数学推理能力如何涌现?

以数学推理为例,能力经历了5个阶段的涌现:

  1. 记忆(<10B):存储"3+5=8"等具体事实
  2. 模式学习(10-30B):学会"加法是数数的抽象"
  3. 规则学习(30-50B):学会"进位要加到更高位"
  4. 符号操作(50-72B):能用x、y表示未知数,会移项变号
  5. 多步推理(>70B):将复杂问题分解,检查中间结果,回溯修正

每个阶段都需要足够的参数来存储更多的模式、规则和推理链。

结论

72.7B参数 = 程序(计算逻辑)+ 数据(知识编码)+ 能力(技能习得)

三者统一于727亿个浮点数中,无法分离。

智能涌现不是因为"写入了智能",而是因为系统复杂度跨越了某个相变点,突然产生了处理复杂问题的能力。这不是"人工设计",而是"系统自发"。

参考资料