大模型70亿参数里究竟装着什么?程序、数据还是智能?
很多人问我:大模型里面那几百亿参数,到底是什么?是写好的程序,还是存储的数据?
这个问题看似简单,但答案可能会颠覆你对AI的认知——参数既不是程序,也不是数据,而是两者的深度融合。
一、72B参数是什么?
以阿里巴巴的Qwen2.5-72B为例,这是目前最强大的开源大模型之一:
- 总参数量:72.7B(727亿)
- 非Embedding参数量:70.0B
- Transformer层数:80层
- 上下文长度:128K tokens
- 预训练数据:18万亿tokens
核心问题:这727亿个浮点数(FP16格式)里面,到底装着什么?
二、参数的"三重身份"
1. 作为"程序"的参数
参数定义了神经网络"如何计算":
# Transformer中的矩阵运算
# 参数 W 就是"程序"
output = input @ W
# W_q, W_k, W_v 定义了Attention的查询、键、值投影
# W_o 定义了注意力输出的变换
# W1, W2 定义了前馈网络的非线性变换
这些矩阵就是"程序代码"——但不是用文字写的,而是用数字编码的。每一个参数都在参与定义计算规则。
2. 作为"数据"的参数
参数存储了"知道什么"——这就是知识编码。
"中国首都"这个知识在大模型中如何存储?
不是像数据库那样:北京 → "中国的首都"
而是分散在数百亿个参数中,形成"分布式表示":
• 神经元模式A:响应"国家"概念 → [0.1, -0.3, 0.5, ...]
• 神经元模式B:响应"北京"相关 → [0.8, 0.2, -0.1, ...]
• 神经元模式C:响应"政治中心" → [0.4, 0.9, 0.1, ...]
当模型看到"中国首都"时,这三组模式同时激活,共同编码了这个知识。
3. 作为"能力"的参数
参数还存储了"能做什么"——这就是技能习得:
- 推理能力 ≈ 一组特定的参数模式
- 写作能力 ≈ 另一组特定的参数模式
- 编程能力 ≈ 又一组特定的参数模式
当你问"9.11和9.8哪个大?",不同层的参数分别负责:识别比较问题、调用数学逻辑、执行比较操作、生成回答。
三、为什么智能会"涌现"?
当模型规模超过某个阈值后,突然获得了此前不具备的能力——这就是涌现(Emergence)。
机制一:维度跃升
小型模型只能区分简单模式,72B模型用1000+个特征区分"猫"的不同品种、姿态、颜色、表情。当维度从"够用"跨越到"富余"时,模型突然能捕捉极其细微的语义差异。
机制二:深度构建推理链
80层Transformer = 80次信息处理:
- 第1-20层(浅层):学习词法、句法、简单模式
- 第21-50层(中层):学习语义、常识、推理基础
- 第51-80层(深层):学习复杂推理、抽象类比、元认知
多步推理"A导致B,B导致C,所以A导致C"需要跨越多层的链接才能实现。浅层模型没有足够的深度来构建这种链条。
机制三:注意力机制的相位变化
Self-Attention让每个词能"关注"上下文中的其他词。当层数和头数超过某阈值时,Attention自动学会构建"推理图"——词与词之间的逻辑关系网络。
这使得模型能够进行"跳跃式推理",而不只是"连续性接龙"。
机制四:隐式学习
大型模型能从不完整的示例中学习新任务(In-Context Learning):给3-5个示例就能泛化,不需要参数更新。这种"学会学习"的能力本身也是涌现的。
四、数学推理能力如何涌现?
以数学推理为例,能力经历了5个阶段的涌现:
- 记忆(<10B):存储"3+5=8"等具体事实
- 模式学习(10-30B):学会"加法是数数的抽象"
- 规则学习(30-50B):学会"进位要加到更高位"
- 符号操作(50-72B):能用x、y表示未知数,会移项变号
- 多步推理(>70B):将复杂问题分解,检查中间结果,回溯修正
每个阶段都需要足够的参数来存储更多的模式、规则和推理链。
结论
72.7B参数 = 程序(计算逻辑)+ 数据(知识编码)+ 能力(技能习得)
三者统一于727亿个浮点数中,无法分离。
智能涌现不是因为"写入了智能",而是因为系统复杂度跨越了某个相变点,突然产生了处理复杂问题的能力。这不是"人工设计",而是"系统自发"。
参考资料
- Qwen2.5 Technical Report (arXiv)
- Alibaba Cloud官方文档
- HuggingFace Model Hub
- Qwen官方博客 (qwen.ai)