4B、8B、37B、70B到底是什么意思？

关于大模型，我们经常会看到某某模型多少B，比如 Qwen3-4B、Qwen3-8B、DeepSeek-R1-37B、…70B 等等。我猜你一定很好奇，这其中的 4B、8B、37B 到底指的是什么意思？本期就来说说这个 B 的事情。

🔚 首先破译代码：这个"B"到底是什么？

其实很简单，B就是 **Billion（十亿）**的缩写。4B 代表 40 亿个参数、8B 就是 80 亿参数、37B 就是 370 亿参数、70B 就是 700 亿参数，这就破案了，简单吧！聪明的你肯定能猜到，参数越大说明模型越厉害，各方面能力越强。

你可以把大模型想象成仿真的人类大脑，这些"参数"就是神经元之间的连接（突触）：

· 训练时：疯狂调整连接强弱，把知识"刻"进去；

· 推理时：电流流过这些连接，输出答案。

理论上讲，连接越多（参数越大），"脑容量"就越大。

🎯 不要小瞧小模型

前面我们说到，理论上参数越大，模型越厉害。打个比方，8B 模型和 70B 模型就好比是小学生和大学教授的区别。但到了 2024 年，情况发生了微妙变化，大模型已经不再卷参数了，而是在一定程度上通过架构优化和数据质量来提升模型性能。

就拿 8B 模型来说，虽然只有 80 亿个"突触"，但通过更长的高质量数据训练，这些连接变得极度高效。你让它写 Python 脚本、做会议总结、搞 RAG 检索，反应极快且逻辑严密。在某些特定任务上，性价比可能比超大模型更高。

但是，如果让它写长篇悬疑小说，或者处理复杂的"多步逻辑推理"数学题，可能因"脑容量"限制，在处理极其复杂的任务时表现会有所不足。

所以，对于特定的垂直领域，用高质量数据训练出来的小模型，让它处理特定的任务往往更有性价比。

🧩 什么是 MoE？

参数量大确实能力更强，但是有一个缺点，就是推理时计算资源需求较高。为了解决这个问题，工业界就提出了一种新的神经网络架构——MoE 架构。

什么是 MoE？不讲人话的表述：MoE 全称 Mixture of Experts（混合专家模型），是一种基于 Transformer 的稀疏激活神经网络。它把传统的单一大型神经网络拆分成多个专门的"专家"子网络，每个专家负责处理特定类型的任务或信息。通过"专家分工+智能调度"的方式，让大模型在保持高参数量的同时实现高效计算。

讲人话的表述：MoE 就相当于在大模型里面内置了很多个专家，配置多个专家，包括代码专家、数学专家、文学专家等等。你问一个问题，我只派其中一两个懂行的专家来回答。

MoE 的核心工作原理由两部分组成：

一，专家网络（Experts）。在大模型内部有多个独立的小型神经网络，各自专精不同领域；

二，门控网络（Gating）。就是智能调度器，决定激活哪些专家来处理当前输入。

具体流程是：输入数据先被门控网络分析，然后门控网络根据输入特征选择最合适的 2-3 个专家进行计算，最后将专家的输出加权合并得到最终结果。

MoE 架构在工业界已经得到验证，我们熟悉的 DeepSeek 系列就是采用 MoE 架构实现的。DeepSeek-V3 仅激活 5.5% 的参数就能实现高速响应，而且相比传统全参数模型，训练成本可降低 75% 以上。另外，采用稀疏激活的方式可以降低显存占用，在一定程度上支持在消费级 GPU 上运行更大的模型，这也是 DeepSeek 能大幅降低大模型 API 调用成本的一个核心原因。

除了 DeepSeek，Google 的 GLaM、Switch Transformer 也采用了 MoE 架构，开源的 Mixtral 模型也展示了 MoE 在开源社区的成功实践。这证明了 MoE 在大规模语言建模中的可行性。

⚡ 个人 PC 能跑 70B 模型吗？

你可能会问，自己的个人电脑能跑一跑 70B 模型吗？很遗憾地告诉你：对于大多数用户来说是比较困难的。

我们算一笔硬件账，70B 意味着 700 亿参数，在标准 FP16（半精度）格式下：每个参数占 2 个字节，700亿 × 2 Bytes = 140 GB。这时，你看了一眼你机箱里的 RTX 4090（当前旗舰），它只有 24 GB 显存，就算你配备两张 4090 搞级联，加起来也才 48 GB。

而面对这 140 GB 的庞然大物，你的双卡 4090 可能面临显存不足的挑战。

好，你说我就想在个人 PC 上尝试运行 70B 的模型，有办法吗？有两条路：要么租一台拥有多张高性能GPU的服务器；要么用上量化技术。即便压缩到 4-bit，70B 仍需约 35 GB 显存（700亿 × 0.5字节）。所以，想在本地流畅运行 70B，高配置的GPU级联方案是相对可行的选择。

4B、8B、37B、70B到底是什么意思？ ​

🔚 首先破译代码：这个"B"到底是什么？ ​

🎯 不要小瞧小模型 ​

🧩 什么是 MoE？ ​

⚡ 个人 PC 能跑 70B 模型吗？ ​

4B、8B、37B、70B到底是什么意思？

🔚 首先破译代码：这个"B"到底是什么？

🎯 不要小瞧小模型

🧩 什么是 MoE？

⚡ 个人 PC 能跑 70B 模型吗？