4B、8B、37B、70B到底是什么意思?
关于大模型,我们经常会看到某某模型多少B,比如 Qwen3-4B、Qwen3-8B、DeepSeek-R1-37B、…70B 等等。我猜你一定很好奇,这其中的 4B、8B、37B 到底指的是什么意思?本期就来说说这个 B 的事情。
🔚 首先破译代码:这个"B"到底是什么?
其实很简单,B就是 **Billion(十亿)**的缩写。4B 代表 40 亿个参数、8B 就是 80 亿参数、37B 就是 370 亿参数、70B 就是 700 亿参数,这就破案了,简单吧!聪明的你肯定能猜到,参数越大说明模型越厉害,各方面能力越强。
你可以把大模型想象成仿真的人类大脑,这些"参数"就是神经元之间的连接(突触):
· 训练时:疯狂调整连接强弱,把知识"刻"进去;
· 推理时:电流流过这些连接,输出答案。
理论上讲,连接越多(参数越大),"脑容量"就越大。

🎯 不要小瞧小模型
前面我们说到,理论上参数越大,模型越厉害。打个比方,8B 模型和 70B 模型就好比是小学生和大学教授的区别。但到了 2024 年,情况发生了微妙变化,大模型已经不再卷参数了,而是在一定程度上通过架构优化和数据质量来提升模型性能。
就拿 8B 模型来说,虽然只有 80 亿个"突触",但通过更长的高质量数据训练,这些连接变得极度高效。你让它写 Python 脚本、做会议总结、搞 RAG 检索,反应极快且逻辑严密。在某些特定任务上,性价比可能比超大模型更高。
但是,如果让它写长篇悬疑小说,或者处理复杂的"多步逻辑推理"数学题,可能因"脑容量"限制,在处理极其复杂的任务时表现会有所不足。
所以,对于特定的垂直领域,用高质量数据训练出来的小模型,让它处理特定的任务往往更有性价比。
🧩 什么是 MoE?
参数量大确实能力更强,但是有一个缺点,就是推理时计算资源需求较高。为了解决这个问题,工业界就提出了一种新的神经网络架构——MoE 架构。
什么是 MoE?不讲人话的表述:MoE 全称 Mixture of Experts(混合专家模型),是一种基于 Transformer 的稀疏激活神经网络。它把传统的单一大型神经网络拆分成多个专门的"专家"子网络,每个专家负责处理特定类型的任务或信息。通过"专家分工+智能调度"的方式,让大模型在保持高参数量的同时实现高效计算。
讲人话的表述:MoE 就相当于在大模型里面内置了很多个专家,配置多个专家,包括代码专家、数学专家、文学专家等等。你问一个问题,我只派其中一两个懂行的专家来回答。
MoE 的核心工作原理由两部分组成:
一,专家网络(Experts)。在大模型内部有多个独立的小型神经网络,各自专精不同领域;
二,门控网络(Gating)。就是智能调度器,决定激活哪些专家来处理当前输入。
具体流程是:输入数据先被门控网络分析,然后门控网络根据输入特征选择最合适的 2-3 个专家进行计算,最后将专家的输出加权合并得到最终结果。
MoE 架构在工业界已经得到验证,我们熟悉的 DeepSeek 系列就是采用 MoE 架构实现的。DeepSeek-V3 仅激活 5.5% 的参数就能实现高速响应,而且相比传统全参数模型,训练成本可降低 75% 以上。另外,采用稀疏激活的方式可以降低显存占用,在一定程度上支持在消费级 GPU 上运行更大的模型,这也是 DeepSeek 能大幅降低大模型 API 调用成本的一个核心原因。
除了 DeepSeek,Google 的 GLaM、Switch Transformer 也采用了 MoE 架构,开源的 Mixtral 模型也展示了 MoE 在开源社区的成功实践。这证明了 MoE 在大规模语言建模中的可行性。

⚡ 个人 PC 能跑 70B 模型吗?
你可能会问,自己的个人电脑能跑一跑 70B 模型吗?很遗憾地告诉你:对于大多数用户来说是比较困难的。
我们算一笔硬件账,70B 意味着 700 亿参数,在标准 FP16(半精度)格式下:每个参数占 2 个字节,700亿 × 2 Bytes = 140 GB。这时,你看了一眼你机箱里的 RTX 4090(当前旗舰),它只有 24 GB 显存,就算你配备两张 4090 搞级联,加起来也才 48 GB。
而面对这 140 GB 的庞然大物,你的双卡 4090 可能面临显存不足的挑战。
好,你说我就想在个人 PC 上尝试运行 70B 的模型,有办法吗?有两条路:要么租一台拥有多张高性能GPU的服务器;要么用上量化技术。即便压缩到 4-bit,70B 仍需约 35 GB 显存(700亿 × 0.5字节)。所以,想在本地流畅运行 70B,高配置的GPU级联方案是相对可行的选择。