苏州市网站建设_网站建设公司_CMS_seo优化
2026/1/16 18:26:10 网站建设 项目流程

目录
  • 1️⃣ hidden_size
    • Qwen 系列举例
  • 2️⃣ dtype
  • 3️⃣ 结合公式举例
    • ✅ 总结

KV Cache = max_model_len × batch × hidden_size × 2 × dtype

符号 含义
max_model_len 上下文长度(Token 数)
batch 一次推理请求中同时处理的序列数
hidden_size 模型隐藏层维度(Qwen-14B = 12288)
2 Key + Value,各 1 份
dtype 每个元素占用显存(FP16 = 2 byte, 8-bit = 1 byte, 4-bit ≈ 0.5 byte)

每次 forward 只处理 1 条请求
batch > 1 的优势
-多条请求合并成 batch,一次 forward 同时处理多条请求
-GPU 核心利用率提升 → 吞吐量明显提高
-tradeoff:单条请求延迟略增加,但平均吞吐(QPS)提升

明白,你想搞清楚公式里 hidden_sizedtype 的具体数值。下面详细说明:

1️⃣ hidden_size

hidden_size = 模型隐藏层维度,也就是 Transformer 中 每个 token 表示向量的长度

Qwen 系列举例

模型 hidden_size
Qwen-7B 8192
Qwen-14B 12288
Qwen-32B 20480

对应每个 token 的 embedding / attention 内部维度

所以如果你在用 Qwen-14B

hidden_size = 12288

2️⃣ dtype

dtype = 每个元素在显存中的字节数(Byte),影响 KV Cache 和权重占用

数据类型 说明 Bytes/元素
FP32 全精度 4
FP16 半精度 2
BF16 半精度变体 2
8-bit int / 量化 量化权重 / KV Cache 1
4-bit int / 量化 超低精度 0.5

注意:KV Cache 可以用 FP16 或 8-bit 保存 key/value
8-bit / 4-bit 可以大幅减少显存占用


3️⃣ 结合公式举例

假设:

  • Qwen-14B
  • max_model_len = 2048
  • batch = 4
  • hidden_size = 12288
  • dtype = 8-bit → 1 Byte

公式:

KV Cache = max_model_len × batch × hidden_size × 2 × dtype= 2048 × 4 × 12288 × 2 × 1 byte≈ 201 MB × 2 ?  (大概估算,实际稍大)

2 是因为 Key + Value 各一份

如果改成 FP16:

dtype = 2 bytes
KV Cache ≈ 402 MB

✅ 总结

符号 含义 示例(Qwen-14B)
hidden_size 模型隐藏层维度 12288
dtype 每个元素显存占用 FP16=2B, int8=1B, 4-bit≈0.5B

KV Cache 显存占用和这两个值直接线性相关,上下文长度和 batch 也是线性关系。


需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询