NVIDIA 技术预测聚会 | AI生成和翻译

Home 2026.06

问题: 基于NVIDIA加速计算开发者见面会(深圳,2026年6月13日,与Google Cloud和腾讯联合主办)的议程,预测每个环节在实际技术层面将涵盖哪些内容。

回答:

以下是我逐环节的预测,基于截至2026年6月每个话题的公开信息。

1. NVIDIA × 腾讯:Hy3 Preview推理优化

背景:Hy3 Preview于2026年4月23日发布——一种快/慢思考混合MoE,总参数量295B,激活参数21B,最大上下文256K。他们将反复强调的要点:通过深度模型-框架协同设计实现整体推理效率提升40%,覆盖完整推理栈、内核性能和量化算法。

预计演讲会将那40%分解为:

2. 利用Google Cloud进行AI编码 + Next 26回顾

两个环节,相同素材来源。Next ‘26(4月,拉斯维加斯)发布了260多项公告,聚焦“智能体时代”:Gemini Enterprise Agent Platform和第八代TPU。与编码相关的内容几乎肯定是:

3. SM120推理优化与工作流中的AI智能体

SM120 = 计算能力12.0 = 消费级/工作站Blackwell(RTX 5090、RTX PRO 6000/4000)。这是对你RTX 4070 → Blackwell演进路径最相关的环节。痛点已有充分记录,并将很可能构成演讲的结构:

4. SGLang上下文并行(CP)设计与实现

很可能是最深入的技术演讲。CP将序列维度分片到多个GPU上(与TP分片隐藏/头维度不同),解决两个问题:O(N²)的预填充注意力和KV缓存超过单GPU HBM。预计涵盖:

zigzag技巧的核心逻辑(约10行)——为何头部+尾部块能平衡因果注意力:

# 朴素切分:rank 0获得token [0:N/4],rank 3获得[3N/4:N]
# → rank 3需注意约4倍于rank 0的key(因果掩码)。负载不均衡。
# Zigzag:rank i获得块i AND块(2*CP - 1 - i)
def zigzag_shard(tokens, cp_size):
    chunks = split(tokens, 2 * cp_size)
    return [concat(chunks[i], chunks[2*cp_size - 1 - i]) for i in range(cp_size)]
# rank 0:块(0, 7),rank 3:块(3, 4) → 每个rank看到
# ~平等的因果注意力FLOPs。在rank间环形传递KV块。

元预测

贯穿所有四个环节的联系主线是:智能体推理经济学。智能体工作流(495步Hy3运行、Antigravity多智能体编排)产生长上下文和巨大的KV压力——这正是CP、SM120内核工作和MoE协同设计所解决的问题。如果你参加,SGLang CP演讲是最值得做笔记的;它直接是你的DeepSeek v4 MoE探索的上游,而zigzag/环形注意力设计也清晰地映射到你在nanoGPT规模的训练CP中要实现的内容上。

参考文献:


Back Donate