NVIDIA NCP-GENL 认证考试概述 | AI生成和翻译
问题: 提供 NVIDIA NCP-GENL 认证考试的全面介绍,详细涵盖官方考试蓝图的所有主题领域。
答案:
NVIDIA Certified Professional: Generative AI LLMs (NCP-GENL) — 全面学习指南
考试快速概览
| Detail | Info |
|---|---|
| Full Name | NVIDIA Certified Professional — Generative AI LLMs |
| Exam Code | NCP-GENL |
| Level | Professional (not Associate) |
| Cost | $200 USD |
| Duration | 120 minutes |
| Questions | ~60–75 complex questions |
| Format | Remote proctored (Certiverse platform) |
| Validity | 2 years |
| Retake | 14-day wait, up to 5 attempts/year |
考试蓝图 — 所有 10 个主题领域
1. LLM Architecture — 6%
测试内容: 对现代 LLM 内部构建基础理解的考察。您需要知道设计决策为什么被做出,而不仅仅是是什么。
必须掌握的关键概念:
- Transformer architecture — 原始的“Attention Is All You Need”架构:encoder、decoder、encoder-decoder 变体
- Self-attention mechanism — Query (Q)、Key (K)、Value (V) 矩阵;注意力分数如何通过 scaled dot-product attention 计算:
softmax(QKᵀ / √dₖ) · V - Multi-head attention — 为什么使用多个头,每个头学习什么
- Positional encoding — sinusoidal 与 learned positional embeddings;为什么顺序重要,因为 transformer 没有固有的序列顺序
- Layer normalization — Pre-LN 与 Post-LN;为什么它能稳定训练
- Feed-forward layers — 每个 transformer 块中 2 层 MLP 的作用
- KV Cache — 它是什么,为什么对推理效率至关重要;如何以内存换取计算速度
- Context window — 上下文长度、内存和计算之间的关系;RoPE (Rotary Positional Embedding) 如何实现更长的上下文
- Architecture families — GPT-style(仅 decoder,因果)、BERT-style(仅 encoder,双向)、T5-style(encoder-decoder);何时使用每种
- Scaling laws — Chinchilla 定律;模型大小(参数)、数据集大小(token)和计算(FLOPs)之间的关系;最优训练 token 数量 ≈ 20× 参数数量
预期问题示例: “为什么 decoder-only 模型使用 causal masking?”、“KV cache 存储什么,以及何时填充它?”
2. Prompt Engineering — 13%
测试内容: 通过提示技术控制 LLM 行为的实用和高级能力,而无需触及模型权重。
必须掌握的关键概念:
- Zero-shot prompting — 无示例直接提问模型;完全依赖预训练知识
- One-shot / few-shot prompting — 在上下文中提供 1 个或 N 个示例;示例质量和顺序如何影响输出;对示例选择的敏感性
- Chain-of-Thought (CoT) — 添加“think step by step”或显式推理步骤,以在数学/逻辑任务中引出更好答案;Zero-shot CoT 与 manual CoT
- ReAct prompting — 在单个提示框架中结合推理 + 行动(工具调用)
- System prompts — 通过 system role 设置角色、约束、输出格式、安全护栏
- Prompt templates — 用于生产的参数化模板;Jinja2-style 格式在 LangChain/Haystack 中常见
- Output control — 控制 JSON 输出格式,通过 constrained decoding(grammar sampling)实现结构化输出,强制特定 schema
- Domain adaptation via prompting — 无需微调即可注入领域词汇和上下文
- Temperature, top-p, top-k — 控制输出的随机性和多样性;greedy decoding 与 sampling
- Prompt injection and safety — 对抗性提示、越狱尝试,护栏如何检测并阻挡它们
- RAG vs prompting — 何时 retrieval-augmented generation (RAG) 优于上下文中的 few-shot 示例
预期问题示例: “哪种技术对多步算术任务最有效?”、“如何强制倾向于添加前言的模型输出 JSON?”
3. Data Preparation — 9%
测试内容: 为预训练和微调管道准备、清理和管理数据的能力。
必须掌握的关键概念:
- Pretraining data — 网络爬取数据(Common Crawl)、书籍、代码(The Pile、RedPajama、Dolma);质量过滤与数量权衡
- Data cleaning pipeline — 去重(exact-match、MinHash、SimHash)、语言识别、质量评分(perplexity filtering)、PII 移除、有毒内容过滤
- Tokenization — Byte Pair Encoding (BPE)、WordPiece、SentencePiece (Unigram);词汇表大小如何影响模型容量和内存;子词分词原理
- Vocabulary management — 添加领域特定 token;特殊 token(BOS、EOS、PAD、MASK、SEP);处理 out-of-vocabulary (OOV) token
- Fine-tuning data formats — Alpaca 格式(
instruction、input、output)、ShareGPT 格式(多轮对话)、JSONL 文件 - Data quality for fine-tuning — 为什么 1,000 个高质量示例胜过 100,000 个噪声示例;人工标注与合成数据生成
- Dataset imbalance — 分类任务中的类别不平衡处理;上采样/下采样策略
- Synthetic data generation — 使用强 teacher 模型(GPT-4)为较小 student 模型生成训练数据;Self-Instruct 方法论
- Data versioning — DVC (Data Version Control)、Delta Lake;跟踪数据集来源
- Inference data — 批处理策略;dynamic batching;padding 和 truncation 对准确性的影响
预期问题示例: “MinHash 去重在预训练数据中的主要目的是什么?”、“为什么 tokenizer 词汇表大小对多语言模型重要?”
4. Model Optimization — 17% (最高权重)
测试内容: 这是权重最重的领域。您必须知道如何在生产环境中优化模型的推理速度、内存和吞吐量。
必须掌握的关键概念:
Quantization:
- INT8 quantization — 将权重从 FP32/FP16 降至 INT8;内存减少 2 倍,准确性损失最小
- INT4 quantization — 4 位权重;用于边缘/消费级 GPU 部署的激进压缩
- GPTQ — 使用二阶权重更新的后训练量化;LLM 部署最常见
- AWQ (Activation-aware Weight Quantization) — 在量化过程中保护显著权重;在相同位宽下准确性优于 GPTQ
- Quantization-aware training (QAT) 与 post-training quantization (PTQ)
Inference Optimization:
- TensorRT-LLM — NVIDIA 的开源库,用于优化 LLM 推理;kernel fusion、in-flight batching、paged attention
- Paged Attention (vLLM) — 使用虚拟内存分页管理 KV cache 的内存;通过减少 KV cache 碎片大幅提高吞吐量
- Continuous batching — 也称 in-flight batching;允许新请求在中途加入生成,与 static batching 不同
- Speculative decoding — 使用小型 draft 模型提出 token,由大模型并行验证;降低每个 token 延迟
- Flash Attention — 使用 tiling 的内存高效注意力实现;避免实现完整的 O(n²) 注意力矩阵
- Model pruning — structured 与 unstructured pruning;移除冗余权重或注意力头
Serving Infrastructure:
- NVIDIA Triton Inference Server — 多框架模型服务(TensorRT、PyTorch、ONNX、vLLM 后端);dynamic batching、ensemble pipelines、model versioning
- Kubernetes orchestration — 使用 NVIDIA GPU Operator 的水平扩展;管理 GPU 节点池;自动扩展推理 pod
- ONNX — Open Neural Network Exchange 格式;框架无关的模型导出用于部署
预期问题示例: “paged attention 相对于静态 KV cache 分配的主要优势是什么?”、“TensorRT-LLM 的 in-flight batching 解决了 static batching 无法解决的问题是什么?”
5. Fine-Tuning — 13%
测试内容: 高效地将预训练 LLM 适应新任务和领域。
必须掌握的关键概念:
Full Fine-Tuning:
- 更新所有模型权重;需要与预训练相同的 GPU 内存;灾难性遗忘风险
Parameter-Efficient Fine-Tuning (PEFT):
- LoRA (Low-Rank Adaptation) — 在注意力层插入低秩矩阵 A 和 B;仅训练 A 和 B(通常 <1% 参数);推理时合并到基础权重;rank r 控制容量
- QLoRA — 在 4 位量化基础模型上应用 LoRA;可在单个 48GB GPU 上微调 65B 模型
- Adapters — 在 transformer 层之间插入小型 bottleneck 层;仅训练 adapters
- Prefix tuning / Prompt tuning — 在输入前添加可训练虚拟 token;无权重修改
Instruction Tuning:
- 在(instruction, response)对上进行 Supervised Fine-Tuning (SFT);教模型遵循指令
- RLHF (Reinforcement Learning from Human Feedback) — SFT → 奖励模型训练 → PPO 优化;ChatGPT-style 对齐工作原理
- DPO (Direct Preference Optimization) — RLHF 的更简单替代;直接在偏好对上训练,无需单独奖励模型
Training Hyperparameters:
- 学习率调度(warmup + cosine decay);典型微调 LR:1e-5 至 3e-4
- Gradient accumulation — 在有限 GPU 内存上模拟大批量大小
- Gradient checkpointing — 通过在反向传播中重新计算激活,以计算换内存
NVIDIA Tools:
- NeMo Framework — NVIDIA 的 LLM 训练和微调工具包;支持 LoRA、SFT、RLHF 在多 GPU 集群上
- NVIDIA NeMo Curator — 用于准备微调数据集的数据管道工具
预期问题示例: “LoRA 中的 rank 和 alpha 超参数是什么,以及它们如何影响可训练参数?”、“为什么在资源受限环境中首选 QLoRA 而非 full fine-tuning?”
6. Evaluation — 7%
测试内容: 如何在多个维度上严格衡量 LLM 质量。
必须掌握的关键概念:
Automatic Metrics:
- Perplexity — 模型对测试数据的惊讶程度;越低越好;用于语言模型质量
- BLEU score — 生成文本与参考文本的 n-gram 重叠;用于翻译任务
- ROUGE — 召回导向重叠;ROUGE-1、ROUGE-2、ROUGE-L;用于摘要
- BERTScore — 通过 BERT 嵌入的语义相似性;比 n-gram 指标更鲁棒
- Exact Match (EM) / F1 — 用于 QA 任务(SQuAD 基准)
Benchmarks:
- MMLU — Massive Multitask Language Understanding;57 个学术科目;测试通用知识
- HellaSwag — 常识推理
- HumanEval — 代码生成评估(pass@k 指标)
- MT-Bench — 多轮指令遵循,由 GPT-4 作为评判评分
- TruthfulQA — 衡量对常见误解的幻觉倾向
Evaluation Framework Design:
- 保留测试集;污染检测(训练/测试重叠);统计显著性测试
- LLM-as-judge — 使用强模型评分输出;适用于开放任务的成本效益方法
- Human evaluation — 金标准但昂贵;A/B 偏好测试;基于 rubric 的评分
Error Analysis:
- 幻觉检测和分类(事实性、忠实性、可归因性)
- 失败模式分类:重复、拒绝、指令遵循失败
预期问题示例: “为什么 perplexity 不足以作为微调指令模型的唯一评估指标?”、“pass@k 在代码生成评估中衡量什么?”
7. GPU Acceleration and Optimization — 14%
测试内容: 对多 GPU 扩展和硬件级优化的深入理解,用于 LLM 训练和推理。
必须掌握的关键概念:
GPU Memory Architecture:
- A100/H100 上的 HBM (High Bandwidth Memory) 与消费级 GPU 上的 VRAM
- Memory bandwidth vs compute — LLM 推理通常受内存带宽限制,而非计算限制
- NVLink / NVSwitch — 高带宽 GPU 间互连;对 tensor parallelism 至关重要
- A100 SXM(80GB HBM2e,2TB/s 带宽)与 H100 SXM(80GB HBM3,3.35TB/s 带宽)
Parallelism Strategies:
- Data Parallelism (DP) — 在每个 GPU 上复制模型,拆分 batch;通过 AllReduce 梯度同步;适用于模型适合单 GPU 时
- Tensor Parallelism (TP) — 将单个权重矩阵跨 GPU 拆分;需要 NVLink 以高效;Megatron-style column/row splitting
- Pipeline Parallelism (PP) — 将 transformer 层跨 GPU 拆分(stages);micro-batching 隐藏 bubble 开销;GPipe 与 1F1B 调度
- Sequence Parallelism — 对于长上下文模型,将序列长度维度跨 GPU 分布
- 3D Parallelism — 结合 DP + TP + PP;Megatron-DeepSpeed 用于 100B+ 模型
Optimization Libraries:
- DeepSpeed ZeRO — Zero Redundancy Optimizer;ZeRO-1(optimizer state sharding)、ZeRO-2(+gradient sharding)、ZeRO-3(+parameter sharding);启用海量模型训练
- FSDP (Fully Sharded Data Parallel) — PyTorch 原生等价于 ZeRO-3
- NVIDIA Nsight Systems / Nsight Compute — GPU 分析工具;识别计算瓶颈、内存瓶颈、kernel 低效
Mixed Precision Training:
- BF16 / FP16 — 相对于 FP32 内存减少 2 倍;BF16 因更宽指数范围而优于训练稳定性
- Automatic Mixed Precision (AMP) — 维护 FP32 主权重,在 FP16/BF16 中计算;梯度缩放防止下溢
预期问题示例: “何时选择 tensor parallelism 而非 pipeline parallelism?”、“ZeRO-3 分片了 ZeRO-1 未分片的内容是什么?”
8. Model Deployment — 9%
测试内容: LLM 的端到端生产部署管道。
必须掌握的关键概念:
- Containerization — 使用 NVIDIA CUDA 基础镜像的 Docker 镜像;
nvidia-docker运行时;容器注册表(NVIDIA NGC) - NVIDIA Triton Inference Server — REST 和 gRPC 端点;模型仓库结构;ensemble models(预处理 → LLM → 后处理作为一个请求);模型版本
- TensorRT engine files — 编译的、硬件特定的 engine 工件;跨 GPU 代不可移植
- Kubernetes + GPU Operator — NVIDIA GPU Operator 自动化 K8s 集群中的 GPU 驱动/插件安装;pod spec 中的
nvidia.com/gpu资源请求 - Horizontal Pod Autoscaling (HPA) — 基于 GPU 利用率或请求队列深度扩展 Triton pod
- Load balancing — 将推理请求分发到多个模型副本;session affinity 考虑
- Batch inference vs real-time inference — 离线批处理作业(高吞吐量、宽松延迟)与在线服务(低延迟 SLA);不同优化目标
- Model versioning — blue/green 部署;canary 发布;A/B 测试推理端点
- NVIDIA NIM (NVIDIA Inference Microservices) — 预打包、优化的容器,用于部署流行模型(LLaMA、Mistral 等),预配置 Triton + TensorRT-LLM
预期问题示例: “Triton 中 ensemble models 的目的是什么?”、“NVIDIA GPU Operator 如何简化 Kubernetes GPU 集群设置?”
9. Production Monitoring and Reliability — 7%
测试内容: 运营卓越 — 部署后保持 LLM 可靠性能。
必须掌握的关键概念:
- Observability stack — 指标(Prometheus)、仪表板(Grafana)、日志(ELK stack / Loki)、追踪(Jaeger / OpenTelemetry)
- 关键 LLM 监控指标:
- Time to First Token (TTFT) — 直到第一个输出 token 的延迟;用户感知响应性
- Tokens per second (TPS) — 吞吐量指标
- GPU utilization and memory — 低利用率表示批处理低效
- Request queue depth — 容量问题的领先指标
- Data drift / concept drift — 部署后输入分布变化;监控输入 token 分布
- Output quality monitoring — 对实时流量自动质量评分;标记低置信输出
- Anomaly detection — 突发延迟峰值、OOM 错误、意外拒绝率变化
- Root cause analysis — 将异常与模型版本、交通模式、硬件事件关联
- Automated retraining pipelines — 由漂移检测触发;MLOps 平台(MLflow、Kubeflow Pipelines、NVIDIA NeMo)
- Model versioning and rollback — 维护先前模型工件;快速回滚程序
- SLOs/SLAs — 定义 P95/P99 延迟目标;错误预算管理
- Agent benchmarking — 在提升到生产前,将新 agent/模型版本与先前基线比较
预期问题示例: “哪个指标最好表示您的 Triton 服务器批处理不足?”、“LLM 监控中 data drift 和 concept drift 的区别是什么?”
10. Safety, Ethics, and Compliance — 5%
测试内容: LLM 全生命周期的责任 AI 实践。
必须掌握的关键概念:
- Bias detection — 衡量群体间的 demographic parity、equalized odds 和 representation;工具如 AI Fairness 360
- Bias mitigation — 预处理(数据重平衡)、处理中(训练时公平性约束)、后处理(输出校准)
- Guardrails — NVIDIA NeMo Guardrails;定义 topical rails、fact-checking rails、安全 rails;Colang 语言用于定义对话策略
- Constitutional AI / RLHF alignment — Anthropic 的 CAI 和 OpenAI 的 RLHF 技术如何减少有害输出
- Hallucination mitigation — RAG 用于 groundedness;引用生成;置信校准
- PII and data privacy — 清理训练数据;不保留用户提示在日志中;推理日志的 GDPR/CCPA 合规
- Content moderation — 在服务管道中集成 moderation API(OpenAI Moderation API、Perspective API)
- Audit trails — 为合规记录模型输入/输出;不可变审计日志
- Model cards and transparency — 记录预期用途、限制、评估结果
- Red teaming — 专用团队的对抗测试,在部署前发现失败模式
预期问题示例: “NeMo Guardrails 使用什么来定义 topical rails?”、“与微调相比,RAG 如何具体缓解幻觉?”
学习资源
| Resource | What to Use It For |
|---|---|
| NVIDIA NeMo Documentation | Fine-tuning, distributed training, guardrails |
| TensorRT-LLM GitHub | Inference optimization, paged attention, batching |
| NVIDIA Triton Documentation | Deployment, ensemble models, model versions |
| DeepSpeed Documentation | ZeRO optimizer stages, 3D parallelism |
| Hugging Face PEFT Library | LoRA, QLoRA, adapter implementations |
| Andrej Karpathy’s nanoGPT | Transformer architecture from scratch |
| “Attention Is All You Need” paper | Transformer architecture fundamentals |
| LLM Evaluation Harness (EleutherAI) | Benchmark evaluation methodology |
参考资料:
- NVIDIA NCP-GENL Official Exam Page
- NVIDIA TensorRT-LLM GitHub
- NVIDIA NeMo Framework
- NVIDIA Triton Inference Server Docs
- NVIDIA NeMo Guardrails
- DeepSpeed ZeRO Documentation
- NVIDIA GPU Operator for Kubernetes