NVIDIA NCP-GENL 认证考试概述

NVIDIA NCP-GENL 认证考试概述 | AI生成和翻译

Home 2026.03

问题： 提供 NVIDIA NCP-GENL 认证考试的全面介绍，详细涵盖官方考试蓝图的所有主题领域。

答案：

NVIDIA Certified Professional: Generative AI LLMs (NCP-GENL) — 全面学习指南

考试快速概览

Detail	Info
Full Name	NVIDIA Certified Professional — Generative AI LLMs
Exam Code	NCP-GENL
Level	Professional (not Associate)
Cost	$200 USD
Duration	120 minutes
Questions	~60–75 complex questions
Format	Remote proctored (Certiverse platform)
Validity	2 years
Retake	14-day wait, up to 5 attempts/year

考试蓝图 — 所有 10 个主题领域

1. LLM Architecture — 6%

测试内容： 对现代 LLM 内部构建基础理解的考察。您需要知道设计决策为什么被做出，而不仅仅是是什么。

必须掌握的关键概念：

Transformer architecture — 原始的“Attention Is All You Need”架构：encoder、decoder、encoder-decoder 变体
Self-attention mechanism — Query (Q)、Key (K)、Value (V) 矩阵；注意力分数如何通过 scaled dot-product attention 计算：softmax(QKᵀ / √dₖ) · V
Multi-head attention — 为什么使用多个头，每个头学习什么
Positional encoding — sinusoidal 与 learned positional embeddings；为什么顺序重要，因为 transformer 没有固有的序列顺序
Layer normalization — Pre-LN 与 Post-LN；为什么它能稳定训练
Feed-forward layers — 每个 transformer 块中 2 层 MLP 的作用
KV Cache — 它是什么，为什么对推理效率至关重要；如何以内存换取计算速度
Context window — 上下文长度、内存和计算之间的关系；RoPE (Rotary Positional Embedding) 如何实现更长的上下文
Architecture families — GPT-style（仅 decoder，因果）、BERT-style（仅 encoder，双向）、T5-style（encoder-decoder）；何时使用每种
Scaling laws — Chinchilla 定律；模型大小（参数）、数据集大小（token）和计算（FLOPs）之间的关系；最优训练 token 数量 ≈ 20× 参数数量

预期问题示例： “为什么 decoder-only 模型使用 causal masking？”、“KV cache 存储什么，以及何时填充它？”

2. Prompt Engineering — 13%

测试内容： 通过提示技术控制 LLM 行为的实用和高级能力，而无需触及模型权重。

必须掌握的关键概念：

Zero-shot prompting — 无示例直接提问模型；完全依赖预训练知识
One-shot / few-shot prompting — 在上下文中提供 1 个或 N 个示例；示例质量和顺序如何影响输出；对示例选择的敏感性
Chain-of-Thought (CoT) — 添加“think step by step”或显式推理步骤，以在数学/逻辑任务中引出更好答案；Zero-shot CoT 与 manual CoT
ReAct prompting — 在单个提示框架中结合推理 + 行动（工具调用）
System prompts — 通过 system role 设置角色、约束、输出格式、安全护栏
Prompt templates — 用于生产的参数化模板；Jinja2-style 格式在 LangChain/Haystack 中常见
Output control — 控制 JSON 输出格式，通过 constrained decoding（grammar sampling）实现结构化输出，强制特定 schema
Domain adaptation via prompting — 无需微调即可注入领域词汇和上下文
Temperature, top-p, top-k — 控制输出的随机性和多样性；greedy decoding 与 sampling
Prompt injection and safety — 对抗性提示、越狱尝试，护栏如何检测并阻挡它们
RAG vs prompting — 何时 retrieval-augmented generation (RAG) 优于上下文中的 few-shot 示例

预期问题示例： “哪种技术对多步算术任务最有效？”、“如何强制倾向于添加前言的模型输出 JSON？”

3. Data Preparation — 9%

测试内容： 为预训练和微调管道准备、清理和管理数据的能力。

必须掌握的关键概念：

Pretraining data — 网络爬取数据（Common Crawl）、书籍、代码（The Pile、RedPajama、Dolma）；质量过滤与数量权衡
Data cleaning pipeline — 去重（exact-match、MinHash、SimHash）、语言识别、质量评分（perplexity filtering）、PII 移除、有毒内容过滤
Tokenization — Byte Pair Encoding (BPE)、WordPiece、SentencePiece (Unigram)；词汇表大小如何影响模型容量和内存；子词分词原理
Vocabulary management — 添加领域特定 token；特殊 token（BOS、EOS、PAD、MASK、SEP）；处理 out-of-vocabulary (OOV) token
Fine-tuning data formats — Alpaca 格式（instruction、input、output）、ShareGPT 格式（多轮对话）、JSONL 文件
Data quality for fine-tuning — 为什么 1,000 个高质量示例胜过 100,000 个噪声示例；人工标注与合成数据生成
Dataset imbalance — 分类任务中的类别不平衡处理；上采样/下采样策略
Synthetic data generation — 使用强 teacher 模型（GPT-4）为较小 student 模型生成训练数据；Self-Instruct 方法论
Data versioning — DVC (Data Version Control)、Delta Lake；跟踪数据集来源
Inference data — 批处理策略；dynamic batching；padding 和 truncation 对准确性的影响

预期问题示例： “MinHash 去重在预训练数据中的主要目的是什么？”、“为什么 tokenizer 词汇表大小对多语言模型重要？”

4. Model Optimization — 17% (最高权重)

测试内容： 这是权重最重的领域。您必须知道如何在生产环境中优化模型的推理速度、内存和吞吐量。

必须掌握的关键概念：

Quantization：

INT8 quantization — 将权重从 FP32/FP16 降至 INT8；内存减少 2 倍，准确性损失最小
INT4 quantization — 4 位权重；用于边缘/消费级 GPU 部署的激进压缩
GPTQ — 使用二阶权重更新的后训练量化；LLM 部署最常见
AWQ (Activation-aware Weight Quantization) — 在量化过程中保护显著权重；在相同位宽下准确性优于 GPTQ
Quantization-aware training (QAT) 与 post-training quantization (PTQ)

Inference Optimization：

TensorRT-LLM — NVIDIA 的开源库，用于优化 LLM 推理；kernel fusion、in-flight batching、paged attention
Paged Attention (vLLM) — 使用虚拟内存分页管理 KV cache 的内存；通过减少 KV cache 碎片大幅提高吞吐量
Continuous batching — 也称 in-flight batching；允许新请求在中途加入生成，与 static batching 不同
Speculative decoding — 使用小型 draft 模型提出 token，由大模型并行验证；降低每个 token 延迟
Flash Attention — 使用 tiling 的内存高效注意力实现；避免实现完整的 O(n²) 注意力矩阵
Model pruning — structured 与 unstructured pruning；移除冗余权重或注意力头

Serving Infrastructure：

NVIDIA Triton Inference Server — 多框架模型服务（TensorRT、PyTorch、ONNX、vLLM 后端）；dynamic batching、ensemble pipelines、model versioning
Kubernetes orchestration — 使用 NVIDIA GPU Operator 的水平扩展；管理 GPU 节点池；自动扩展推理 pod
ONNX — Open Neural Network Exchange 格式；框架无关的模型导出用于部署

预期问题示例： “paged attention 相对于静态 KV cache 分配的主要优势是什么？”、“TensorRT-LLM 的 in-flight batching 解决了 static batching 无法解决的问题是什么？”

5. Fine-Tuning — 13%

测试内容： 高效地将预训练 LLM 适应新任务和领域。

必须掌握的关键概念：

Full Fine-Tuning：

更新所有模型权重；需要与预训练相同的 GPU 内存；灾难性遗忘风险

Parameter-Efficient Fine-Tuning (PEFT)：

LoRA (Low-Rank Adaptation) — 在注意力层插入低秩矩阵 A 和 B；仅训练 A 和 B（通常 <1% 参数）；推理时合并到基础权重；rank r 控制容量
QLoRA — 在 4 位量化基础模型上应用 LoRA；可在单个 48GB GPU 上微调 65B 模型
Adapters — 在 transformer 层之间插入小型 bottleneck 层；仅训练 adapters
Prefix tuning / Prompt tuning — 在输入前添加可训练虚拟 token；无权重修改

Instruction Tuning：

在（instruction, response）对上进行 Supervised Fine-Tuning (SFT)；教模型遵循指令
RLHF (Reinforcement Learning from Human Feedback) — SFT → 奖励模型训练 → PPO 优化；ChatGPT-style 对齐工作原理
DPO (Direct Preference Optimization) — RLHF 的更简单替代；直接在偏好对上训练，无需单独奖励模型

Training Hyperparameters：

学习率调度（warmup + cosine decay）；典型微调 LR：1e-5 至 3e-4
Gradient accumulation — 在有限 GPU 内存上模拟大批量大小
Gradient checkpointing — 通过在反向传播中重新计算激活，以计算换内存

NVIDIA Tools：

NeMo Framework — NVIDIA 的 LLM 训练和微调工具包；支持 LoRA、SFT、RLHF 在多 GPU 集群上
NVIDIA NeMo Curator — 用于准备微调数据集的数据管道工具

预期问题示例： “LoRA 中的 rank 和 alpha 超参数是什么，以及它们如何影响可训练参数？”、“为什么在资源受限环境中首选 QLoRA 而非 full fine-tuning？”

6. Evaluation — 7%

测试内容： 如何在多个维度上严格衡量 LLM 质量。

必须掌握的关键概念：

Automatic Metrics：

Perplexity — 模型对测试数据的惊讶程度；越低越好；用于语言模型质量
BLEU score — 生成文本与参考文本的 n-gram 重叠；用于翻译任务
ROUGE — 召回导向重叠；ROUGE-1、ROUGE-2、ROUGE-L；用于摘要
BERTScore — 通过 BERT 嵌入的语义相似性；比 n-gram 指标更鲁棒
Exact Match (EM) / F1 — 用于 QA 任务（SQuAD 基准）

Benchmarks：

MMLU — Massive Multitask Language Understanding；57 个学术科目；测试通用知识
HellaSwag — 常识推理
HumanEval — 代码生成评估（pass@k 指标）
MT-Bench — 多轮指令遵循，由 GPT-4 作为评判评分
TruthfulQA — 衡量对常见误解的幻觉倾向

Evaluation Framework Design：

保留测试集；污染检测（训练/测试重叠）；统计显著性测试
LLM-as-judge — 使用强模型评分输出；适用于开放任务的成本效益方法
Human evaluation — 金标准但昂贵；A/B 偏好测试；基于 rubric 的评分

Error Analysis：

幻觉检测和分类（事实性、忠实性、可归因性）
失败模式分类：重复、拒绝、指令遵循失败

预期问题示例： “为什么 perplexity 不足以作为微调指令模型的唯一评估指标？”、“pass@k 在代码生成评估中衡量什么？”

7. GPU Acceleration and Optimization — 14%

测试内容： 对多 GPU 扩展和硬件级优化的深入理解，用于 LLM 训练和推理。

必须掌握的关键概念：

GPU Memory Architecture：

A100/H100 上的 HBM (High Bandwidth Memory) 与消费级 GPU 上的 VRAM
Memory bandwidth vs compute — LLM 推理通常受内存带宽限制，而非计算限制
NVLink / NVSwitch — 高带宽 GPU 间互连；对 tensor parallelism 至关重要
A100 SXM（80GB HBM2e，2TB/s 带宽）与 H100 SXM（80GB HBM3，3.35TB/s 带宽）

Parallelism Strategies：

Data Parallelism (DP) — 在每个 GPU 上复制模型，拆分 batch；通过 AllReduce 梯度同步；适用于模型适合单 GPU 时
Tensor Parallelism (TP) — 将单个权重矩阵跨 GPU 拆分；需要 NVLink 以高效；Megatron-style column/row splitting
Pipeline Parallelism (PP) — 将 transformer 层跨 GPU 拆分（stages）；micro-batching 隐藏 bubble 开销；GPipe 与 1F1B 调度
Sequence Parallelism — 对于长上下文模型，将序列长度维度跨 GPU 分布
3D Parallelism — 结合 DP + TP + PP；Megatron-DeepSpeed 用于 100B+ 模型

Optimization Libraries：

DeepSpeed ZeRO — Zero Redundancy Optimizer；ZeRO-1（optimizer state sharding）、ZeRO-2（+gradient sharding）、ZeRO-3（+parameter sharding）；启用海量模型训练
FSDP (Fully Sharded Data Parallel) — PyTorch 原生等价于 ZeRO-3
NVIDIA Nsight Systems / Nsight Compute — GPU 分析工具；识别计算瓶颈、内存瓶颈、kernel 低效

Mixed Precision Training：

BF16 / FP16 — 相对于 FP32 内存减少 2 倍；BF16 因更宽指数范围而优于训练稳定性
Automatic Mixed Precision (AMP) — 维护 FP32 主权重，在 FP16/BF16 中计算；梯度缩放防止下溢

预期问题示例： “何时选择 tensor parallelism 而非 pipeline parallelism？”、“ZeRO-3 分片了 ZeRO-1 未分片的内容是什么？”

8. Model Deployment — 9%

测试内容： LLM 的端到端生产部署管道。

必须掌握的关键概念：

Containerization — 使用 NVIDIA CUDA 基础镜像的 Docker 镜像；nvidia-docker 运行时；容器注册表（NVIDIA NGC）
NVIDIA Triton Inference Server — REST 和 gRPC 端点；模型仓库结构；ensemble models（预处理 → LLM → 后处理作为一个请求）；模型版本
TensorRT engine files — 编译的、硬件特定的 engine 工件；跨 GPU 代不可移植
Kubernetes + GPU Operator — NVIDIA GPU Operator 自动化 K8s 集群中的 GPU 驱动/插件安装；pod spec 中的 nvidia.com/gpu 资源请求
Horizontal Pod Autoscaling (HPA) — 基于 GPU 利用率或请求队列深度扩展 Triton pod
Load balancing — 将推理请求分发到多个模型副本；session affinity 考虑
Batch inference vs real-time inference — 离线批处理作业（高吞吐量、宽松延迟）与在线服务（低延迟 SLA）；不同优化目标
Model versioning — blue/green 部署；canary 发布；A/B 测试推理端点
NVIDIA NIM (NVIDIA Inference Microservices) — 预打包、优化的容器，用于部署流行模型（LLaMA、Mistral 等），预配置 Triton + TensorRT-LLM

预期问题示例： “Triton 中 ensemble models 的目的是什么？”、“NVIDIA GPU Operator 如何简化 Kubernetes GPU 集群设置？”

9. Production Monitoring and Reliability — 7%

测试内容： 运营卓越 — 部署后保持 LLM 可靠性能。

必须掌握的关键概念：

Observability stack — 指标（Prometheus）、仪表板（Grafana）、日志（ELK stack / Loki）、追踪（Jaeger / OpenTelemetry）
关键 LLM 监控指标：
- Time to First Token (TTFT) — 直到第一个输出 token 的延迟；用户感知响应性
- Tokens per second (TPS) — 吞吐量指标
- GPU utilization and memory — 低利用率表示批处理低效
- Request queue depth — 容量问题的领先指标
Data drift / concept drift — 部署后输入分布变化；监控输入 token 分布
Output quality monitoring — 对实时流量自动质量评分；标记低置信输出
Anomaly detection — 突发延迟峰值、OOM 错误、意外拒绝率变化
Root cause analysis — 将异常与模型版本、交通模式、硬件事件关联
Automated retraining pipelines — 由漂移检测触发；MLOps 平台（MLflow、Kubeflow Pipelines、NVIDIA NeMo）
Model versioning and rollback — 维护先前模型工件；快速回滚程序
SLOs/SLAs — 定义 P95/P99 延迟目标；错误预算管理
Agent benchmarking — 在提升到生产前，将新 agent/模型版本与先前基线比较

预期问题示例： “哪个指标最好表示您的 Triton 服务器批处理不足？”、“LLM 监控中 data drift 和 concept drift 的区别是什么？”

10. Safety, Ethics, and Compliance — 5%

测试内容： LLM 全生命周期的责任 AI 实践。

必须掌握的关键概念：

Bias detection — 衡量群体间的 demographic parity、equalized odds 和 representation；工具如 AI Fairness 360
Bias mitigation — 预处理（数据重平衡）、处理中（训练时公平性约束）、后处理（输出校准）
Guardrails — NVIDIA NeMo Guardrails；定义 topical rails、fact-checking rails、安全 rails；Colang 语言用于定义对话策略
Constitutional AI / RLHF alignment — Anthropic 的 CAI 和 OpenAI 的 RLHF 技术如何减少有害输出
Hallucination mitigation — RAG 用于 groundedness；引用生成；置信校准
PII and data privacy — 清理训练数据；不保留用户提示在日志中；推理日志的 GDPR/CCPA 合规
Content moderation — 在服务管道中集成 moderation API（OpenAI Moderation API、Perspective API）
Audit trails — 为合规记录模型输入/输出；不可变审计日志
Model cards and transparency — 记录预期用途、限制、评估结果
Red teaming — 专用团队的对抗测试，在部署前发现失败模式

预期问题示例： “NeMo Guardrails 使用什么来定义 topical rails？”、“与微调相比，RAG 如何具体缓解幻觉？”

学习资源

Resource	What to Use It For
NVIDIA NeMo Documentation	Fine-tuning, distributed training, guardrails
TensorRT-LLM GitHub	Inference optimization, paged attention, batching
NVIDIA Triton Documentation	Deployment, ensemble models, model versions
DeepSpeed Documentation	ZeRO optimizer stages, 3D parallelism
Hugging Face PEFT Library	LoRA, QLoRA, adapter implementations
Andrej Karpathy’s nanoGPT	Transformer architecture from scratch
“Attention Is All You Need” paper	Transformer architecture fundamentals
LLM Evaluation Harness (EleutherAI)	Benchmark evaluation methodology

参考资料：

Back Donate