机器学习、深度学习与GPT

机器学习、深度学习与GPT | 原创，AI翻译

Home 2025.01

机器学习（ML）是计算机科学的一个领域，使系统能够从数据中学习并在无需显式编程的情况下提升性能。
深度学习（DL）是机器学习的一个子领域，利用多层神经网络对数据中的复杂模式进行建模。
神经网络是受人类大脑启发的计算模型，由相互连接的节点（神经元）组成，通过分层处理信息。
训练数据是用于教导机器学习模型执行任务的带标签或无标签数据集。
监督学习通过带标签数据训练模型，每个样本都包含输入和对应的正确输出。
无监督学习使用无标签数据，让模型在没有明确指导的情况下发现隐藏模式或分组。
强化学习（RL）通过奖励期望行为和惩罚不良行为来训练智能体做出决策。
生成模型学习生成与训练样本相似的新数据（如文本、图像）。
判别模型专注于将输入分类到不同类别或预测特定结果。
迁移学习允许在一个任务上训练的模型被重复使用或针对相关任务进行微调。
GPT（生成式预训练变换器）是OpenAI开发的大型语言模型系列，能够生成类人文本。
ChatGPT是GPT的交互式变体，针对对话和指令跟随任务进行了微调。
变换器架构在论文《Attention Is All You Need》中提出，通过依赖注意力机制彻底改变了自然语言处理。
自注意力机制让模型在构建输出表示时权衡输入序列的不同部分。
变换器中的位置编码帮助模型识别序列中标记的顺序。
预训练是初始阶段，模型从大规模数据中学习通用特征，之后针对特定任务进行微调。
微调是使用较小的任务特定数据集，将预训练模型适配到更具体任务的过程。
语言建模是预测序列中下一个标记（词或子词）的任务，是GPT类模型的基础。
零样本学习让模型无需显式训练样本就能处理任务，依赖学到的通用知识。
少样本学习利用有限数量的任务特定样本来指导模型预测或行为。
RLHF（基于人类反馈的强化学习）用于将模型输出与人类偏好和价值观对齐。
人类反馈可以包括排名或标签，引导模型生成更符合期望的响应。
提示工程是精心设计输入查询或指令以有效引导大型语言模型的艺术。
上下文窗口指模型一次能处理的最大文本量；GPT模型的上下文长度有限。
推理是训练好的模型根据新输入进行预测或生成输出的阶段。
参数数量是模型能力的关键因素；更大的模型能捕捉更复杂的模式，但需要更多计算。
模型压缩技术（如剪枝、量化）以最小精度损失减小模型大小并加速推理。
变换器中的注意力头并行处理输入的不同方面，提高表示能力。
掩码语言建模（如BERT中）涉及预测句子中缺失的标记，帮助模型学习上下文。
因果语言建模（如GPT中）基于所有先前的标记预测下一个标记。
编码器-解码器架构（如T5）使用一个网络编码输入，另一个网络将其解码为目标序列。
卷积神经网络（CNN）通过卷积层擅长处理网格状数据（如图像）。
循环神经网络（RNN）通过沿时间步传递隐藏状态处理序列数据，但可能难以处理长期依赖。
长短期记忆（LSTM）和门控循环单元（GRU）是RNN变体，旨在更好地捕捉长程依赖。
批量归一化通过归一化中间层输出帮助稳定训练。
Dropout是一种正则化技术，在训练中随机“丢弃”神经元以防止过拟合。
优化器算法如随机梯度下降（SGD）、Adam和RMSProp基于梯度更新模型参数。
学习率是超参数，决定训练中权重更新的幅度。
超参数（如批量大小、层数）是训练前选择的配置设置，控制学习过程。
模型过拟合发生在模型过于拟合训练数据，无法泛化到新数据时。
正则化技术（如L2权重衰减、dropout）帮助减少过拟合并提高泛化能力。
验证集用于调整超参数，而测试集评估模型的最终性能。
交叉验证将数据分成多个子集，系统地进行训练和验证以获得更稳健的性能估计。
梯度爆炸和消失问题出现在深度网络中，导致训练不稳定或无效。
残差连接（如ResNet中的跳跃连接）通过捷径数据路径帮助缓解梯度消失。
缩放定律表明，增加模型大小和数据通常能带来更好的性能。
计算效率至关重要；训练大模型需要优化的硬件（GPU、TPU）和算法。
伦理考量包括偏见、公平性和潜在危害——必须仔细测试和监控ML模型。
数据增强人为扩展训练数据集以提高模型鲁棒性（尤其在图像和语音任务中）。
数据预处理（如标记化、归一化）对有效的模型训练至关重要。
标记化将文本拆分为标记（词或子词），这是语言模型处理的基本单位。
向量嵌入将标记或概念表示为数值向量，保留语义关系。
位置嵌入添加每个标记的位置信息，帮助变换器理解序列顺序。
注意力权重揭示模型如何在输入的不同部分分配注意力。
束搜索是语言模型中的一种解码策略，每一步保留多个候选输出以找到最佳整体序列。
贪婪搜索每一步选择最可能的标记，但可能导致次优的最终输出。
采样中的温度调整语言生成的创造性：温度越高，随机性越大。
Top-k和Top-p（核）采样方法将候选标记限制为前k个最可能或累积概率p，平衡多样性和连贯性。
困惑度衡量概率模型预测样本的效果；较低的困惑度表示更好的预测性能。
精确率和召回率是分类任务的指标，分别关注正确性和完整性。
F1分数是精确率和召回率的调和平均数，将两个指标平衡为单一值。
准确率是正确预测的比例，但在不平衡数据集中可能具有误导性。
ROC曲线下面积（AUC）衡量分类器在不同阈值下的性能。
混淆矩阵显示真正例、假正例、假反例和真反例的数量。
不确定性估计方法（如蒙特卡洛Dropout）评估模型对其预测的置信度。
主动学习涉及查询模型最不确定的新数据样本，提高数据效率。
在线学习在新数据到达时逐步更新模型，而不是从头重新训练。
进化算法和遗传算法使用生物启发的突变和选择优化模型或超参数。
贝叶斯方法结合先验知识并用新数据更新信念，适用于不确定性量化。
集成方法（如随机森林、梯度提升）结合多个模型以提高性能和稳定性。
袋装法（自助聚合）在不同数据子集上训练多个模型，然后平均它们的预测。
提升法迭代训练新模型以纠正先前训练模型的错误。
梯度提升决策树（GBDT）对结构化数据非常强大，通常优于简单神经网络。
自回归模型基于序列中先前的输出预测下一个值（或标记）。
自编码器是一种神经网络，设计用于将数据编码为潜在表示然后解码回去，学习压缩的数据表示。
变分自编码器（VAE）引入概率扭曲，生成与训练集相似的新数据。
生成对抗网络（GAN）让生成器与判别器对抗，生成逼真的图像、文本或其他数据。
自监督学习通过创建人工训练任务（如预测缺失部分）利用大量无标签数据。
基础模型是大型预训练模型，可以适配到广泛的下游任务。
多模态学习整合来自多个来源的数据（如文本、图像、音频）以创建更丰富的表示。
数据标注通常是ML中最耗时的部分，需要仔细注释以确保准确性。
边缘计算将ML推理更靠近数据源，减少延迟和带宽使用。
联邦学习在持有本地数据样本的去中心化设备或服务器上训练模型，而无需交换它们。
隐私保护ML包括差分隐私和同态加密等技术，以保护敏感数据。
可解释AI（XAI）旨在使复杂模型的决策更易于人类理解。
ML中的偏见和公平性需要仔细监督，因为模型可能无意中学习并放大社会偏见。
概念漂移发生在目标变量的统计属性随时间变化时，影响模型性能。
AB测试比较两个或多个模型版本，看哪个在真实环境中表现更好。
GPU加速利用显卡的并行计算大幅加速ML训练。
TPU（张量处理单元）是Google专为高效深度学习工作负载设计的专用硬件加速器。
开源框架（如TensorFlow、PyTorch）为ML模型开发提供构建块和工具。
模型服务是部署训练好的模型以处理实时或批量预测的实践。
可扩展性对处理大型数据集或高流量至关重要，需要分布式训练和推理策略。
MLOps将ML开发与运维实践结合，专注于可重复性、测试和持续集成。
数据和模型的版本控制确保一致的实验跟踪和协作。
部署策略（如容器、微服务）组织模型的打包和大规模服务方式。
监控跟踪模型部署后的性能，注意性能下降或异常。
重新训练和模型更新在新数据和变化条件出现时保持模型最新。
时间复杂度（O表示法）衡量算法运行时间随输入大小的缩放方式；O(1)表示常数时间。
ML的未来承诺越来越复杂和通用的模型，但必须解决伦理、社会和环境考量。

Back Donate