LLM 常见 50 题.
2025-06-07
精选50个LLM核心面试问题,涵盖关键概念、技术和挑战。 作者:Hao Hoang2025年5月 PDF地址:drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view
-
什么是分词? 将文本分解为令牌,如”artificial”→”art”+“ific”+“ial”。LLM处理令牌数值表示而非原始文本,支持多语言处理和未知词处理。
-
注意力机制如何工作? 通过查询(Q)、键(K)、值(V)向量计算相似度权重,聚焦相关令牌。在”猫追老鼠”中帮助连接”老鼠”与”追”。
-
什么是上下文窗口? LLM一次处理的令牌数量。大窗口(32K令牌)提升连贯性但增加计算成本,需平衡效率与性能。
-
LoRA与QLoRA区别? LoRA通过低秩矩阵实现高效微调;QLoRA在此基础上应用4位量化进一步减少内存,可在单GPU微调70B模型。
-
束搜索vs贪婪解码? 贪婪解码选择最可能词;束搜索保持k个候选序列,平衡概率与多样性,产生更连贯输出。
-
温度参数作用? 控制生成随机性。低温度(0.3)产生保守输出,高温度(1.5)增加创造性,0.8平衡创造性与连贯性。
-
掩码语言建模? 隐藏随机令牌训练模型预测,BERT使用MLM实现双向理解,为下游任务建立语义基础。
-
序列到序列模型? 编码器处理输入,解码器生成输出。应用于机器翻译、文本摘要等可变长度输入输出任务。
-
自回归vs掩码模型? 自回归(GPT)顺序预测擅长生成;掩码(BERT)双向预测适合理解。训练目标决定优势方向。
-
什么是嵌入? 令牌在连续空间的密集向量表示,捕获语义和句法属性。随机初始化或预训练后在任务中微调。
-
下一句预测? 训练模型判断句子连续性,BERT学习50%正向/50%负向句子对分类,提升对话和摘要连贯性。
-
Top-k vs Top-p采样? Top-k从k个最可能令牌采样;Top-p从累积概率达p的令牌采样,更灵活适应不同上下文。
-
提示工程重要性? 设计输入引出期望响应。清晰提示如”100字总结”比模糊指令效果好,在零样本/少样本中特别有效。
-
如何避免灾难性遗忘? 重放(混合新旧数据)、弹性权重合并(保护关键权重)、模块化架构(添加任务模块)。
-
模型蒸馏? 训练小”学生”模型模仿大”教师”模型输出,使用软概率降低计算需求,支持移动设备部署。
-
处理OOV词汇? 使用BPE等子词分词将未知词分解为已知单元,如”cryptocurrency”→”crypto”+“currency”。
-
Transformer vs Seq2Seq? 并行处理(非顺序RNN)、长程依赖捕获、位置编码保持序列顺序,显著提升可扩展性。
-
过拟合缓解? 正则化(L1/L2惩罚)、Dropout(随机禁用神经元)、早停(验证性能平稳时停止)。
-
生成式vs判别式? 生成式(GPT)建模联合概率创建新数据;判别式(BERT分类)建模条件概率区分类别。
-
GPT-4 vs GPT-3? 多模态输入、更大上下文(25K vs 4K令牌)、增强准确性减少事实错误。
-
位置编码? 为Transformer添加序列顺序信息,使用正弦函数或学习向量确保位置相关的正确解释。
-
多头注意力? 将Q、K、V分割到多个子空间,同时关注语法、语义等不同方面,提升复杂模式捕获。
-
Softmax在注意力中应用? 标准化注意力分数为概率分布:softmax(xi) = e^xi / Σj e^xj,确保关注重要令牌。
-
点积在自注意力中作用? 计算Q·K相似度:Score = Q·K/√dk,高分数表示相关性,但O(n²)复杂度促使稀疏研究。
-
交叉熵损失? 衡量预测与真实概率分歧:L = -Σyi log(ŷi),优化模型为正确令牌分配高概率。
-
嵌入梯度计算? 通过链式法则:∂L/∂E = ∂L/∂logits · ∂logits/∂E,调整向量表示优化性能。
-
雅可比矩阵作用? 捕获输出对输入偏导数,在Transformer中计算多维梯度,确保准确参数更新。
-
特征值与降维? 特征向量定义主方向,特征值表示方差。PCA选择高特征值向量降维同时保留主要信息。
-
KL散度? 量化分布差异:DKL(P||Q) = ΣP(x)log P(x)/Q(x),评估模型预测与真实分布匹配度。
-
ReLU导数? f’(x) = {1 if x>0; 0 otherwise},稀疏性和非线性防止梯度消失,计算高效。
-
链式法则在梯度下降中应用? 计算复合函数导数:d/dx f(g(x)) = f’(g(x))·g’(x),实现逐层梯度计算和参数更新。
-
注意力分数计算? Attention(Q,K,V) = softmax(QK^T/√dk)V,缩放点积测量相关性,softmax标准化权重。
-
Gemini优化多模态训练? 统一架构(文本+图像处理)、高级注意力(跨模态稳定性)、数据效率(自监督减少标注需求)。
-
基础模型类型? 语言模型(BERT、GPT)、视觉模型(ResNet)、生成模型(DALL-E)、多模态模型(CLIP)。
-
PEFT如何缓解遗忘? 只更新少量参数,冻结其余权重保留预训练知识。LoRA等技术确保适应新任务不失核心能力。
-
RAG步骤? 检索(获取相关文档)→排序(按相关性)→生成(基于检索内容响应),提升事实准确性。
-
专家混合(MoE)? 门控函数激活特定专家子网络,每次查询仅用10%参数,实现高效大规模计算。
-
思维链(CoT)提示? 引导逐步推理,将复杂问题分解为逻辑步骤,提升数学推理和复杂任务准确性。
-
判别式vs生成式AI? 判别式预测标签建模条件概率;生成式创建新数据建模联合概率,前者专于分类后者擅长创作。
-
知识图谱集成? 提供结构化事实数据:减少幻觉(验证事实)、改善推理(实体关系)、增强上下文。
-
零样本学习? 无任务特定数据直接推理,如”分类评论情感”,展示预训练知识的通用性。
-
自适应Softmax? 按词频分组减少稀有词计算,降低大词汇表成本,加速训练推理,适合资源受限环境。
-
Transformer解决梯度消失? 自注意力(避免顺序依赖)、残差连接(直接梯度流)、层归一化(稳定更新)。
-
少样本学习? 用最少例子执行任务,利用预训练知识。减少数据需求、快速适应、成本效益。
-
修复偏见输出? 分析偏见源→使用平衡数据集和去偏技术→对抗训练或策划数据微调。
-
编码器vs解码器? 编码器处理输入为抽象表示;解码器生成输出。翻译中编码器理解源语言,解码器产生目标语言。
-
LLM vs传统统计模型? Transformer架构、大规模数据、无监督预训练 vs 简单监督方法(N-gram)。处理长程依赖和上下文嵌入。
-
超参数重要性? 学习率、批量大小等控制训练。高学习率可能不稳定,需调参优化效率和准确性。
-
LLM定义? 在大量文本训练的AI系统,数十亿参数,擅长翻译、摘要、问答,利用上下文学习广泛适用。
-
部署挑战? 资源密集(高计算需求)、偏见
原文地址:https://ningg.top/ai-series-common-questions-202505/