【AI大模型面试宝典60题】1-5

目录

Q1:仅编码器(BERT 类)、仅解码器(GPT 类)和完整的编码器-解码器架构各有什么优缺点?

1. 编码器架构 (Encoder-only) - 代表:BERT系列

2. 解码器架构 (Decoder-only) - 代表:GPT系列

3. 编码器-解码器架构 (Encoder-Decoder) - 代表:T5、BART

升华与总结 (总)

Q2:自注意力机制如何使大模型能够捕捉长距离依赖关系,它跟 RNN 有什么区别?

面试口述

1.Self-Attention (自注意力) 的方式:全局关联

2.核心区别总结(列表对比)

3. 升华与总结 (总)

Q3:大模型为什么有上下文长度的概念?为什么它是指输入和输出的总长度?

面试口述

1. 为什么有上下文长度的概念?

2. 为什么是输入和输出的总长度?

升华与总结 (总)

Q4:大模型的分词器和传统的中文分词有什么区别?对于指定的词表,一句话是不是只有唯一的分词方式?

面试口述

1. 核心区别(四大不同)

2. 对于指定的词表,一句话是否只有唯一的分词方式?

升华与总结 (总)

类比理解(针对第2问)

Q5:大模型是如何区分聊天历史中用户说的话和 AI 说的话的?



Q1:仅编码器(BERT 类)、仅解码器(GPT 类)和完整的编码器-解码器架构各有什么优缺点?

架构类型 代表模型 优点 缺点 典型任务类型
编码器(BERT) BERT、RoBERTa 双向理解强、表示学习好 不能生成文本 分类、抽取、匹配等
解码器(GPT) GPT、Qwen 擅长生成、支持 prompt 工程 不够理解、生成慢 问答、对话、代码生成
编解码器(T5) T5、BART、mT5 兼顾理解与生成、灵活的输入输出建模 训练推理成本高 翻译、摘要、问答

开场白 (总):

编码器、解码器和编解码器是Transformer模型在NLP领域演进的三种核心架构。它们各有侧重,分别适用于不同的任务类型。

1. 编码器架构 (Encoder-only) - 代表:BERT系列

  • 核心特点双向上下文理解。通过“完形填空”式的预训练任务(MLM),让模型能同时利用一个词左右两边的上下文信息来学习它的深层表示。

  • 优点

    • 强大的上下文表征能力:生成的词向量包含了丰富的上下文信息,非常适用于需要深度理解文本的任务。

    • 任务灵活:通过在预训练模型后添加简单的任务特定层(如一个线性分类层),就能微调用于各种下游任务。

  • 缺点

    • 天生不是生成模型:其架构是“所见即所得”,输入和输出长度必须严格一致,无法自动生成新的文本序列。

  • 典型任务

    • 文本分类(如情感分析)

    • 序列标注(如命名实体识别NER、词性标注)

    • 语义相似度/匹配(如判断两句话是否表达相同意思)

    • 抽取式问答(从一段文本中抽取出答案 span)

一句话总结“编码器就像一个强大的文本理解者和分析者,但它只能处理输入,不能创造新的输出。”


2. 解码器架构 (Decoder-only) - 代表:GPT系列

  • 核心特点自回归生成。通过“下一个词预测”的预训练任务,从左到右逐个生成 token。在训练时使用“因果掩码”(Causal Mask),确保模型在预测第i个词时只能看到它左边的信息,防止信息泄露。

  • 优点

    • 强大的生成能力:天然适合一切需要生成文本的任务,从写文章到写代码。

    • 支持Prompt工程:通过设计不同的输入提示(Prompt),可以 zero-shot 或 few-shot 地引导模型完成五花八门的任务,泛化性极强。

  • 缺点

    • 单向上下文:在理解阶段,由于只能看到左侧上下文,对文本的“理解”深度理论上不如双向的编码器。

    • 推理速度慢:生成时必须一个一个地迭代输出,无法并行,因此比编码器的推理速度慢很多。

  • 典型任务

    • 开放域文本生成(写故事、写邮件)

    • 对话系统(如ChatGPT)

    • 代码生成与补全

    • 通过Prompt实现的各类任务(如分类、翻译,但并非其最初设计主业)

一句话总结“解码器就像一个富有创造力的作家,擅长续写和创造,但它的阅读(理解)方式是逐字逐句的,不够全面。”


3. 编码器-解码器架构 (Encoder-Decoder) - 代表:T5、BART

  • 核心特点序列到序列(Seq2Seq)。结合了前两者的优点。编码器负责双向理解输入序列,将其压缩为一个富含语义的上下文向量(Context Vector);解码器基于这个上下文向量,以自回归的方式生成输出序列。

  • 优点

    • 理解与生成的完美结合:既能够深度理解输入文本,又能够自由地生成输出文本。

    • 输入输出长度灵活:非常适合处理输入和输出长度不一致的任务。

  • 缺点

    • 模型更复杂,成本更高:参数量通常更大,训练和推理的计算开销都是三种架构中最高的。

  • 典型任务

    • 文本摘要(输入长文,输出简短摘要)

    • 机器翻译(输入一种语言,输出另一种语言)

    • 生成式问答(根据问题生成答案,而非抽取)

    • 语义重写(如文本纠错、句子润色)

一句话总结“编解码器就像一个专业的翻译官或总结者,它先通读全文(编码器理解),再用自己的话重新组织输出(解码器生成)。”


升华与总结 (总)

在回答完三点后,可以做一个更高层次的总结,展示你的视野:

“所以,这三种架构的选择本质上是任务需求计算成本之间的权衡。

  • 如果任务纯粹是理解、分析、分类,选编码器,效果最好且高效。

  • 如果任务是开放式的生成,或者希望模型非常灵活,选解码器

  • 如果任务需要先深度理解再创造性输出,即典型的‘序列到序列’问题,那么即使成本高,也值得选择编解码器

另外,值得注意的是,随着像GPT-3/4这样超大规模解码器模型的出现,其强大的涌现能力在一定程度上模糊了这种界限,通过Prompt,一个强大的解码器模型也能很好地完成理解类任务。但从架构设计的本源上来讲,这三者的区别还是非常清晰和重要的。”

#


Q2:自注意力机制如何使大模型能够捕捉长距离依赖关系,它跟 RNN 有什么区别?

自注意力机制允许序列中每个位置直接与所有其他位置交互,通过计算 Query Key 的相似度,对全局信息进行加权聚合。因此,无论依赖关系有多远,都能在一次计算中捕捉到。
相比之下, RNN 是一步步传递信息,远距离依赖需要多步

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/96726.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/96726.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

macOS中找不到钥匙串访问

如果在macOS中找不到钥匙串访问,请操作如下命令: security list-keychains可以看到类似: “/Library/Keychains/System.keychain” 然后执行: open /Library/Keychains/System.keychain然后可以将应用保留在程序坞中保留。

UCOSIII移植——学习笔记1

本文是笔者在学习 正点原子官方 的《【正点原子】手把手教你学UCOS-III实时操作系统》系列视频时整理的笔记。 视频讲解清晰透彻,非常感谢UP主的无私奉献!原课程链接如下: 👉 B站视频链接:【正点原子】手把手教你学UCO…

SpringBootCodeGenerator使用JSqlParser解析DDL CREATE SQL 语句

🧠 使用 JSqlParser 解析 CREATE TABLE SQL 语句详解在数据库开发中,我们常常需要从 SQL 中提取表结构信息,比如字段名、类型、注释等。相比使用正则表达式,JSqlParser 提供了更可靠的方式来解析 SQL 语句,尤其适用于复…

css3新增-网格Grid布局

目录flex弹性布局Gird布局开启网格布局定义网格中的行和列长度值百分比值新单位fr关键字函数minmax(min, max)函数-repeatauto-fill vs auto-fit举例说明grid-template-areasgapgrid-auto-columns和grid-auto-rowsjustify-contentalign-contentjustify-contentalign-contentjus…

最新最强新太极工具3.6 支持Windows和不支持mac电脑,支持免改码,和改码,支持12—18系统

温馨提示:文末有资源获取方式最新最强太极工具3.6支持Windows和Mac计算机,支持无代码更改和代码更改,支持12-18个系统 支持A7-A11芯片、Apple 5s x、iPad A7至A11芯片,支持所有者锁定、激活锁定、无法激活(密码界面和禁…

深入浅出 C++20:新特性与实践

C20 是 C 编程语言的一次重要更新,引入了许多新特性和改进,旨在提升代码的简洁性、安全性和性能。本文将详细介绍 C20 的一些核心特性,并通过示例代码帮助读者理解这些特性的应用场景。C20 新特性总结 以下是 C20 的主要新特性及其简要描述&a…

CSS 属性概述

CSS 属性概述 CSS 属性用于控制 HTML 元素的样式和行为,包括布局、颜色、字体、动画等。以下是常用的 CSS 属性分类及示例: 布局相关属性 display: 控制元素的显示方式,如 block、inline、flex、grid。position: 定义元素的定位方式&#…

--- 统一请求入口 Gateway ---

spring cloud gateway 官方文档 Spring Cloud Gateway 中文文档 什么是api网关 对于微服务的每个接口,我们都需要校验请求的权限是否足够,而微服务把项目细化除了许多个接口,若这些接口都要对服务进行权限校验的话,那么无疑加重…

返利app的消息队列架构:基于RabbitMQ的异步通信与解耦实践

返利app的消息队列架构:基于RabbitMQ的异步通信与解耦实践 大家好,我是阿可,微赚淘客系统及省赚客APP创始人,是个冬天不穿秋裤,天冷也要风度的程序猿! 在返利app的业务流程中,用户下单、返利计算…

Vue3 响应式失效 debug:Proxy 陷阱导致数据更新异常的深度排查

人们眼中的天才之所以卓越非凡,并非天资超人一等而是付出了持续不断的努力。1万小时的锤炼是任何人从平凡变成超凡的必要条件。———— 马尔科姆格拉德威尔 🌟 Hello,我是Xxtaoaooo! 🌈 “代码是逻辑的诗篇&#xff0…

【贪心算法】day10

📝前言说明: 本专栏主要记录本人的贪心算法学习以及LeetCode刷题记录,按专题划分每题主要记录:(1)本人解法 本人屎山代码;(2)优质解法 优质代码;&#xff…

LeetCode算法日记 - Day 42: 岛屿数量、岛屿的最大面积

目录 1. 岛屿数量 1.1 题目解析 1.2 解法 1.3 代码实现 2. 岛屿的最大面积 2.1 题目解析 2.2 解法 2.3 代码实现 1. 岛屿数量 https://leetcode.cn/problems/number-of-islands/ 给你一个由 1(陆地)和 0(水)组成的的二维…

短波红外相机在机器视觉检测方向的应用

短波红外相机在机器视觉检测方向的应用短波红外相机:机器视觉的“低成本突破者”一、打破成本困局:短波红外的“平民化”革新二、核心技术:有机材料的“硬核创新”1. 材料革命:有机感光层的优势2. 工艺兼容:嫁接成熟CM…

【数据结构与算法】图 Floyd算法

相关题目: 1334. 阈值距离内邻居最少的城市 - 力扣(LeetCode) 资料 : Floyd算法原理及公式推导 - 知乎 Floyd 算法是一种经典的动态规划算法,用与求解图中所有顶点之间的最短短路路径。它由Robert Floyd 于1962…

卫星通信天线的指向精度,含义、测量和计算

卫星通信天线的指向精度,含义、测量和计算我们在卫星通信天线的技术规格书中,都会看到天线指向精度这个指标。一般来说,技术规格书上的天线指向精度的参数是这么写的:“天线指向精度≤1/10半功率波束带宽”今天这个文章&#xff0…

基于LSTM与3秒级Tick数据的金融时间序列预测实现

数据加载模块解析 def load_data(filepath):df pd.read_csv(filepath)return df该函数承担基础数据采集职责,通过Pandas库读取CSV格式的高频交易数据(典型如股票分笔成交明细)。输入参数为文件路径字符串,输出结构化DataFrame对象…

C# --- Field and Property

C# --- Field and Property字段 (Field) vs. 属性 (Property)Property的声明初始化方法单例类property错误初始化导致线程泄漏字段 (Field) vs. 属性 (Property) 字段 (Field) - 数据的存储容器 字段是直接在类或结构中声明的变量。它是存储数据的地方,是对象状态的…

【Python】实现一个文件夹快照与比较工具

1. 工具简介 在日常开发、项目管理或备份场景中,我们经常需要知道某个文件夹中的文件是否发生变化,例如: 项目源码是否新增或修改文件?数据集是否被不小心删除或篡改?备份文件夹是否和上次一致? 本教程将教…

LINUX913 shell:set ip [lindex $argv 0],\r,send_user,spawn ssh root@ip “cat “

问题 获取公钥 [codesamba ~]$ cat pub.sh #!/bin/usr/expect set ip "$1" set password 123456 set timeout 20 spawn ssh root192.168.235.100:cat ~/.ssh/id_rsa.pub expect { "yes/no" {send "yes/r";exp_continue} "password:" {…

Acwing算法基础课--链表

一、单链表 AcWing 826. 单链表 代码 N 100010 idx 0 e [0] * N ne [0] * N head -1def init():global idx,headidx 0head -1def add_head(x):global idx,heade[idx] xne[idx] headhead idxidx 1def delete(k):ne[k] ne[ne[k]]def add_k(k,x):global idxe[idx] …