LLM 中评价指标与训练概要介绍

在【LLM】LLM 中增量解码与模型推理解读一文中对 LLM 常见名词进行了介绍,本文会对 LLM 中评价指标与训练概要进行介绍,本文并未介绍训练实操细节,未来有机会再了解~

一、LLM 如何停止输出

在看 LLM 评价指标前,先看看 LLM 如何停止输出。

大模型常通过以下几种策略控制生成终止:

  1. 结束符号(EOS Token)

模型生成特殊终止符(如 DeepSeek R1 MoE 中 ID 为 1 的 token)表示回答完成。

...在物理学领域做出了革命性贡献。[EOS]  
  1. 最大长度限制 预设生成 token 上限(常见值:512/1024/2048),防止无限生成,保障系统资源安全。
  2. 停止词 / 序列触发 设置 “\n\n”“###” 等符号为停止信号,强制结束生成(适用于格式控制)。
  3. 内容智能判断
    1. 重复检测:识别循环或冗余内容时自动终止。
    2. 语义完整性:当回答覆盖查询所有维度(如时间、影响)时停止。

停止机制建议组合使用(如 EOS + 最大长度),确保生成既完整又可控。

综合来看,Decode 阶段的循环机制是大模型实现长文本生成的核心:

  • 效率优化:通过 KV 缓存复用大幅降低计算成本;
  • 可控生成:多维度停止策略平衡输出质量与资源消耗;
  • 语义连贯:自回归模式确保上下文逻辑衔接紧密。

二、LLM 评价指标

常见 LLM 评价指标如下:

Description

三、LLM 训练概要

本节主要参考: https://zhuanlan.zhihu.com/p/719730442 https://zhuanlan.zhihu.com/p/1912101103086043526

  1. 数据准备:喂给模型“知识”
    • 收集数据:从互联网、书籍、论文等获取海量文本(如英文维基百科+书籍+网页)。
    • 清洗数据:过滤垃圾、重复内容、有害信息,保留高质量文本。
    • 分词(Tokenization):把文本拆成“词语片段”(如用 Byte-Pair Encoding 或 SentencePiece)。
  2. 模型设计:搭建“大脑”结构
    • 选择架构:通常用 Transformer 解码器堆叠(如 GPT 系列)。
    • 确定参数量:比如 70 亿、150 亿参数(参数越多,模型越强,但计算成本越高)。
  3. 预训练(Pre-training):自主学习语言规律
    • 任务目标:通过自监督学习预测文本中的缺失部分(如遮蔽语言建模,Masked Language Modeling)
      • 自回归(AutoRegressive):根据上文预测下一个词(如 GPT 系列)。
      • 掩码预测(Masked Modeling):随机遮蔽部分词,让模型填补空缺(如 BERT)。
    • 训练方法:
      • 输入一段文本 → 模型预测下一个词 → 计算损失(预测误差) → 反向传播更新参数。
      • 重复数万亿次(用 GPU/TPU 集群加速),直到模型学会语言规律。
  4. 微调(Fine-tuning):定向优化能力 场景化训练:用特定任务的数据(如客服对话、医疗问答)进一步优化模型。
    • 监督微调(SFT):人工标注的高质量问答对,教模型生成更准确的回答。
    • 强化学习(RLHF):让人类对模型输出打分,通过奖励机制优化(如 ChatGPT 的训练方法)。
  5. 评估与部署:测试和落地
    • 评估指标:用困惑度(Perplexity)、准确率等指标测试模型性能。
    • 部署上线:压缩模型(如量化、剪枝),部署到服务器供用户调用。

四、LLM 中学习策略

在上面的训练过程中,提到了“自监督学习"、"强化学习”这几个概念。这些都属于大模型训练过程中的学习策略或者叫学习范式,以下是对不同学习策略的总结和对比:

Description

  • 监督学习的标签是人工标注的,这是 CNN 这些架构训练模型或算法很常见的方法。标注的意思就是我们喂给模型的数据会被人工提前标注出特征点,比如我们会给很多图片中的汽车做出标记,目的是告诉大模型我们打标签的这些图形就是汽车,让大模型记住它。
  • 强化学习不需要大量的人工标注,只是需要设计一个奖励函数,设计好奖励规则,当模型给出的结果是接近目标值的,我们就给一个正反馈或者高的分数。

五、常见 LLM 模型

常见 LLM 模型如下表

Description

六、LLM 的挑战与展望

6.1 挑战

  • 幻觉现象(Hallucination):生成看似合理但事实错误的内容。
  • 推理成本高:内存与计算资源消耗大,部署成本高昂。
  • 推理速度慢:长文本响应延迟显著影响用户体验。
  • 数据安全与偏见问题:训练数据中可能包含歧视或敏感信息。

6.2 展望

LLM 目前已用于多个场景,例如:

  • 文本生成:自动撰写新闻、故事、诗歌。
  • 翻译系统:多语言互译,甚至语音到文本。
  • 情绪分析:用于品牌情感监测、影评判断。
  • 对话机器人:如 ChatGPT,提供自然流畅的对话能力。
  • 代码生成:辅助编程任务,生成/解释代码。

近年来也发展出支持图像、语音、视频等多模态输入的 VLM(Vision-Language Models)和 VLA(Vision-Language-Action),可以研究学习的地方非常多。

后续会转到 VLM 的学习~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/94436.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/94436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java 20 新特性及具体应用

目录 1. 模式匹配 for switch(预览特性) 2. 记录模式(预览特性) 3. 外部函数与内存 API(预览特性) 4. 矢量 API(孵化器特性) 5. 作用域值(预览特性) 6. …

【STM32】CubeMX(十一):FreeRTOS任务挂起与解挂

这篇文章是 STM32 HAL FreeRTOS 下的任务挂起与恢复机制, 结合 CubeMX 图示与代码,构建了一个 FreeRTOS 控制示例。 本篇目标:创建两个任务: 一个控制蓝灯闪烁(myTask01) 另一个监控按键(Start…

图片预加载:提升Web性能的关键

🤍 前端开发工程师、技术日更博主、已过CET6 🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》 🍚 蓝桥云课签约作者、…

大模型压缩三剑客:量化、剪枝与知识蒸馏全解析

在人工智能飞速发展的今天,大语言模型(LLM)如通义千问、GPT 等已成为推动智能应用的核心引擎。然而,这些模型动辄数十亿甚至上千亿参数,带来了高昂的计算成本和部署门槛。如何在不显著牺牲性能的前提下,让大…

Seaborn数据可视化实战:Seaborn基础图表绘制入门

基础图表绘制:Seaborn入门教程 学习目标 通过本课程的学习,你将掌握如何使用Seaborn库绘制基础图表,包括条形图、折线图和散点图。你将了解Seaborn的基本函数和参数设置,以及如何通过调整这些参数来优化图表的视觉效果。 相关知识…

阿里开源通义万相Wan2.2:视频生成技术的革命性突破

在人工智能视频生成领域,阿里云通义实验室于2025年7月重磅开源了新一代视频生成大模型 Wan2.2,其核心亮点包括人体动作生成的极致精度、电影级美学表达以及高效的资源利用效率,标志着视频生成技术迈入了一个全新的阶段。 一、核心功能:三大模型,覆盖全场景视频生成 Wan2.…

说说你对Integer缓存的理解?

大家好,我是锋哥。今天分享关于【说说你对Integer缓存的理解?】面试题。希望对大家有帮助; 说说你对Integer缓存的理解? 超硬核AI学习资料,现在永久免费了! Integer 缓存是 Java 中一个优化机制,它主要通过缓存一部…

高速CANFD收发器ASM1042在割草机器人轮毂电机通信系统中的适配性研究

摘要割草机器人轮毂电机的通信系统对其实现自主控制和高效作业至关重要。本文旨在研究国科安芯推出的高速CANFD收发器芯片ASM1042是否能够满足割草机器人轮毂电机通信系统的复杂需求。通过详细分析轮毂电机通信系统的性能要求,以及ASM1042的电气、功能和环境特性&am…

MTK Linux DRM分析(十二)- KMS Panel框架层(drm_panel.c、drm_mipi_dbi.c、drm_mipi_dsi.c)

一、简介 三个代码文件(drm_mipi_dbi.c、drm_panel.c、drm_mipi_dsi.c)的分析。这些文件都是Linux内核DRM(Direct Rendering Manager)子系统的组成部分,主要用于支持显示面板,特别是通过MIPI(Mobile Industry Processor Interface)接口的显示设备。它们提供了显示驱动…

合合信息acge模型获C-MTEB第一,文本向量化迎来新突破

前言: 在当今时代,大型语言模型以其惊人的发展速度和广泛的应用前景,正成为全球科技界的瞩目焦点。这些模型的强大能力,源自于背后默默支撑它们的Embedding技术——一种将语言转化为机器可理解的数值向量的关键技术。随着大型语言…

26.内置构造函数

2.内置构造函数2.1Object2.2Array2.3String2.4number

tauri配置允许执行eval脚本,在打包cocos游戏web/phone移动端的时候一定要配置

解决办法:在tauriconfig中配置"csp": "default-src self asset: unsafe-inline customprotocol://* http://localhost:* ws:localhost:* unsafe-eval ipc: http://ipc.localhost; script-src unsafe-eval self https://www.googletagmanager.com uns…

K 均值聚类算法学习总结

一、聚类算法基础认知 核心概念:聚类属于无监督学习,核心是把 “相似的样本” 自动分到同一组(簇),不需要预先标注的标签。主要挑战是怎么定义 “相似性”、评估聚类效果以及确定最好的聚类数量。 距离度量&#xff1a…

基于Spring Cloud Gateway动态路由与灰度发布方案对比与实践指导

基于Spring Cloud Gateway动态路由与灰度发布方案对比与实践指导 一、问题背景介绍 在微服务架构中,API网关负责统一入口、路由分发与权限校验功能。随着业务需求的不断演进,如何灵活地实现路由动态更新、版本灰度发布以及流量打点就成为运维和开发团队的…

MySQL InnoDB Buffer Pool详解:原理、配置与性能优化

1. 为什么需要 Buffer Pool?1.1 数据库性能瓶颈分析在 MySQL 的运行过程中,最核心的性能瓶颈来自磁盘 IO。磁盘访问延迟:一次机械硬盘 IO 操作可能需要数毫秒,即使是 SSD,访问延迟也在几十微秒量级。内存访问延迟&…

ArcGIS Pro 安装路径避坑指南:从崩溃根源到规范实操(附问题修复方案)

作为 GIS 从业者,你是否遇到过这些糟心场景:ArcGIS Pro 双击启动无响应、运行中突然弹出 “Runtime Error” 崩溃、加载矢量数据时提示 “找不到指定文件”?排查半天后发现,这些问题的 “元凶” 竟藏在安装路径里 —— 中文路径或…

Python 实战:内网渗透中的信息收集自动化脚本(2)

用途限制声明,本文仅用于网络安全技术研究、教育与知识分享。文中涉及的渗透测试方法与工具,严禁用于未经授权的网络攻击、数据窃取或任何违法活动。任何因不当使用本文内容导致的法律后果,作者及发布平台不承担任何责任。渗透测试涉及复杂技…

批量转双层PDF软件:高效转换,提升文档管理效率

在文档管理和信息检索中,双层PDF文件因其独特的结构而备受青睐。双层PDF文件不仅保留了原始文档的外观,还增加了对文档内容进行搜索和选择的功能,极大地提高了文档管理和信息检索的效率。批量转双层PDF软件正是为了解决这一需求而设计的&…

rust语言 (1.88) egui (0.32.1) 学习笔记(逐行注释)(七) 鼠标在控件上悬浮时的提示

文本提示on_hover_text ui.label("标签").on_hover_text("这是一个标签"); ui.text_edit_singleline(&mut edittext).on_hover_text("这是输入框"); if ui.button("提交").on_hover_text("这是一个按钮").clicked(){}提…

【NVIDIA-B200】生产报错 Test CUDA failure common.cu:1035 ‘system not yet initialized‘

目录 1. 检查 NVIDIA 驱动状态 2. 验证 CUDA 安装情况 3. 检查相关服务运行状态(多 GPU 场景关键) 4. 用简单 CUDA 程序验证基础功能 5. 重启系统 6. 排查硬件相关问题 7.实际生产解决步骤 报错日志: # Collective test starting: all_reduce_perf # nThread 1 nGpu…