用python玩转大语言模型——从 RNN 到文本生成大语言模型的奇幻之旅

用python玩转大语言模型——从 RNN 到文本生成大语言模型的奇幻之旅

第一部分:RNN原理及其结构(魔法师的记忆水晶球)

1.1 经典RNN结构(时光旅行者的备忘录)

核心概念

  • 时间循环:RNN通过隐藏状态h在时间步之间传递信息,形成闭环结构
  • 参数共享:每个时间步使用相同的权重矩阵(Wxh, Whh, Why),大大减少参数量
  • 数学公式
    • h_t = tanh(Wxh * x_t + Whh * h_{t-1} + b_h)
    • y_t = Why * h_t + b_y

结构详解

hₜ₋₁ 隐藏状态 yₜ₋₁ xₜ₋₁ hₜ 隐藏状态 yₜ xₜ hₜ₊₁ 隐藏状态 yₜ₊₁ xₜ₊₁ 时间循环 时间循环 输入层
<rect width="20" height="20" rx="10" fill="#f0f0f0" stroke="#333" stroke-width="2" transform="translate(0, 30)"/>
<text x="30" y="45" font-size="12">隐藏层</text><path d="M0,90 L20,90" stroke="#ff7a45" stroke-width="2" stroke-dasharray="5,5" transform="translate(0, 60)"/>
<text x="30" y="95" font-size="12">时间循环</text>

应用场景

  • 语音识别:处理音频的时序特征
  • 股票预测:捕捉市场的时间依赖关系
  • 文本分类:分析文章的上下文语义

局限性

  • 梯度消失/爆炸问题:tanh激活函数导致长序列训练困难
  • 长距离依赖问题:无法有效记忆超过10个时间步的信息
  • 新媒体演示:使用动态热力图展示梯度在反向传播中的衰减
1.2 NVSI式RNN结构(并行时空的记忆矩阵)

核心概念

  • NVSI:Non-Vanishing Sigmoid Input(非消失Sigmoid输入)
  • 改进点:使用sigmoid函数替代tanh作为输入门控机制

结构详解

  • 输入门控:i_t = σ(W_xi * x_t + W_hi * h_{t-1} + b_i)
  • 隐藏状态更新:h_t = i_t ⊙ tanh(W_xh * x_t + W_hh * h_{t-1} + b_h)

优势

  • 缓解梯度消失问题:sigmoid函数在[0,1]区间保持梯度
  • 更好的长序列处理能力:实验表明可处理50+时间步

应用案例

  • 长文本摘要:处理新闻文章等长文本
  • 音乐生成:捕捉复杂的音乐节奏模式

新媒体展示
vas-part path=“nvsi_rnn_animation.html” language=“html” description=“NVSI-RNN动态演示”>

NVSI-RNN动画演示

NVSI-RNN动态演示

传统RNN与NVSI-RNN的梯度对比

长序列处理能力对比

<script>// 梯度对比图表const gradientCtx = document.getElementById('gradientChart').getContext('2d');const gradientChart = new Chart(gradientCtx, {type: 'line',data: {labels: ['t=1', 't=5', 't=10', 't=15', 't=20', 't=25', 't=30'],datasets: [{label: '传统RNN',data: [1.0, 0.8, 0.4, 0.15, 0.05, 0.01, 0.001],borderColor: '#FF6B6B',tension: 0.3},{label: 'NVSI-RNN',data: [1.0, 0.9, 0.8, 0.7, 0.6, 0.5, 0.4],borderColor: '#4ECDC4',tension: 0.3}]},options: {responsive: true,maintainAspectRatio: false,scales: {y: {type: 'logarithmic',title: {display: true,text: '梯度值(对数尺度)'

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/84448.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构(9)排序

一、常见排序算法 排序在生活中无处不在&#xff0c;上学这么多年班级排名啥的总有吧&#xff0c;不可能一次都没见过&#xff1b;打游戏有的排行榜不也是有排序的思想在里面&#xff0c;排序倒不是什么特殊的数据结构&#xff0c;但是是非常重要的算法思想&#xff0c;所以在初…

量子计算导论课程设计 之 PennyLane环境搭建

文章目录 具体配置conda 虚拟环境配置Pennylane 正所谓&#xff0c;磨刀不误砍柴工&#xff0c;想要进行量子计算导论的课程设计&#xff0c;首先就是搭建好平台&#xff0c;推荐大家就是本地搭建&#xff0c;那么下面有三种选择 QiskitTensorFlow QuantumPennylane 具体配置…

nginx ./nginx -s reload 不生效

问题 nginx ./nginx -s reload 不生效 解决 不是改opt/nginx下的配置文件是改/usr/local/nginx下的配置文件改之前做好备份

建造者模式深度解析与实战应用

作者简介 我是摘星&#xff0c;一名全栈开发者&#xff0c;专注 Java后端开发、AI工程化 与 云计算架构 领域&#xff0c;擅长Python技术栈。热衷于探索前沿技术&#xff0c;包括大模型应用、云原生解决方案及自动化工具开发。日常深耕技术实践&#xff0c;乐于分享实战经验与…

VScode - 我的常用插件01 - 主题插件Noctis

导言 Noctis 是一款为 Visual Studio Code 提供的主题插件&#xff0c;主打高对比度、护眼、美观。它有多种配色风格&#xff0c;适合不同的开发者审美和工作场景。 一、安装Noctis 二、设置颜色主题 三、测试主题 如上所示&#xff0c;有11种主题背景可以选择。这里&#xff…

【IQA技术专题】图像质量评价IQA技术和应用综述(万字长文!!)

专题介绍 图像质量评价&#xff08;Image Quality Assessment, IQA&#xff09;是图像处理、计算机视觉和多媒体通信等领域的关键技术之一。IQA不仅被用于学术研究&#xff0c;更在影像相关行业内实现了完整的商业化应用&#xff0c;涉及影视、智能手机、专业相机、安防监控、…

突然虚拟机磁盘只剩下几十K

第一步&#xff1a;查找哪些文件大于 100M find / -size 100M 第二步&#xff1a;删除掉无用的 log 发现&#xff0c;磁盘剩余空间并没有变大 假如一个文件正在被使用&#xff0c;你删除之后也是不会释放存储空间的。需要关闭相应的服务才能释放。

黑马教程强化day2-1

目录 一、Set集合1.Set集合特点2.Set集合分类3.hashSet底层原理&#xff1a;(基于哈希表存储数据的&#xff09;代码演示 5.hashSet集合元素的去重操作&#xff08;有些情况搞不动&#xff09;代码演示 6.LinkedHashSet的底层原理&#xff08;不常用&#xff0c;所以没有代码演…

【实习总结】C++ 通过pugi::xml库对xml文件进行操作

目录 相关背景 pugi::xml简概 将配置信息写入xml文件 读取xml文件中的配置信息 相关背景 当我们需要将某些配置信息写入项目目录下的xml文件&#xff0c;或者再程序启动时&#xff0c;加载项目下已有的的配置信息&#xff08;.xml&#xff09;&#xff0c;此时&#xff0c;我…

Linux文件回收机制:安全删除文件不怕误删

Linux文件回收机制&#xff1a;安全删除文件不怕误删 文章目录 Linux文件回收机制&#xff1a;安全删除文件不怕误删一、Linux默认没有“回收站”&#xff1f;二、打造你自己的Linux回收站1. 建立回收站目录2. 创建软删除命令remove3. 定时清理回收站4. 替换rm命令5. 完整脚本 …

数据结构排序

目录 1、插入排序 2、希尔排序 3、堆排序 4、直接选择排序 5、快排 6、归并排序 补&#xff1a;计数排序 1、插入排序 void InsertSort(int* arr, int n) {int i 0;for (int i 0; i 1 < n; i){int end i;int tmp arr[end 1];while (end > 0){if (arr[end] &…

Spring声明式事务生效是有条件滴!

在日常工作中&#xff0c;经常使用Transactional 注解进行事务的声明&#xff0c;但如果发现事务未生效&#xff0c;可以从下面几个方面进行排查。 常见失效场景总结 场景原因解决方案内部方法调用绕过了Spring代理注入自身或使用AopContextprivate方法AOP无法增强改为public方…

Code Composer Studio快捷键

文本编辑 编辑、查找、替换功能快捷键 功能快捷键撤销CutZ重做CutY剪切CtrlX复制CtrlC粘贴CtrlV删除Delete全选CtrlA代码块选中AltShiftA查找、替换Ctrl F查找下一个匹配的字符串CtrlK查找上一个匹配的字符串CtrlShiftK查看接口注释&#xff08;文档&#xff09;F2查看函数帮…

从认识AI开始-----生成对抗网络(GAN):通过博弈机制,引导生成

前言 生成对抗网络&#xff08;GAN&#xff09;是lan J. Goodfellow团队在2014年提出的生成架构&#xff0c; 该架构自诞生起&#xff0c;就产生了很多的话题&#xff0c;更是被称为生成对抗网络是“新世纪以来机器学习领域内最有趣的想法”。如今&#xff0c;基于生成对抗网络…

限流算法java实现

参考教程&#xff1a;2小时吃透4种分布式限流算法 1.计数器限流 public class CounterLimiter {// 开始时间private static long startTime System.currentTimeMillis();// 时间间隔&#xff0c;单位为msprivate long interval 1000L;// 限制访问次数private int limitCount…

Maven 构建性能优化深度剖析:原理、策略与实践

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;精通Java编…

JS手写代码篇---手写深拷贝

17、深拷贝 深拷贝与浅拷贝最大的不同就是对象的属性是嵌套对象&#xff0c;会新建一个对象 步骤&#xff1a; 判断是否为对象判断是否为i数组或者对象&#xff0c;给新的有个容器遍历循环&#xff0c;如果是对象要遍历循环&#xff0c;采用递归 function deepCopy(obj){// …

【react实战】如何实现监听窗口大小变化

在日常开发场景中&#xff0c;监听窗口变化是一个比较常见又很重要的业务功能&#xff0c;其实实现起来也很简单&#xff0c;今天就来记录一下具体的实现以及注意事项。 实现思路 在 React 中&#xff0c;可以通过监听 window 的 resize 事件来检测可视区域&#xff08;viewp…

AVCap视频处理成帧和音频脚本

###############处理原视频&#xff0c;使其格式和原数据一样 import os import cv2 import subprocess import json from PIL import Image from pydub import AudioSegmentimport sys import shutil # &#x1f539; 第一步&#xff1a;强制检测并设置FFmpeg路径 &#x1f5…

数据冗余对企业运营的隐性成本

从客户管理到供应链优化&#xff0c;再到市场分析&#xff0c;数据无处不在&#xff0c;数据已成为企业运营的核心驱动力。然而&#xff0c;随着企业IT系统的多样化和数据量的激增&#xff0c;数据冗余&#xff08;Data Redundancy&#xff09;问题逐渐浮出水面&#xff0c;成为…