【论文阅读】Think Only When You Need with Large Hybrid-Reasoning Models

Think Only When You Need with Large Hybrid-Reasoning Models

  • 2 Large Hybrid-Reasoning Models
    • 2.1 Problem Formulation
      • 关键定义与目标
      • 核心挑战与解决方案
  • 2.2 第一阶段:混合微调(Hybrid Fine-Tuning, HFT)
    • 核心设计
      • 数据构建
      • 数据集统计
      • 优化目标(Optimize Objective)
    • 关键技术点
    • 阶段输出
  • 2.3 第二阶段:混合组策略优化(Hybrid Group Policy Optimization, HGPO)
      • 无Critic模型架构
      • 计算优化特性
    • 算法框架
      • 采样策略(Sampling Strategy)
      • 奖励计算与分配(Reward Scoring and Assignment)
      • 优势估计(Advantage Estimation)
      • 优化目标(Optimization Objective)
    • 算法特性
  • 2.4 混合推理能力评估
    • 评估流程

Think Only When You Need with Large Hybrid-Reasoning Models一文指出,当前的大型推理模型(LRMs)通过生成冗长的思维过程(如标记为 <think> 的中间步骤)显著提升了推理能力,但这种方式在处理简单查询时会带来不必要的计算开销和延迟。为解决这一问题,作者提出了大型混合推理模型(LHRMs),这是第一种能够根据用户查询的上下文信息自适应决定是否进行深入思考的模型。

为实现这一目标,作者设计了一个两阶段的训练流程:

  • 混合微调(HFT):作为冷启动阶段,通过结合推理密集型(Thinking)和直接回答(No-Thinking)数据,使模型初步支持两种推理模式。

  • 混合组策略优化(HGPO):一种在线强化学习方法,通过隐式学习选择适当的思考模式,同时生成更有用且无害的响应。

此外,作者提出了“混合准确率”(Hybrid Accuracy)这一新指标,用于定量评估模型的混合推理能力。实验结果表明,LHRMs能够根据查询的难度和类型自适应地选择思考模式,在推理和通用任务上均优于现有的LRMs和LLMs,同时显著提升了效率。

本篇博客聚焦文章的方法部分。

在这里插入图片描述

2 Large Hybrid-Reasoning Models

2.1 Problem Formulation

本节正式定义了大型混合推理模型(LHRMs)的核心问题,即如何根据输入查询动态选择最优推理模式(Thinking或No-Thinking)以最大化任务特定效用。

关键定义与目标

  1. 输入与模式

    • 输入查询记为 qqq
    • 提供两种推理模式:
      • 思考模式(⊢\vdash:生成显式推理步骤(如中间计算或逻辑链)
      • 非思考模式(⊀\nprec:直接生成最终答案无需中间步骤
  2. 条件分布

    • 每种模式对应一个答案空间 A\mathcal{A}A 上的条件概率分布:
      P(a∣q,m),m∈M={⊢,⊀}(1)\mathcal{P}(a \mid q, m), \quad m \in \mathcal{M} = \{\vdash, \nprec\} \quad (1) P(aq,m),mM={,}(1)
  3. 最优模式选择

    • 对每个查询 qqq,选择能最大化期望效用 U(q,a)\mathcal{U}(q,a)U(q,a) 的模式 m∗(q)m^*(q)m(q)
      m∗(q)=arg⁡max⁡m∈MEa∼P(a∣q,m)[U(q,a)](2)m^*(q) = \arg\max_{m\in\mathcal{M}} \mathbb{E}_{a\sim\mathcal{P}(a|q,m)}\Big[\mathcal{U}(q,a)\Big] \quad (2) m(q)=argmMmaxEaP(aq,m)[U(q,a)](2)
  4. 全局优化目标

    • 学习策略 π:Q→M\pi: \mathcal{Q}\rightarrow\mathcal{M}π:QM 以最大化跨任务分布的期望效用:
      max⁡π1N∑i=1NEDi∼Θ,Di⇔Ui[Ea∼P(a∣q,π(q)),q∼Di[Ui(q,a)]](3)\max_{\pi} \frac{1}{N}\sum_{i=1}^N \mathbb{E}_{\mathcal{D}_i\sim\Theta, \mathcal{D}_i\Leftrightarrow\mathcal{U}_i}\Bigg[\mathbb{E}_{a\sim\mathcal{P}(a|q,\pi(q)), q\sim\mathcal{D}_i}\Big[\mathcal{U}_i(q,a)\Big]\Bigg] \quad (3) πmaxN1i=1NEDiΘ,DiUi[EaP(aq,π(q)),qDi[Ui(q,a)]](3)
      其中 Θ={(Di,Ui)}i=1N\Theta = \{(\mathcal{D}_i,\mathcal{U}_i)\}_{i=1}^NΘ={(Di,Ui)}i=1N 表示不同任务的数据分布和效用函数对。

核心挑战与解决方案

  1. 策略学习(C1)

    • 通过两阶段训练实现:
      • 阶段I:混合微调(HFT)冷启动
      • 阶段II:混合组策略优化(HGPO)强化学习
  2. 评估指标(C2)

    • 提出混合准确率 Hacc\mathcal{H}_{\text{acc}}Hacc 量化模式选择能力

2.2 第一阶段:混合微调(Hybrid Fine-Tuning, HFT)

本节详细介绍了LHRMs训练流程的第一阶段——混合微调(HFT),这是模型冷启动的关键步骤。

核心设计

数据构建

HFT使用混合格式的监督微调数据集,包含两类数据:

  1. 思考模式数据

    • 来源:数学(MATH)、编程(Code)和科学领域的高质量数据集
    • 处理方式:
      • 使用DeepSeek-R1生成答案
      • 人工验证正确性
      • 添加<think></think>标签标记推理步骤
      • 示例:
        <think>
        首先分析约束条件...然后推导可能的解...
        </think>
        最终答案是$\boxed{17}$
        
  2. 非思考模式数据

    • 来源:WildChat-1M中的简单查询
    • 处理方式:
      • 使用FastText分类器过滤复杂推理任务
      • 添加<no_think></no_think>标签
      • 示例:
        <no_think>
        当然,请问您需要什么帮助?
        </no_think>
        

数据集统计

类别数据量平均token长度主要来源
思考模式631,325575SYNTHETIC-1, OpenMath
非思考模式674,9084,897WildChat-1M, OASST2
总计1,694,586--

优化目标(Optimize Objective)

HFT阶段通过标准的语言建模目标训练模型,使其能够基于上文预测下一个token。对于构建的数据集DHFT={(xi,yi)}i=1N\mathcal{D}_{\text{HFT}} = \{(x^i, y^i)\}_{i=1}^NDHFT={(xi,yi)}i=1N,其优化目标定义为:

LHFT(θ)=−E(x,y)∼DHFT[∑t=1∣y∣log⁡πθ(yt∣x,y1:t−1)](4)\mathcal{L}_{\text{HFT}}(\theta) = -\mathbb{E}_{(x,y)\sim\mathcal{D}_{\text{HFT}}} \left[ \sum_{t=1}^{|y|} \log \pi_\theta(y_t \mid x, y_{1:t-1}) \right] \quad (4) LHFT(θ)=E(x,y)DHFTt=1ylogπθ(ytx,y1:t1)(4)

其中:

  • θ\thetaθ:模型参数
  • (x,y)(x,y)(x,y):输入-输出对
  • πθ\pi_\thetaπθ:模型参数化的概率分布

关键技术点

  1. 防模式崩溃设计

    • 对同一查询同时提供两种格式的答案
    • 示例:
      # 思考模式
      "计算2+2": "<think>2加2等于4</think>"# 非思考模式 
      "计算2+2": "<no_think>4</no_think>"
      
  2. 数据平衡策略

    • 思考模式与非思考模式样本比例 ≈ 1:1
    • 每个batch内两种模式均匀混合
  3. 训练配置

    • 优化器:AdamW(lr=1e-4)
    • 批次大小:128
    • 序列长度:32k tokens
    • 训练时长:7B模型约2.5天(4×NVIDIA H100节点)

阶段输出

HFT阶段产出的模型πθHFT\pi_{\theta_{\text{HFT}}}πθHFT具备:

  • 同时支持两种推理模式的能力
  • 稳定的模式切换基础
  • 为第二阶段RL训练提供优质初始化

2.3 第二阶段:混合组策略优化(Hybrid Group Policy Optimization, HGPO)

本节详细介绍训练流程的第二阶段——混合组策略优化(HGPO),这是一种创新的强化学习算法,用于优化模型的自适应推理能力。

在这里插入图片描述
HGPO的完整流程如图2和算法1所示,通过以下创新设计降低计算成本:

无Critic模型架构

  1. 核心设计

    • 摒弃传统强化学习中的critic(价值函数)模型
    • 采用多样本估计替代价值函数计算
  2. 采样机制

    • 对提示集P\mathcal{P}P中的每个问题qqq
    • 从旧策略πθHFT\pi_{\theta_{\text{HFT}}}πθHFT中采样两组输出:
      • 思考模式组N/2N/2N/2个含推理过程的响应
      • 非思考模式组N/2N/2N/2个直接答案

计算优化特性

设计选择传统RLHGPO优势
价值估计Critic模型预测多样本直接统计减少40%训练内存
梯度计算依赖价值函数导数零阶策略梯度避免梯度冲突问题
模式切换成本需要重训练critic动态样本重加权支持在线模式切换

算法框架

采样策略(Sampling Strategy)

对于每个查询q∈Pq \in \mathcal{P}qP,从初始策略πθHFT\pi_{\theta_{\text{HFT}}}πθHFT中按两种模式分别采样N/2N/2N/2个候选响应:

{oi⊢}i=1N/2∼πθHFT(⋅∣q,m=⊢),{oi⊀}i=1N/2∼πθHFT(⋅∣q,m=⊀)(5)\{o_i^\vdash\}_{i=1}^{N/2} \sim \pi_{\theta_{\text{HFT}}}(\cdot \mid q, m=\vdash), \quad \{o_i^\nprec\}_{i=1}^{N/2} \sim \pi_{\theta_{\text{HFT}}}(\cdot \mid q, m=\nprec) \quad (5) {oi}i=1N/2πθHFT(q,m=⊢),{oi}i=1N/2πθHFT(q,m=)(5)

完整候选集定义为:

O(q)={oi⊢}i=1N/2∪{oi⊀}i=1N/2(6)\mathcal{O}(q) = \{o_i^\vdash\}_{i=1}^{N/2} \cup \{o_i^\nprec\}_{i=1}^{N/2} \quad (6) O(q)={oi}i=1N/2{oi}i=1N/2(6)

实现细节

  • 默认N=4N=4N=4(每种模式2个样本)
  • 温度系数τ=0.7\tau=0.7τ=0.7控制多样性
  • 禁止重复采样机制

奖励计算与分配(Reward Scoring and Assignment)

使用奖励函数RϕR_\phiRϕ对候选输出评分,生成两组奖励值:

R⊢={r(oi⊢)}i=1N/2,R⊀={r(oi⊀)}i=1N/2(7)\mathcal{R}^\vdash = \{r(o_i^\vdash)\}_{i=1}^{N/2}, \quad \mathcal{R}^\nprec = \{r(o_i^\nprec)\}_{i=1}^{N/2} \quad (7) R={r(oi)}i=1N/2,R={r(oi)}i=1N/2(7)

计算各模式平均奖励:

Rˉ⊢=2N∑i=1N/2r(oi⊢),Rˉ⊀=2N∑i=1N/2r(oi⊀)(8)\bar{\mathcal{R}}^\vdash = \frac{2}{N}\sum_{i=1}^{N/2} r(o_i^\vdash), \quad \bar{\mathcal{R}}^\nprec = \frac{2}{N}\sum_{i=1}^{N/2} r(o_i^\nprec) \quad (8) Rˉ=N2i=1N/2r(oi),Rˉ=N2i=1N/2r(oi)(8)

定义两种奖励类型:

  1. 组间奖励(Inter-group):
    rinter(oim)={1,if m=arg⁡max⁡m′∈{⊢,⊀}{Rˉ⊢,Rˉ⊀+δ}0,otherwise(9a)r_{\text{inter}}(o_i^m) = \begin{cases} 1, & \text{if } m = \arg\max_{m'\in\{\vdash,\nprec\}} \{\bar{\mathcal{R}}^\vdash, \bar{\mathcal{R}}^\nprec + \delta\} \\ 0, & \text{otherwise} \end{cases} \quad (9a) rinter(oim)={1,0,if m=argmaxm{,}{Rˉ,Rˉ+δ}otherwise(9a)
  2. 组内奖励(Intra-group):
    rintra(oim)={1,if i=arg⁡max⁡j∈{1,...,N/2}rjm0,otherwise(9b)r_{\text{intra}}(o_i^m) = \begin{cases} 1, & \text{if } i = \arg\max_{j\in\{1,...,N/2\}} r_j^m \\ 0, & \text{otherwise} \end{cases} \quad (9b) rintra(oim)={1,0,if i=argmaxj{1,...,N/2}rjmotherwise(9b)

关键参数

  • δ\deltaδ:模式偏好边际(默认0.2)
  • 规则型奖励用于数学/编程等确定性任务
  • 参数化奖励模型用于开放域任务

δ\deltaδ这个参数的出现提供了一种可以控制模型思考偏好的方法,在具体工程实现中,可以基于任务种类设置不同的δ\deltaδ达到控制长短的目的

优势估计(Advantage Estimation)

采用GRPO优势估计器:

Ait=[rintra(oi)−mean(rintra(oj))std(rintra(oj))]⏟Intra-group+1{oit∈Φ}⋅α[rinter(oi)−mean(rinter(oj))std(rinter(oj))]⏟Inter-group(10)A_i^t = \underbrace{\left[\frac{r_{\text{intra}}(o_i) - \text{mean}(r_{\text{intra}}(o_j))}{\text{std}(r_{\text{intra}}(o_j))}\right]}_{\text{Intra-group}} + \underbrace{\mathbb{1}\{o_i^t \in \Phi\} \cdot \alpha \left[\frac{r_{\text{inter}}(o_i) - \text{mean}(r_{\text{inter}}(o_j))}{\text{std}(r_{\text{inter}}(o_j))}\right]}_{\text{Inter-group}} \quad (10) Ait=Intra-group[std(rintra(oj))rintra(oi)mean(rintra(oj))]+Inter-group1{oitΦ}α[std(rinter(oj))rinter(oi)mean(rinter(oj))](10)

其中:

  • Φ={<think>,<no_think>}\Phi = \{\text{<think>}, \text{<no\_think>}\}Φ={<think>,<no_think>}为模式标记集合
  • α=1.0\alpha=1.0α=1.0为平衡系数

优化目标(Optimization Objective)

最大化以下目标函数:

JHGPO(θ)=Eq∼P,{oim}∼πθHFT[1N∑i=1N∑t=1∣o∣[min⁡(πθ(oim,t∣q,oim,<t)πθHFT(oim,t∣q,oim,<t)Ait,clip(πθ(oim,t∣q,oim,<t)πθHFT(oim,t∣q,oim,<t),1−ϵ,1+ϵ)Ait)−βDKL(πθ∣∣πref)]](11)\mathcal{J}_{\text{HGPO}}(\theta) = \mathbb{E}_{q\sim\mathcal{P}, \{o_i^m\}\sim\pi_{\theta_{\text{HFT}}}}\Bigg[ \frac{1}{N}\sum_{i=1}^N \sum_{t=1}^{|o|} \bigg[ \min\Bigg( \frac{\pi_\theta(o_i^{m,t}|q,o_i^{m,<t})}{\pi_{\theta_{\text{HFT}}}(o_i^{m,t}|q,o_i^{m,<t})} A_i^t, \\ \text{clip}\Bigg(\frac{\pi_\theta(o_i^{m,t}|q,o_i^{m,<t})}{\pi_{\theta_{\text{HFT}}}(o_i^{m,t}|q,o_i^{m,<t})}, 1-\epsilon, 1+\epsilon\Bigg) A_i^t \bigg) - \beta \mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) \bigg] \Bigg] \quad (11) JHGPO(θ)=EqP,{oim}πθHFT[N1i=1Nt=1o[min(πθHFT(oim,tq,oim,<t)πθ(oim,tq,oim,<t)Ait,clip(πθHFT(oim,tq,oim,<t)πθ(oim,tq,oim,<t),1ϵ,1+ϵ)Ait)βDKL(πθ∣∣πref)]](11)

KL散度项展开为:

DKL(πθ∣∣πref)=πref(oim∣q)πθ(oim∣q)−log⁡πref(oim∣q)πθ(oim∣q)−1(12)\mathbb{D}_{\text{KL}}(\pi_\theta || \pi_{\text{ref}}) = \frac{\pi_{\text{ref}}(o_i^m|q)}{\pi_\theta(o_i^m|q)} - \log \frac{\pi_{\text{ref}}(o_i^m|q)}{\pi_\theta(o_i^m|q)} - 1 \quad (12) DKL(πθ∣∣πref)=πθ(oimq)πref(oimq)logπθ(oimq)πref(oimq)1(12)

训练配置

  • 学习率:1×10−61\times10^{-6}1×106(恒定)
  • 批次大小:256(微批次8)
  • KL系数β=0.001\beta=0.001β=0.001
  • 裁剪阈值ϵ=0.5\epsilon=0.5ϵ=0.5
  • 训练时长:2天(4×H100)

算法特性

  1. 双重奖励机制

    • 组间奖励引导模式选择
    • 组内奖励优化内容质量
  2. 策略约束

    • KL惩罚项防止过度偏离初始策略
    • 重要性采样裁剪保证稳定性
  3. 零阶优化
    无需价值函数模型,直接基于样本奖励优化

2.4 混合推理能力评估

为更全面地评估LHRMs的性能(超越传统下游任务指标),文章提出新指标混合准确率(Hybrid Accuracy, Hacc\mathcal{H}_{acc}Hacc,用于量化模型选择正确推理模式的能力。

评估流程

给定任务提示集P={pi}i=1K\mathcal{P} = \{p_i\}_{i=1}^KP={pi}i=1K

  1. 对每个pip_ipi,模型在⊢\vdash⊀\nprec模式下各生成NNN个响应
  2. 使用奖励模型RϕR_\phiRϕ对响应评分,计算各模式平均得分Rˉ⊢\bar{\mathcal{R}}^\vdashRˉRˉ⊀\bar{\mathcal{R}}^\nprecRˉ
  3. 确定基准模式mgtm_{gt}mgt
    • ∣Rˉ⊢−Rˉ⊀∣>ϵ|\bar{\mathcal{R}}^\vdash - \bar{\mathcal{R}}^\nprec| > \epsilonRˉRˉ>ϵ,选择高分模式
    • 否则选择响应更短的模式
  4. 模型自主选择模式mpm_pmp,计算匹配比例:

Hacc=1K∑i=1K1[Equal(mgt,mp)]s.t.mgt,mp∈{⊢,⊀}(13)\mathcal{H}_{acc} = \frac{1}{K}\sum_{i=1}^K \mathbb{1}\left[\text{Equal}(m_{gt}, m_p)\right] \quad \text{s.t.} \quad m_{gt}, m_p \in \{\vdash, \nprec\} \quad (13) Hacc=K1i=1K1[Equal(mgt,mp)]s.t.mgt,mp{,}(13)

关键参数

  • ϵ\epsilonϵ:模式得分差异阈值(默认0.05)
  • NNN:每种模式采样数(默认4)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/90926.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/90926.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

洛谷 P13014:[GESP202506 五级] 最大公因数

【题目来源】 https://www.luogu.com.cn/problem/P13014 【题目描述】 对于两个正整数 &#xff0c;他们的最大公因数记为 。对于 个正整数 &#xff0c;他们的最大公因数为&#xff1a; 给定 个正整数 以及 组询问。对于第 组询问&#xff0c;请求出 的最大公因数&…

构建应用内智能:衡石嵌入式BI如何打造“指标中台”驱动的场景化分析

在当今数据驱动的业务环境中&#xff0c;将智能分析能力深度嵌入业务应用&#xff08;如CRM、ERP、SCM、自研SaaS&#xff09;已成为刚需。然而&#xff0c;实现高性能、一致性、可治理的嵌入式分析面临巨大技术挑战。衡石科技通过其核心的指标中台&#xff08;Metric Platform…

带货视频评论洞察 Baseline 学习笔记 (Datawhale Al夏令营)

一、 项目认识背景&#xff1a;电商直播/短视频已积累大量「视频 评论」数据&#xff0c;蕴含了消费者的真实反馈。目标&#xff1a;通过「商品识别 → 情感分析 → 评论聚类」三步&#xff0c;辅助品牌洞察、网红投放评估。二、 Baseline 代码流程1. 读取和预处理video_data …

uniapp中使用uView-plus踩坑记录

​​​1.使用插件市场安装点击到插件市场 零云uview-plus3.0重磅发布&#xff0c;全面的Vue3鸿蒙移动组件库。 - DCloud 插件市场 点击选择项目直接导入就可以&#xff0c;下载完成后会在uni_modules中&#xff0c;这个.gitignore中不可忽略 ​ 使用在main.js里引入 import…

openGauss数据库管理实战指南——基本常用操作总结

查看所有数据库 查看所有表 \d 查看函数定义 查看所有用户 select usename from pg_user; 1.数据库创建管理 CREATE DATABASE test; 2.数据库用户创建管理 CREATE USER tom PASSWORD Root123456.; 3.表的创建及管理 3.1.创建表 CREATE TABLE test(ID INTEGER PRIMARY …

智慧公安信息化建设解决方案PPT(63页)

智慧公安的定义与职能 智慧公安是利用现代信息技术提升公安工作效率与服务质量的新模式&#xff0c;涵盖刑事侦查、治安管理、交通管理等多方面职能&#xff0c;致力于保障社会安全与秩序。 智慧公安信息化建设的重要性 信息化建设是智慧公安发展的核心&#xff0c;通过数据…

k8s存储入门

目录 一、 Volume 的概念 二、 Volume 的类型 三、 通过 emptyDir 共享数据 1. EmptyDir 特性 2. EmptyDir 共享数据 四&#xff1a;使用 HostPath 挂载宿主机文件 1. HostPath 特性 2. 挂载宿主机时区文件 五、 挂载 NFS 至容器 1. 前置准备&#xff08;所有 K8s 节…

基于 Flutter 的开源文本 TTS 朗读器(支持 Windows/macOS/Android)

界面特性 基于 Flutter 的文本 TTS 朗读器支持 Windows、macOS、AndroidTTS 源&#xff1a;OpenAI TTS、Microsoft TTS支持设置代理支持设置应用主题支持倍速支持书签支持点击指定地方朗读支持 txt、epub、贴粘文本支持从上次地方开始朗读 源代码https://github.com/xchenhao/t…

深入理解大语言模型:从核心技术到极简实现

零基础的读者建议先看《零基础理解大语言模型&#xff1a;从生活例子到代码实现》&#xff0c;本教程的完整代码可以在GitHub上找到&#xff0c;如果你有任何问题或建议&#xff0c;欢迎交流讨论。 引言 自ChatGPT横空出世以来&#xff0c;大语言模型&#xff08;Large Langua…

7月13日日记

看来每天写一篇日记对我来说还是一个不小的挑战。主要是和惰性做抗争吧。但是这个东西说实话也没有什么难度&#xff0c;也并不占用时间&#xff0c;一篇日记大概十几分钟就可以写完。可能更多的是健忘。忘了每天有一个这样的小任务。忘了前几天日记写没写了&#xff0c;三下乡…

《Stata面板数据分析:数据检验、回归模型与诊断技术 - 以NLSW工资研究(公开数据)为例》

本教程旨在全面介绍使用 Stata 进行面板数据分析的方法和技巧。我们将以美国国家纵向调查(NLSW)的数据为例,系统地探讨从基础 OLS 回归到高级固定效应模型的分析过程。 NLSW 数据集是公开的,可以免费获取,这为读者提供了实践和复现的机会。 通过这个教程,您将掌握使用 …

【VSCode+LaTeX】科研写作环境搭建

文章目录0 引言为什么选择LaTeXVSCode&#xff1f;为什么不选择Overleaf&#xff1f;1 TeXLive安装1.1 下载安装包1.2 运行安装程序1.3 通过镜像安装2 VSCode安装与配置2.1 下载VSCode安装包2.2 安装VSCode2.3 安装中文语言包2.4 配置LaTeX核心扩展2.5 加载TeX模版文件2.6 编译…

Surfer软件入门与等值线绘制实操教程

本文还有配套的精品资源&#xff0c;点击获取 简介&#xff1a;本教程将指导初学者如何使用Surfer软件进行地质绘图&#xff0c;重点在于等值线的绘制技巧和提升图形质量。内容涵盖Surfer界面介绍、数据导入、等值线绘制方法、样式设置、地图增强技术以及输出保存方法&#…

攻防世界——Web题 very_easy_sql

目录 payload1 payload2 payload3 看到了题目是sql就猜测是sql注入和万能密码了&#xff0c;但怎么试貌似都没有反应&#xff0c;看源代码发现了use.php 访问use.php页面 可以猜测这里是SSRF&#xff0c;可以访问到我们本不能访问的界面&#xff0c;比如&#xff1a;服务器…

基于 SpringBoot 的 REST API 与 RPC 调用的统一封装

一、为何需要统一封装&#xff1f; 在讨论统一封装之前&#xff0c;我们先看看 REST 和 RPC 各自的适用场景。 REST API 基于 HTTP 协议&#xff0c;采用 JSON 作为数据交换格式&#xff0c;可读性好且跨语言&#xff0c;非常适合对外提供服务。 RPC&#xff08;如 Dubbo、gRPC…

【SpringBoot】 整合MyBatis+Postgresql

MyBatis 是一个轻量级的持久化框架&#xff0c;用于简化数据库访问和操作。它通过将 SQL 语句与 Java 代码分离&#xff0c;允许开发者使用 XML 或注解来配置 SQL 语句&#xff0c;并将结果映射为 Java 对象。MyBatis 提供了灵活的 SQL 控制&#xff0c;适合需要精细控制 SQL 的…

无缝衔接直播流体验

文章目录前言&#x1f9e0; 1. 为什么能“无缝衔接”&#xff1f;&#x1f9f0; 2. Flutter 实现方案✅ 总体策略&#x1f3af; 核心技术点✅ a. 使用全局播放器管理器&#xff08;单例模式&#xff09;✅ b. 广场页中的直播卡片使用播放器✅ c. 详情页复用控制器✅ d. 页面切换…

[论文阅读] 软件工程 | 首个德语软件工程情感分析黄金标准数据集:构建与价值解析

首个德语软件工程情感分析黄金标准数据集&#xff1a;构建与价值解析 论文标题&#xff1a;A German Gold-Standard Dataset for Sentiment Analysis in Software EngineeringarXiv:2507.07325 A German Gold-Standard Dataset for Sentiment Analysis in Software Engineering…

PyTorch编程实践:一文就入门的上手开发!

引言 PyTorch作为当今深度学习领域最流行的框架之一&#xff0c;以其动态计算图、直观的Python接口和强大的GPU加速能力&#xff0c;赢得了众多研究人员和工程师的青睐。本文将深入探讨PyTorch的编程实践&#xff0c;从基础概念到高级应用&#xff0c;帮助读者全面掌握这一强大…

关于学习docker中遇到的问题

Cannot connect to the Docker daemon at unix:///home/pc/.docker/desktop/docker.sock. Is the docker daemon running?如何配置新的路径 #运行这条命令&#xff0c;查看docker状态 sudo systemctl status docker如图所示表示监听路径不对&#xff0c;因此修改路径即可&…