【arXiv2024】时间序列|TimesFM-ICF:即插即用!时间序列预测新王者!吊打微调!

图片
论文地址:https://arxiv.org/pdf/2410.24087
代码地址:https://github.com/uctb/TSFM


为了更好地理解时间序列模型的理论与实现,推荐参考UP “ThePPP时间序列” 的教学视频。该系列内容系统介绍了时间序列相关知识,并提供配套的论文资料与代码示例,有助于理论与实践相结合。
图片

摘要

本研究提出了一种时间序列基础模型的上下文微调方法。本研究设计了一个预训练的基础模型,可以在推理时使用多个时间序列示例作为提示,以便预测目标时间序列的未来值。本研究的基础模型经过专门训练,可以利用上下文窗口中来自多个相关时间序列的示例(以及目标时间序列的历史记录)来帮助其在推理时适应目标领域的特定分布。本研究表明,这种在推理时使用上下文示例的基础模型,在流行的预测基准测试中,与监督深度学习方法、统计模型以及其他时间序列基础模型相比,可以获得更好的性能。有趣的是,本研究的上下文微调方法甚至可以与在目标领域上明确微调的基础模型的性能相媲美
图片

引言

本研究关注时间序列预测领域,特别是时间序列基础模型的上下文微调方法。时间序列数据在零售、金融、制造、医疗和自然科学等领域无处不在,时间序列预测在这些领域中至关重要,例如零售预测、气候和天气预测以及交通预测等应用。深度学习方法在预测领域已变得流行,其性能通常优于ARIMA等统计方法。然而,直到最近,用于预测的深度学习方法仍遵循传统的监督机器学习框架,即必须先在特定任务的训练数据上训练预测模型,然后才能对该任务执行预测。另一方面,在自然语言处理(NLP)领域,大型语言模型(LLM)展现了基础模型的潜力:单个预训练模型可以在推理时以零样本或少样本方式很好地执行并适应翻译、代码生成、文本摘要等任务。

受NLP领域成功的启发,近年来时间序列基础模型预测领域的研究工作显著增加,范围涵盖直接将LLM重新用于预测,在时间序列数据上微调预训练的LLM,以及从头开始预训练时间序列基础模型。其中,从头预训练的方法已被证明可以获得强大的零样本精度,甚至可以与专门针对目标数据集训练的最佳监督模型相媲美。一些研究表明,通过在目标数据集上微调预训练模型可以进一步提高精度。然而,这种方法打破了零样本范式,而零样本范式正是这些时间序列基础模型吸引那些不想构建训练流程的实践者的原因。这就提出了一个自然而然的问题:能否通过在推理时提供来自目标数据集的示例来恢复微调时间序列基础模型的优势?

同时,这些基础模型的早期版本缺乏LLM在上下文学习方面的一些理想特性:LLM的零样本性能可以通过在推理时使用其上下文窗口进行诸如少样本、思维链或指令微调等提示技术来极大地提高。这些研究已经证明了LLM涌现的上下文学习能力。特别是,如果用相关的示例、演示和指令提示它们,然后提出一个专门的问题,模型能够对当前的问题进行类似的推理。

本研究探索了一种方法,使时间序列基础模型能够具备类似的上下文能力,即能够使用来自目标领域的时序数据示例对模型进行提示,并恢复特定领域微调的优势。本研究将此称为上下文微调。本研究训练了一个基础模型,该模型不仅可以在其上下文窗口中提供时间序列的历史值,还可以提供来自其他相关时间序列的示例,以帮助模型在推理时适应目标时间序列的分布。例如,考虑一个高速公路交通预测系统,该系统存储过去一周的每小时数据,以便预测特定高速公路未来的每小时交通流量。假设一个时间序列基础模型在预训练中没有见过能够捕捉此交通数据中时间模式的数据。那么,仅用该高速公路前一周的交通时间序列提示模型可能不足以获得准确的零样本性能。然而,在提示中添加来自其他高速公路和几周的历史交通数据,可能有助于模型更好地适应交通数据分布,并显著提高目标精度。

本研究的主要贡献如下:(1)引入了时间序列基础模型的上下文微调研究,并提出了使用提示的方法,该提示不仅包括用于预测的目标时间序列的通常历史记录,还包括上下文中的相关时间序列示例。(2)预训练了一个能够有效利用上述上下文时间序列示例的时间序列基础模型。本研究的训练是仅解码器的,可以适应任何上下文、预测范围对(不超过某个最大上下文),以及任何数量的补充时间序列示例(同样不超过某个最大示例数)。经过适当训练的模型可以学习借鉴这些相关示例中的模式,从而在原始预测任务上做得更好。(3)使用本研究的基础模型,通过在流行的预测基准上进行评估,经验证明了上下文微调的优势。结果表明,与监督深度学习方法、统计模型以及其他基础模型相比,上下文微调可以显著提高流行预测基准上的零样本性能。特别是,它比最先进的时间序列基础模型以及其他监督深度学习和统计基线获得了高达 25% 的性能提升。令人惊讶的是,它甚至略微优于专门针对目标数据集进行微调的时间序列基础模型

论文创新点

本研究提出了时间序列基础模型的上下文微调方法论。该方法论的核心在于,在推理阶段,通过在模型的上下文窗口中提供多个相关的历史时间序列样本来提示预训练基础模型,以预测目标时间序列的未来值。

  1. 引入上下文微调概念:

    • 与传统的微调方法需要在目标数据集上进行显式训练不同,本研究提出的方法允许模型在推理时利用上下文中的示例进行自适应。
    • 这避免了额外的训练过程,并保留了零样本预测的优势。
  2. 🌠 设计专用训练基础模型: 🌠

    • 该模型能够有效地利用上下文窗口中的多个相关时间序列示例。
    • 除了目标时间序列的历史数据外,模型还能利用上下文中的其他示例来学习目标领域的特定分布,从而提高预测的准确性。
  3. 🔧 改进模型架构设计: 🔧

    • 使其能够更好地处理上下文示例中的分隔符、跨示例注意力和位置编码。
    • 采用了改进的TimesFM模型架构,并引入了可学习的分隔符标记来区分不同的上下文示例,同时允许Transformer模型对所有先前的标记(包括分隔符标记)进行因果注意。
    • 此外,本研究采用了无位置编码(NoPE)的设计,以提高模型的长度泛化能力,并避免在继续预训练阶段出现位置编码含义不一致的问题。
  4. 🧩 独特的预训练数据生成策略: 🧩

    • 包括上下文生成和数据集混合。
    • 在上下文生成阶段,本研究采用了两种分组方式:时间序列级别分组和数据集级别分组,以确保分组的示例具有相似的模式,以便模型从中学习。
    • 在数据集混合阶段,本研究使用了除Wiki数据集之外的所有预训练数据集来生成上下文示例,并为时间序列级别和数据集级别的示例赋予相同的权重。
  5. 🏆 验证有效性: 🏆

    • 通过在Monash和ETT等流行的预测基准数据集上进行评估,验证了上下文微调方法的有效性。
    • 实验结果表明,与监督深度学习方法、统计模型以及其他时间序列基础模型相比,上下文微调可以显著提高零样本预测的性能。
    • 尤其值得一提的是,本研究的上下文微调方法甚至略微优于在目标数据集上进行显式微调的基础模型,这突显了该方法在实际应用中的巨大潜力。

论文实验

图片
图片
图片
图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/909507.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0开始学习语言模型--Day02-如何最大化利用硬件

如何利用硬件 这个单元分为内核、并行处理和推理。 内核(Kernels) 我们说的内核一般指的就是GPU,这是我们用于计算的地方,一般说的计算资源就指的是GPU的大小。我们模型所用的数据和参数一般存储在内存里,假设把内存…

ElasticSearch配置详解:设置内存锁定的好处

什么是内存锁定 "bootstrap": {"memory_lock": "true" }内存锁定是指将Elasticsearch的JVM堆内存锁定在物理内存中,防止操作系统将其交换(swap)到磁盘。 内存交换是操作系统的虚拟内存管理机制,当…

成功解决 ValueError: Unable to find resource t64.exe in package pip._vendor.distlib

解决问题 我们在本地的命令行中运行指令"python -m pip install --upgrade pip"的时候,报了如下的错误: 解决思路 我们需要重新安装一下pip。 解决方法 步骤1: 通过执行下面的指令删除本地的pip: python -m pip uninstall pip…

仓库物资出入库管理系统源码+uniapp小程序

一款基于ThinkPHPuniapp开发的仓库物资出入库管理系统,适用于单位内部物资采购、发放管理的库存管理系统。提供全部无加密源码,支持私有化部署。 更新日志: 新增 基于UNIAPP开发的手机端,适配微信小程序 新增 字典管理 新增页面…

基于机器学习的逐巷充填开采岩层运动地表沉降预测

基于机器学习的逐巷充填开采岩层运动地表沉降预测 1. 项目概述 本报告详细介绍了使用Python和机器学习技术预测逐巷充填开采过程中地表沉降的方法。通过分析地质参数、开采参数和充填参数,构建预测模型评估地表沉降风险。 # 导入必要的库 import numpy as np import pandas…

MotleyCrew ——抛弃dify、coze,手动搭建多agent工作流

1. MotleyCrew 核心组件 - 协调器: Crew MotleyCrew 的核心是一个 “Crew” 对象,即多代理系统的指挥者。Crew 持有一个全局的知识图谱(使用 Kuzu 图数据库),用于记录所有任务、任务单元和其执行状态。 Cr…

掌握这些 Python 函数,让你的代码更简洁优雅

在 Python 编程世界里,代码的简洁性与可读性至关重要。简洁优雅的代码不仅便于自己后期维护,也能让其他开发者快速理解逻辑。而 Python 丰富的内置函数和一些实用的第三方库函数,就是实现这一目标的有力武器。接下来,就为大家介绍…

简说ping、telnet、netcat

简说 ping 和 telnet 命令的作用、用法和区别,方便理解它们在网络诊断中的用途。 🌐 ping 命令 ✅ 作用: ping 用于检测网络连通性。它通过向目标主机发送 ICMP Echo 请求 并等待回应,从而判断目标主机是否可达,并测…

基于STM32的超声波模拟雷达设计

一、雷达概述 雷达(Radio Detection and Ranging,无线电探测与测距)是一种利用电磁波探测目标位置、速度等信息的主动式传感器系统。其基本原理是发射电磁波并接收目标反射的回波,通过分析回波的时间差、频率变化等参数&#xff0…

飞书多维表格利用 Amazon Bedrock AI 能力赋能业务

背景 飞书多维表格是一款功能强大的在线数据管理与协作工具。它打破传统表格局限,将电子表格与数据库特性融合,支持看板、甘特图、表单等多种视图自由切换,可根据项目进度、任务管理等不同场景灵活展示数据。其丰富的字段类型能精准适配各类…

表格对比工具推荐,快速比对Excel文件

软件介绍 今天为大家推荐一款专为Excel用户设计的表格比较工具,简单易用,零基础也能快速掌握。 轻量高效的办公助手 Excel比较工具体积仅为11MB,占用空间小,运行流畅,适合各类电脑配置使用。 简洁明了的操作界面 软…

深入探究其内存开销与JVM布局——Java Record

Java 14引入的Record类型如同一股清流,旨在简化不可变数据载体的定义。它的核心承诺是:​​透明的数据建模​​和​​简洁的语法​​。自动生成的equals(), hashCode(), toString()以及构造器极大地提升了开发效率。 当我们看到这样的代码: …

Vue 3 九宫格抽奖系统,采用优雅的 UI 设计和流畅的动画效果

九宫格抽奖 预览地址 项目简介 这是一个基于 Vue 3 开发的现代化九宫格抽奖系统,采用优雅的 UI 设计和流畅的动画效果,为用户提供极致的抽奖体验。系统支持多种奖品配置,实时抽奖记录展示,以及完整的活动说明功能。 核心功能 …

无缝对接大疆算力平台:基于Coovally的无人机AI模型端到端优化方案

【导读】 随着无人机应用场景的快速拓展,企业对于定制化AI解决方案的需求日益迫切。大疆算力开放平台为开发者提供了专业的模型量化与部署环境,帮助开发者将训练好的AI模型高效部署至大疆无人机平台。 然而,要实现完整的AI开发闭环&#xf…

ubuntu下载CUDA cuDNN

nivida-smi查看显卡驱动版本 (一)安装CUDA cuda官网 cuda官网 下载对应版本的cuda 这个官网真不错啊,下面附上了指令 wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin sudo mv c…

FreeRTOS定时器

目录 1.特性2.运行环境2.1 守护任务2.2 回调函数2.3 内部源码 3.和Linux对比4.ID5.数据传输6.操作函数6.1 创建6.2 删除6.3 启动6.4 停止6.5 复位(重置)6.6 修改周期6.7 注意事项 7.示例:一般使用8.示例:定时器防抖 1.特性 定时器…

JavaScript中的迭代器模式:优雅遍历数据的“设计之道”

JavaScript中的迭代器模式:优雅遍历数据的“设计之道” 一、什么是迭代器模式? 在编程世界中,迭代器模式(Iterator Pattern)是一种经典的设计模式,它的核心思想是:为集合对象提供一种统一的访…

Debian/Ubuntu systemd coredump调试程序Crash

程序是通过systemd监管,当程序出现crash的时候,需要保存crash的日志,也就是coredump日志,按照一般做法设置coredump。而在安装有systemd服务的系统中一般都有systemd-coredump服务。 systemd-coredump 是 systemd 子系统中的一个工…

【图片转 3D 模型】北大·字节跳动·CMU携手——单图15 秒生成结构化3D模型!

​​引言:单图生成结构化 3 D 模型的技术突破​ ​ PartCrafter 由北京大学、字节跳动与卡耐基梅隆大学联合研发,是全球首个​​端到端生成结构化 3 D 网格​​的模型。它仅需单张 RGB 图像,即可在 34 秒内生成带语义分解的 3 D 部件&#xf…

零基础RT-thread第二节:按键控制

我这里依然使用的是野火开发板,F767芯片。 这一节写一下按键控制LED亮灭。 这是按键以及LED的原理图。 按键对应的引脚不按下时是低电平,按下后是高电平。 LED是在低电平点亮。 接下来是key.c: /** Copyright (c) 2006-2021, RT-Thread Development T…