影楼精修-智能修图Agent

今天给大家介绍一篇令人惊喜的论文《JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent》

论文地址:https://arxiv.org/pdf/2506.17612

Code(暂无代码):https://github.com/LYL1015/JarvisArt

项目主页:https://jarvisart.vercel.app/

国内主页:https://www.jarvisart.site/

这篇论文最大的亮点是给大家介绍了一个智能修图Agent:JarvisArt,它是一种由多模态大型语言模型(MLLM)驱动的智能照片修图代理,旨在通过理解和模仿专业艺术家的推理过程,实现高质量的图像编辑。个人认为这也是修图行业的未来趋势,未来的修图将会是一个基于语音+文字交互的Agent,而这个论文将这个未来变得越来越近。

JarvisArt这个Agent可以实现什么功能?用户如何使用?

答案很简单,用户输入一张图,然后输入修图的简单描述prompt,JarvisArt会使用MLLM对prompt进行分析,比如调色分析,最终得出用户输入图需要进行的调色步骤和指令,这些指令将包含lightroom的各项调色功能参数,将这些指令下发给Lightroom的200+工具,由工具执行对用户原图进行调色,最终得到调色效果图;

项目界面如下图所示:

创新点

这篇论文创新点总结:

  1. 多模态大语言模型驱动(MLLM-driven)

    1. 支持图像 + 文本输入;

    2. 使用自然语言和区域框等多模态交互方式。

  2. 模仿专业修图师的思维过程

    1. 采用 Chain-of-Thought(CoT)训练模型先“思考”如何修图,再给出参数操作。

  3. 与 Lightroom 集成

    1. 通过提出 Agent-to-Lightroom (A2L) Protocol,让智能体能调用超过 200 项 Lightroom 操作指令,进行非破坏性编辑。

方案流程

JarvisArt 的总体流程可分为三大模块 + 一条训练主线:

1.多模态上下文理解(Multi-modal Context Understanding)

  • 输入:用户图像、自然语言指令、可选区域框或笔刷标记;

  • 模型通过图像 + 文本联合理解,明确目标风格、区域及期望效果;

  • 示例指令:“请使眼睛更亮,在框 <box>[x1,y1,x2,y2]</box> 内增强发质”

2.策略推理与参数规划(Strategic Reasoning)

  • 使用 Chain-of-Thought 思维链结构

    • <think> 标签内写出模型的修图思路,如先调色温再调整曝光等;

  • 生成的 reasoning 过程符合摄影美学和人类逻辑。

3.工具编排与操作执行(Tool Orchestration)

  • 将上述思路转化为 Lightroom 的操作指令:

    • <answer> 标签内为一组 Lightroom 参数配置(称为 ROC 文件);

    • 支持多种类型的局部蒙版(径向、线性、人物、颜色等);

  • 最终由 JarvisArt 调用 A2L 协议将参数发送给 Lightroom 实际执行。

算法层面上,JarvisArt实现了这样一个函数:

两阶段训练流程(核心算法机制)

Ⅰ. CoT SFT:链式思维的监督微调
  • 基于人工构造的 CoT 注释训练模型建立初步的:

    • 指令理解能力;

    • 编辑逻辑;

    • Lightroom 操作熟练度。

Ⅱ. GRPO-R:基于奖励的强化优化策略
  • 提出新的 Group Relative Policy Optimization for Retouching 方法,结合三类奖励:

    • 格式奖励:结构化输出格式是否规范;

    • 参数匹配奖励(ROA):是否选对工具、设置合适参数;

    • 感知质量奖励(PQ):编辑后图片是否视觉美观、保留内容。

MMArt-55K 数据集

论文研究团队构建了MMArt-55K 数据集(5K标准 + 50K思维链样本)。

数据生成管道如下图所示:

  • 图像对和Lightroom配置生成:从PPR10K、Adobe Lightroom社区和授权的开源集合中获取原始图像Isrc,创建多样化的全球和本地艺术预设库。使用Qwen2.5-VL-72B进行多模态角色扮演和Grounding DINO进行精确区域定位,模拟专家级编辑,生成图像对和Lightroom配置ROC文件。每个样本数据表示为<Isrc,Itgt,Q,C,O>,其中Isrc表示原始图像,Itgt表示目标图像,Q是用户指令,C是用标签包装的CoT推理,O是标签内的修图操作配置ROC文件,这些文件是lightroom可执行的操作文件;

该管道按以下步骤进行:1)策划多样化的源目标示例,涵盖不同的场景和风格,以及相应的Lightroom配置;2)生成反映用户意图的自然语言指令;3)生成逐步的推理痕迹。

  • 用户指令生成:为了模拟多样化的编辑意图,使用Qwen2.5-VL-72B和一个角色扮演提示将每个<Isrc,Itgt,O>三元组转换为场景级和区域级指令Q,覆盖简单的全局编辑和精确的局部调整。

  • 推理过程生成:对于每个样本四元组<Isrc,Itgt,Q,O>,应用QVQ-max的先进视觉推理生成初始CoT注释。为了消除冗余并强制人类般的连贯性,随后使用Qwen2.5-VL-72B通过迭代多模态提示细化这些痕迹,产生简洁、上下文丰富的推理过程C。

上面就是这篇文章的介绍,目前代码尚未开源,但论文为我们提供了一套可行的方案思路,修图Agent是未来趋势,以像素蛋糕为例,目前像素蛋糕的各项修图功能已经基本完善,完全可以基于这些功能,构建数据集,进而构建自有的修图Agent,届时将会给修图行业带来新的用户体验!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/913034.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/913034.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

帕金森与健康人相关数据和处理方法(一些文献的记录)

主要的帕金森脑电数据进行一些分类分析的文章。 帕金森病 2004 年至 2023 年脑电图研究的文献计量分析对于研究的分析以及关键研究和趋势从脑电图信号中检测帕金森病&#xff0c;采用离散小波变换、不同熵度量和机器学习技术使用机器学习和深度学习方法分析不同模态的数据以诊…

优象光流模块,基于python的数据读取demo

优象光流模块&#xff0c;型号UP-FLOW-LC-302-3C&#xff0c;准备将其应用于设备的运行速度测量&#xff0c;物美价廉。 厂家提供的数据格式表&#xff1a; 实测用python的serial包readline()函数读取到的帧数据&#xff1a; 与官方的给定略有出入&#xff0c;不过主要字节的顺…

模型部署与推理--利用libtorch模型部署与推理

文章目录 1从pytorch导出pt文件2下载并配置libtorch3推理4结果&#xff1a;时间对比&#xff1a;推理结果&#xff1a; 参考 以deeplabv3plus为例讲解怎么利用libtorch部署在c上模型。关于libtorch和pt文件请参考我之前的博客。 1从pytorch导出pt文件 if __name__ __main__: …

芯得EP.21丨基于极海APM32F4的TencentOS Tiny实时操作系统移植详解

《APM32芯得》系列内容为用户使用APM32系列产品的经验总结&#xff0c;均转载自21ic论坛极海半导体专区&#xff0c;全文未作任何修改&#xff0c;未经原文作者授权禁止转载。 如遇技术问题&#xff0c;可前往 极海半导体开发者论坛 1 前言 最近在了解TencentOS的特性&#xf…

【Docker基础】Docker数据持久化与卷(Volume)介绍

目录 1 Docker数据持久化概述 1.1 为什么需要数据持久化 1.2 Docker数据管理方式对比 2 Docker卷(Volume)核心概念 2.1 数据卷基本特性 2.2 卷类型详解 2.2.1 命名卷(Named Volumes) 2.2.2 匿名卷(Anonymous Volumes) 2.2.3 主机绑定卷(Host Volumes) 3 数据卷操作全…

yolo8,10,11之处理不平衡类别问题

一、前言 使用 yolo11进行目标检测时&#xff0c;发现训练数据集存在类别数量不平衡的情况&#xff0c;查阅了一下资料&#xff0c;可采取以下方法。 二、样本增强 少数类的框是独立存在于图片中&#xff0c;则可通过颜色、亮度、几何变换等方法人为增加少数类的样本数&#x…

基于 51 单片机做的二十四点小游戏

用 51 单片机做的二十四点小游戏 一、任务要求 设计一个模拟纸牌 24 点玩法的单片机模拟器&#xff0c;由单片机随机发出四个牌点&#xff0c;测试者在实验板按键上输入计算过程&#xff0c;单片机判断计算结果是否正确&#xff0c;并评定测试者的成绩。 【基本要求】&#…

Hadoop WordCount 程序实现与执行指南

Hadoop WordCount 程序实现与执行指南 下面是使用Python实现的Hadoop WordCount程序,包含完整的Mapper和Reducer部分。 这个程序可以在PyCharm中本地测试,也可以部署到远程Hadoop集群上运行。 mapper.py import sys# 从标准输入读取数据 for line in sys.stdin:# 移除行首…

数据可视化:5 分钟读懂其核心价值与技术实践

为什么数据可视化成为企业数字化转型的“必修课”&#xff1f;在信息爆炸的时代&#xff0c;企业每天产生海量数据&#xff0c;从客户行为到销售业绩&#xff0c;从供应链运作到市场趋势。如何从这些原始数据中快速提炼有价值的信息&#xff1f;如何将复杂数据转化为直观易懂的…

Python 量化交易安装使用教程

一、什么是量化交易&#xff1f; 量化交易是通过数学模型和计算机程序&#xff0c;自动化地执行证券买卖决策的交易方式。Python 凭借其丰富的生态和强大的数据处理能力&#xff0c;成为量化交易的首选语言。 二、环境准备 建议使用 Anaconda 安装 Python 3.8&#xff0c;方便…

从 PostgreSQL 到 DolphinDB:数据实时同步一站式解决方案

随着越来越多的用户使用 DolphinDB&#xff0c;各种不同的应用的场景也对 DolphinDB 的数据接入提出了不同的要求。部分用户需要将 PostgreSQL 的数据实时同步到 DolphinDB 中来&#xff0c;以满足在 DolphinDB 中使用数据的实时性需求。本篇教程将介绍使用 Debezium 来实时捕获…

关于联咏(Novatek )白平衡色温坐标系探究

目录 一、疑问 二、结论 三、分析 四、释疑 五、仿真模拟 一、疑问 为什么Novatek的白平衡色温坐标系是这个样子的呢?各条直线和曲线分别代表什么含义呢?色温坐标系中所标定的参数代表什么含义呢?如何标定新增一些特殊的光源呢?二、结论

Protein FID:AI蛋白质结构生成模型评估新指标

一、引言&#xff1a;蛋白质生成模型面临的评估挑战 近年来&#xff0c;AI驱动的蛋白质结构生成模型取得了令人瞩目的进展&#xff0c;但如何有效评估这些模型的质量却一直是一个悬而未决的问题。虽然实验验证仍然是金标准&#xff0c;但计算机模拟评估对于快速开发和比较机器…

Vim 高效编辑指南:从基础操作到块编辑的进阶之路

文章目录🔠 一、基础编辑命令(生存必备)⚡ 二、进阶操作:可视化块模式 (Ctrl+v)典型应用场景🚀 三、效率提升技巧💡 四、配置建议(~/.vimrc)结语作为开发者最强大的文本编辑器之一,Vim 的高效操作离不开其命令模式(Normal Mode)。本文将系统性地介绍 Vim 的核心编…

docker学习第一天框架学习以及在redhat7.9安装操作

一.docker是什么。 Docker 是一个开源的容器化平台&#xff0c;通过将应用程序及其依赖项&#xff08;如代码、运行时环境、系统工具等&#xff09;打包到轻量级、可移植的容器中&#xff0c;实现「一次构建&#xff0c;处处运行」的现代化开发模式。它利用了 Linux 内核特性来…

QT控件 使用Font Awesome开源图标库修改QWidget和QML两种界面框架的控件图标

又一个月快要结束了&#xff0c;在这里总结下分别在QWidget和QML两种界面设计模式中应用Font Awesome开源图标库&#xff0c;修改界面的显示图标效果&#xff0c; AriaNg是aria2的可视化web界面工具,其中的图标大都是Font AWesome中的字体图标&#xff0c;某位曾经尝试将AriaNg…

Qt Quick 与 QML(四)qml中的Delegate系列委托组件

一、概念 在QML中&#xff0c;Delegate是一种非常重要的组件&#xff0c;特别是在使用ListView、GridView、PathView等视图组件时。Delegate用于定义每个列表或网格中的项目是如何展示的。通过自定义Delegate&#xff0c;你可以控制每个项目的外观和行为。 Delegate通常是一个…

android图片优化

在 Android 中加载大图时&#xff0c;如果不进行优化处理&#xff0c;很容易导致内存溢出&#xff08;OOM&#xff09;和应用卡顿。以下是几种高效处理大图加载的方法和最佳实践&#xff1a; 1. 使用图片加载库&#xff08;推荐&#xff09; 成熟的第三方库已经处理了内存管理…

【机器人】复现 DOV-SG 机器人导航 | 动态开放词汇 | 3D 场景图

DOV-SG 建了动态 3D 场景图&#xff0c;并使用LLM大型语言模型进行任务分解&#xff0c;从而能够在交互式探索过程中对 3D 场景图进行局部更新。 来自RA-L 2025&#xff0c;适合长时间的 语言引导移动操作&#xff0c;动态开放词汇 3D 场景图。 论文地址&#xff1a;Dynamic …

mongodb 中dbs 时,local代表的是什么

在 MongoDB 中&#xff0c;local 是一个内置的系统数据库&#xff0c;用于存储当前 MongoDB 实例&#xff08;或副本集节点&#xff09;的元数据和内部数据&#xff0c;与其他数据库不同&#xff0c;local 数据库的数据不会被复制到副本集的其他成员。 local 数据库的核心作用 …