AI+金融,如何跨越大模型和场景鸿沟?

文|白 鸽

编|王一粟

当AI大模型已开始走向千行百业之时,备受看好的金融行业,却似乎陷入了落地瓶颈。

打开手机银行想查下贷款额度,对着屏幕说了半天,AI客服却只回复 “请点击首页贷款按钮”;

客户经理想用大模型生成一份客户资产配置方案,结果推荐的产品与客户风险等级完全不符;

风控团队测试的AI模型,在审批中小企业贷款时频频给出“幻觉答案”......

这些看似荒诞的场景,却是当前AI落地金融行业时的真实困境。

当金融机构满怀期待地将AI请进门,却发现它既读不懂复杂的信贷政策,算不清理财产品的费率结构,更搞不懂不同银行的“行话体系”。

通用大模型的“聪明”,在严肃的金融场景里似乎失灵了,大模型与金融场景之间,也仿佛横亘着一道看不见的鸿沟。

“企业和产业需要的不是实验室的技术,而是真正能够解决真实问题的可信生产力。”蚂蚁数科CEO赵闻飙在2025WAIC智能体驱动产业变革论坛上如此说道。

也正因此,面向AI大模型在具体行业中的落地,想要真正释放AI价值,关键就在于要从水平通用转向垂直专用,只有深度理解行业的大模型,才能懂行话,做行活儿,创造真实的业务价值。

金融行业的AI落地,更是如此。

因此,构建专业的金融大模型是推进金融与AI深度融合的必然路径,未来,金融大模型的应用深度将成为金融机构竞争力的关键要素。

大会上,蚂蚁数科正式发布了一款专为金融领域打造的金融推理大模型Agentar-Fin-R1,其基于Qwen3研发的垂直行业大模型,包括32B和8B参数两个版本,在FinEval1.0、FinanceIQ等权威金融大模型评测基准上表现出色,超越DeepSeek-R1等同尺寸开源通用大模型及金融大模型。

同时,蚂蚁数科还推出基于百灵大模型的MOE架构模型,获得更优推理速度。此外,还有非推理版本的14B和72B参数大模型,以满足金融机构在多样化场景下的部署需求。

“蚂蚁数科主要专注于金融板块,这也意味着把过去所积累的,对客户、对场景以及对解决方案的了解,能更深入地提取并实现向垂直专用的转变。”蚂蚁数科CTO王维说道,“而一个好的垂直大模型,特别是具备强大推理能力的那种,才能成为智能体可控、可信赖并且易于优化的核心组件。”

蚂蚁数科的金融推理大模型,还将通过Expertise、Efficiency、Evolution三大理念,实现金融大模型的深度专业能力和高效迭代,为金融AI应用构建起 “可靠、可控、可优化” 的智能中枢。

那么,为什么AI落地金融行业这么难?蚂蚁数科又是怎么解决这些难题的?

金融不是“题海战术”,得有专业的“课程表”

金融行业的特殊性在于,每个细分领域都有自己的 “知识密码”:

银行的对公业务要分析企业三表(资产负债表、利润表、现金流量表),证券的投研需要理解K线形态与宏观政策的关联,保险的核保要掌握数百条健康告知细则等等。

而通用大模型的 “通识教育” ,在金融行业显然是不够用。

更为重要的一点在于,金融行业很多政策都是在实时变化的。

如去年LPR(贷款市场报价利率)调整后,有银行的AI客服还在按旧利率计算还款额;新的资管新规出台,模型推荐的理财产品突然成了“不合规产品”

因此,很多静态的大模型,根本追不上金融行业的 “政策跑速”。

想要解决这些问题,懂行,且能“实时充电”的垂直大模型成为关键。

事实上,想要训练行业大模型,就需要对行业知识进行系统化地学习,其关键在于一个科学、专业的任务数据体系作为“课程大纲”。

基于长期深耕金融业务的经验,蚂蚁数科给 AI 量身定制一套金融专业 “课程体系”。其梳理出覆盖银行、证券、保险、基金、信托的6大类66小类任务,从 “信用卡逾期风险预测” 到 “基金持仓调整建议”,每个任务都像一门专业课,让模型逐个攻克。

“教材”已经有了,但更关键的则是 “教材” 的质量,毕竟,只有高质量的数据,才能“喂养”出高质量的AI大模型效果。

因此,蚂蚁数科以该金融任务体系为框架,从千亿级交易、风控和财富等场景中积累的真实原始数据出发、经过严格的质量评估、再经过专门设计的可信数据合成和CoT数据精标链路,构建了迄今已知最专业最全面的金融领域训练数据集。

此外,通过加入原则类合成数据,确保大模型在所有任务中都遵循金融业的安全合规要求,以应对例如身份类、合规性、数据安全等问题,提升大模型的安全合规性。

这种 “金融思维链” 训练,让AI不仅能给出答案,更能说清 “为什么这么判断”。

与此同时,在训练层面,蚂蚁数科也做了很多功课,如通过创新的加权训练算法,提高大模型对复杂金融任务的学习效率与性能。在后续业务应用中,可显著减少二次微调的数据需求与算力消耗,有效降低大模型在企业落地的门槛与成本等。

“本质上,任何一个软件或大模型训练,一定要对数据或者训练的算法有更好的工程化能力。”王维说道,“所以我们也结合对数据训练的实践结果,对包括课程学习、差错归因分析、微调过程中算力和数据更好比例配方,如何进行调整权重等算法进行了改良。”

蚂蚁数科的金融推理大模型Agentar-Fin-R1,将这种专业训练发挥到极致,经过专业体系数据集训练的金融大模型,能够达到“出厂即专家”。

此外,蚂蚁数科还给模型装上了 “进化引擎”。

一方面通过RAG技术实时抓取最新政策文件、市场动态,就像给AI开通了“金融资讯VIP通道”;另一方面,模型会定期“体检”,通过Finova评测基准自查能力缺口。比如发现对 “个人养老金账户税收优惠” 理解不到位,就会自动生成相关训练数据,完成针对性升级。

这种自主进化能力,让某股份制银行的智能投顾在新规落地当天就更新了产品推荐逻辑,避免了合规风险,“金融AI不能是‘一次性买卖’,得像金融专家一样持续学习。”

因此,Agentar-Fin-R1能够实现不断更新迭代,吸收最新的金融政策、市场动态等关键信息,并通过配套评测工具进行针对性优化,让模型能力在真实业务场景中不断进化。

以保险行业为例,当新的保险法规出台,对某些险种的理赔条件或费率计算方式做出调整时,Agentar-Fin-R1能迅速捕捉到这些变化,自动更新相关知识,并在后续处理保险业务时,按照新的规则进行准确操作,确保保险机构的业务始终符合法规要求 。

无疑,垂直行业大模型的能力问题已经解决,但最终还是要让AI能够真正嵌入业务流程。

从“能说话”到“会做事”,智能体架起最后一座桥

如果说金融推理大模型是金融AI落地的大脑,那么智能体就是给这个大脑装上了手脚,成为AI大模型落地企业业务场景中最关键的形态。

“智能体的价值,不在于解决1000个浅层问题,而在于攻克行业深层痛点。”赵闻飙说,“智能体要围绕场景出发,适应企业业务场景,才能在专业知识领域价值最大化。”

事实上,智能体的核心就是将模型大脑与自动化工具结合,完成从对话到执行的跃升,这也成为智能体在产业落地的关键。

今年4月,蚂蚁数科发布智能体开发平台Agentar,为金融机构提供一站式、全栈的智能体开发工具,基于该智能体平台,蚂蚁数科整把AI从“聊天机器人”变成“业务多面手”。

如蚂蚁数科助力上海某银行打造的AI手机银行,创新“对话即服务”模式,用户通过自然对话即可获取各类金融服务,这种 “对话即服务” 的模式,让老年客户满意度提升显著,月活用户同比增长25%。目前,蚂蚁数科累计已服务100%的国有银行和股份制银行、超60%的地方性商业银行、数百家金融机构。

而这背后就得益于蚂蚁数科联合上海银行共同打造的AI客服智能体,“可以说重塑了服务的本质,通过AI实现了服务的宜人化。”赵闻飙说道。

无疑,智能体成为AI大模型从 “能说话” 到 “会做事”的关键桥梁。

这背后,是蚂蚁数科智能体把大模型能力与金融业务系统无缝对接,就像给AI配备了“工具箱”,需要算收益时调用计算器,需要查征信时对接征信系统,需要写报告时调用文档生成工具。

当然,“智能体背后不仅是大模型的能力,更重要的是专业度,要把专业的数据激活,所以在像金融这一类行业中,我们能够把蚂蚁的经验输出出来,这将是非常有价值的事情,且能够给行业带来更多智能体标杆应用案例。”王维说道。

相比于其他行业,金融AI落地进展并不迅速,但实际上整个金融AI和金融智能体已经重塑了很多金融类的企业级流程,其也正从copilot的辅助角色,慢慢变成一个决策者角色。

“智能体其实是改写了软件的底层规则,基于其泛化能力和可以自主编程代码能力,我们也相信智能体会越来越在企业级复杂场景中大放异彩。”王维说道。

不过,金融智能体这件事情只有进行时,没有完成时,所以Everything还在继续。

或许在不久的将来,当我们再用AI处理金融业务时,会忘记它是“人工智能”,只觉得它是一位懂业务、守规矩、会变通的“老金融人”——这大概就是AI落地金融的最高境界。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/91303.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/91303.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度解析:从零构建跨平台对象树管理系统(YongYong框架——QT对象树机制的现代化替代方案)

一、技术背景与核心价值 1.1 QT对象树的局限性 在Qt框架中,QObject通过对象树机制实现了革命性的对象管理: #mermaid-svg-SvqKmpFjg76R02oL {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Sv…

力扣46:全排列

力扣46:全排列题目思路代码题目 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 思路 看到所有可能首先想到的就是回溯。 回溯的结束条件也很好写,用数组的长度来判断即可。这道题的难点主要是如何进行判…

mac环境配置rust

rustup 是一个命令行工具,用于管理 Rust 编译器和相关工具链 sh 体验AI代码助手 代码解读复制代码curl --proto ‘https’ --tlsv1.2 -sSf https://sh.rustup.rs | sh使得 Rust 的安装在当前 shell 环境中生效 如果你使用的是 bash, zsh 或其他类似的 shell&#xf…

脚手架搭建React项目

脚手架搭建项目 1. 认识脚手架工具 1.1. 前端工程的复杂化 1.1.1. 如果只是开发几个小的demo程序,那么永远不要考虑一些复杂的问题: 比如目录结构如何组织划分;比如如何关键文件之间的相互依赖;比如管理第三方模块的依赖&#xff…

Golang 调试技巧:在 Goland 中查看 Beego 控制器接收的前端字段参数

🐛 Golang 调试技巧:在 Goland 中查看 Beego 控制器接收的前端字段参数 在使用 Beego 开发 Web 项目时,我们常常会在控制器中通过 c.GetString()、c.GetInt() 等方法获取前端页面传过来的字段值。而在调试过程中,如何在 Goland 中…

sqli-labs:Less-2关卡详细解析

1. 思路🚀 本关的SQL语句为: $sql"SELECT * FROM users WHERE id$id LIMIT 0,1";注入类型:数值型提示:参数id无需考虑闭合问题,相对简单 2. 手工注入步骤🎯 我的地址栏是:http://l…

TRAE 软件使用攻略

摘要TRAE 是一款集成了人工智能技术的开发工具,旨在为开发者提供高效、智能的编程体验。它包括三个主要组件:TRAE IDE、TRAE SOLO 和 TRAE 插件。无论是编程新手还是经验丰富的开发者,都可以通过 TRAE 提高工作效率和代码质量。标题一&#x…

将开发的软件安装到手机:环境配置、android studio设置、命令行操作

将开发的软件安装到手机环境配置android studio4.1.2安装命令行操作环境配置 注意:所有的工具的版本都需要根据当下自己的软件需要的。 Node:14.16.0 (如果安装了npm,可以使用npm进行当前使用node版本的更改) &#x…

Jmeter 命令行压测、HTML 报告、Jenkins 配置目录

Jmeter 命令行压测 & 生成 HTML 测试报告 通常 Jmeter 的 GUI 模式仅用于调试,在实际的压测项目中,为了让压测机有更好的性能,多用 Jmeter 命令行来进行压测。 官方:Jmeter 最佳实践 同时,JMeter 也支持生成 HT…

记录几个SystemVerilog的语法——覆盖率

1. 前言 通常说的覆盖率有两种类型:code coverage(代码覆盖率)和functional coverage(功能覆盖率)。代码覆盖率是使用EDA工具自动从设计代码里提取出来的,功能覆盖率是用户指定的,用于衡量测试设计意图和功能进展。因此,功能覆盖…

深度学习基础—2

第一章、参数初始化 我们在构建网络之后,网络中的参数是需要初始化的。我们需要初始化的参数主要有权重和偏置,偏重一般初始化为 0 即可,而对权重的初始化则会更加重要,我们介绍在 PyTorch 中为神经网络进行初始化的方法。 1.1 常…

PyTorch深度学习快速入门学习总结(三)

现有网络模型的使用与调整 VGG — Torchvision 0.22 documentation VGG 模型是由牛津大学牛津大学(Oxford University)的 Visual Geometry Group 于 2014 年提出的卷积神经网络模型,在 ImageNet 图像分类挑战赛中表现优异,以其简…

是否需要买一个fpga开发板?

纠结要不要买个 FPGA 开发板?真心建议搞一块,尤其是想在数字电路、嵌入式领域扎根的同学,这玩意儿可不是可有可无的摆设。入门级的选择不少,全新的像 Cyclone IV、Artix 7 系列,几百块就能拿下,要是去二手平…

【模型细节】MHSA:多头自注意力 (Multi-head Self Attention) 详细解释,使用 PyTorch代码示例说明

MHSA:使用 PyTorch 实现的多头自注意力 (Multi-head Self Attention) 代码示例,包含详细注释说明:线性投影 通过三个线性层分别生成查询(Q)、键(K)、值(V)矩阵: QWq⋅x,KWk⋅x,VWv⋅xQ W_qx, \quad K W_kx, \quad V W_vxQWq​⋅x,KWk​⋅x…

PGSQL运维优化:提升vacuum执行时间观测能力

本文是 IvorySQL 2025 生态大会暨 PostgreSQL 高峰论坛上的演讲内容,作者:NKYoung。 6 月底济南召开的 HOW2025 IvorySQL 生态大会上,我在内核论坛分享了“提升 vacuum 时间观测能力”的主题,提出了新增统计信息的方法&#xff0c…

神奇的数据跳变

目的 上周遇上了一个非常奇怪的问题,就是软件的数据在跳变,本来数据应该是158吧,数据一会变成10,一会又变成158,数据在不断地跳变,那是怎么回事?? 这个问题非常非常的神奇,让人感觉太不可思议了。 这是这段时间,我遇上的最神奇的事了,没有之一,最神奇的事,下面…

【跨国数仓迁移最佳实践3】资源消耗减少50%!解析跨国数仓迁移至MaxCompute背后的性能优化技术

本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第3篇,解析跨国数仓迁移背后的性能优化技术。注:客户背景为东南亚头部科技集团,文中用 GoTerra …

【MySQL集群架构与实践3】使用Dcoker实现读写分离

目录 一. 在Docker中安装ShardingSphere 二 实践:读写分离 2.1 应用场景 2.2 架构图 2.3 服务器规划 2.4 启动数据库服务器 2.5. 配置读写分离 2.6 日志配置 2.7 重启ShardingSphere 2.8 测试 2.9. 负载均衡 2.9.1. 随机负载均衡算法示例 2.9.2. 轮询负…

maven的阿里云镜像地址

在 Maven 中配置阿里云镜像可以加速依赖包的下载,尤其是国内环境下效果明显。以下是阿里云 Maven 镜像的配置方式: 配置步骤:找到 Maven 的配置文件 settings.xml 全局配置:位于 Maven 安装目录的 conf/settings.xml用户级配置&am…