AI+金融，如何跨越大模型和场景鸿沟？

文｜白鸽

编｜王一粟

当AI大模型已开始走向千行百业之时，备受看好的金融行业，却似乎陷入了落地瓶颈。

打开手机银行想查下贷款额度，对着屏幕说了半天，AI客服却只回复 “请点击首页贷款按钮”；

客户经理想用大模型生成一份客户资产配置方案，结果推荐的产品与客户风险等级完全不符；

风控团队测试的AI模型，在审批中小企业贷款时频频给出“幻觉答案”......

这些看似荒诞的场景，却是当前AI落地金融行业时的真实困境。

当金融机构满怀期待地将AI请进门，却发现它既读不懂复杂的信贷政策，算不清理财产品的费率结构，更搞不懂不同银行的“行话体系”。

通用大模型的“聪明”，在严肃的金融场景里似乎失灵了，大模型与金融场景之间，也仿佛横亘着一道看不见的鸿沟。

“企业和产业需要的不是实验室的技术，而是真正能够解决真实问题的可信生产力。”蚂蚁数科CEO赵闻飙在2025WAIC智能体驱动产业变革论坛上如此说道。

也正因此，面向AI大模型在具体行业中的落地，想要真正释放AI价值，关键就在于要从水平通用转向垂直专用，只有深度理解行业的大模型，才能懂行话，做行活儿，创造真实的业务价值。

金融行业的AI落地，更是如此。

因此，构建专业的金融大模型是推进金融与AI深度融合的必然路径，未来，金融大模型的应用深度将成为金融机构竞争力的关键要素。

大会上，蚂蚁数科正式发布了一款专为金融领域打造的金融推理大模型Agentar-Fin-R1，其基于Qwen3研发的垂直行业大模型，包括32B和8B参数两个版本，在FinEval1.0、FinanceIQ等权威金融大模型评测基准上表现出色，超越DeepSeek-R1等同尺寸开源通用大模型及金融大模型。

同时，蚂蚁数科还推出基于百灵大模型的MOE架构模型，获得更优推理速度。此外，还有非推理版本的14B和72B参数大模型，以满足金融机构在多样化场景下的部署需求。

“蚂蚁数科主要专注于金融板块，这也意味着把过去所积累的，对客户、对场景以及对解决方案的了解，能更深入地提取并实现向垂直专用的转变。”蚂蚁数科CTO王维说道，“而一个好的垂直大模型，特别是具备强大推理能力的那种，才能成为智能体可控、可信赖并且易于优化的核心组件。”

蚂蚁数科的金融推理大模型，还将通过Expertise、Efficiency、Evolution三大理念，实现金融大模型的深度专业能力和高效迭代，为金融AI应用构建起 “可靠、可控、可优化” 的智能中枢。

那么，为什么AI落地金融行业这么难？蚂蚁数科又是怎么解决这些难题的？

金融不是“题海战术”，得有专业的“课程表”

金融行业的特殊性在于，每个细分领域都有自己的 “知识密码”：

银行的对公业务要分析企业三表（资产负债表、利润表、现金流量表），证券的投研需要理解K线形态与宏观政策的关联，保险的核保要掌握数百条健康告知细则等等。

而通用大模型的 “通识教育” ，在金融行业显然是不够用。

更为重要的一点在于，金融行业很多政策都是在实时变化的。

如去年LPR（贷款市场报价利率）调整后，有银行的AI客服还在按旧利率计算还款额；新的资管新规出台，模型推荐的理财产品突然成了“不合规产品”

因此，很多静态的大模型，根本追不上金融行业的 “政策跑速”。

想要解决这些问题，懂行，且能“实时充电”的垂直大模型成为关键。

事实上，想要训练行业大模型，就需要对行业知识进行系统化地学习，其关键在于一个科学、专业的任务数据体系作为“课程大纲”。

基于长期深耕金融业务的经验，蚂蚁数科给 AI 量身定制一套金融专业 “课程体系”。其梳理出覆盖银行、证券、保险、基金、信托的6大类66小类任务，从 “信用卡逾期风险预测” 到 “基金持仓调整建议”，每个任务都像一门专业课，让模型逐个攻克。

“教材”已经有了，但更关键的则是 “教材” 的质量，毕竟，只有高质量的数据，才能“喂养”出高质量的AI大模型效果。

因此，蚂蚁数科以该金融任务体系为框架，从千亿级交易、风控和财富等场景中积累的真实原始数据出发、经过严格的质量评估、再经过专门设计的可信数据合成和CoT数据精标链路，构建了迄今已知最专业最全面的金融领域训练数据集。

此外，通过加入原则类合成数据，确保大模型在所有任务中都遵循金融业的安全合规要求，以应对例如身份类、合规性、数据安全等问题，提升大模型的安全合规性。

这种 “金融思维链” 训练，让AI不仅能给出答案，更能说清 “为什么这么判断”。

与此同时，在训练层面，蚂蚁数科也做了很多功课，如通过创新的加权训练算法，提高大模型对复杂金融任务的学习效率与性能。在后续业务应用中，可显著减少二次微调的数据需求与算力消耗，有效降低大模型在企业落地的门槛与成本等。

“本质上，任何一个软件或大模型训练，一定要对数据或者训练的算法有更好的工程化能力。”王维说道，“所以我们也结合对数据训练的实践结果，对包括课程学习、差错归因分析、微调过程中算力和数据更好比例配方，如何进行调整权重等算法进行了改良。”

蚂蚁数科的金融推理大模型Agentar-Fin-R1，将这种专业训练发挥到极致，经过专业体系数据集训练的金融大模型，能够达到“出厂即专家”。

此外，蚂蚁数科还给模型装上了 “进化引擎”。

一方面通过RAG技术实时抓取最新政策文件、市场动态，就像给AI开通了“金融资讯VIP通道”；另一方面，模型会定期“体检”，通过Finova评测基准自查能力缺口。比如发现对 “个人养老金账户税收优惠” 理解不到位，就会自动生成相关训练数据，完成针对性升级。

这种自主进化能力，让某股份制银行的智能投顾在新规落地当天就更新了产品推荐逻辑，避免了合规风险，“金融AI不能是‘一次性买卖’，得像金融专家一样持续学习。”

因此，Agentar-Fin-R1能够实现不断更新迭代，吸收最新的金融政策、市场动态等关键信息，并通过配套评测工具进行针对性优化，让模型能力在真实业务场景中不断进化。

以保险行业为例，当新的保险法规出台，对某些险种的理赔条件或费率计算方式做出调整时，Agentar-Fin-R1能迅速捕捉到这些变化，自动更新相关知识，并在后续处理保险业务时，按照新的规则进行准确操作，确保保险机构的业务始终符合法规要求。

无疑，垂直行业大模型的能力问题已经解决，但最终还是要让AI能够真正嵌入业务流程。

从“能说话”到“会做事”，智能体架起最后一座桥

如果说金融推理大模型是金融AI落地的大脑，那么智能体就是给这个大脑装上了手脚，成为AI大模型落地企业业务场景中最关键的形态。

“智能体的价值，不在于解决1000个浅层问题，而在于攻克行业深层痛点。”赵闻飙说，“智能体要围绕场景出发，适应企业业务场景，才能在专业知识领域价值最大化。”

事实上，智能体的核心就是将模型大脑与自动化工具结合，完成从对话到执行的跃升，这也成为智能体在产业落地的关键。

今年4月，蚂蚁数科发布智能体开发平台Agentar，为金融机构提供一站式、全栈的智能体开发工具，基于该智能体平台，蚂蚁数科整把AI从“聊天机器人”变成“业务多面手”。

如蚂蚁数科助力上海某银行打造的AI手机银行，创新“对话即服务”模式，用户通过自然对话即可获取各类金融服务，这种 “对话即服务” 的模式，让老年客户满意度提升显著，月活用户同比增长25%。目前，蚂蚁数科累计已服务100%的国有银行和股份制银行、超60%的地方性商业银行、数百家金融机构。

而这背后就得益于蚂蚁数科联合上海银行共同打造的AI客服智能体，“可以说重塑了服务的本质，通过AI实现了服务的宜人化。”赵闻飙说道。

无疑，智能体成为AI大模型从 “能说话” 到 “会做事”的关键桥梁。

这背后，是蚂蚁数科智能体把大模型能力与金融业务系统无缝对接，就像给AI配备了“工具箱”，需要算收益时调用计算器，需要查征信时对接征信系统，需要写报告时调用文档生成工具。

当然，“智能体背后不仅是大模型的能力，更重要的是专业度，要把专业的数据激活，所以在像金融这一类行业中，我们能够把蚂蚁的经验输出出来，这将是非常有价值的事情，且能够给行业带来更多智能体标杆应用案例。”王维说道。

相比于其他行业，金融AI落地进展并不迅速，但实际上整个金融AI和金融智能体已经重塑了很多金融类的企业级流程，其也正从copilot的辅助角色，慢慢变成一个决策者角色。

“智能体其实是改写了软件的底层规则，基于其泛化能力和可以自主编程代码能力，我们也相信智能体会越来越在企业级复杂场景中大放异彩。”王维说道。

不过，金融智能体这件事情只有进行时，没有完成时，所以Everything还在继续。

或许在不久的将来，当我们再用AI处理金融业务时，会忘记它是“人工智能”，只觉得它是一位懂业务、守规矩、会变通的“老金融人”——这大概就是AI落地金融的最高境界。

AI+金融，如何跨越大模型和场景鸿沟？

相关文章

深度解析：从零构建跨平台对象树管理系统（YongYong框架——QT对象树机制的现代化替代方案）

力扣46:全排列

mac环境配置rust

脚手架搭建React项目

Golang 调试技巧：在 Goland 中查看 Beego 控制器接收的前端字段参数

sqli-labs：Less-2关卡详细解析

TRAE 软件使用攻略

将开发的软件安装到手机：环境配置、android studio设置、命令行操作

Jmeter 命令行压测、HTML 报告、Jenkins 配置目录

记录几个SystemVerilog的语法——覆盖率

深度学习基础—2

PyTorch深度学习快速入门学习总结（三）

是否需要买一个fpga开发板？

7月31号打卡

【模型细节】MHSA:多头自注意力 (Multi-head Self Attention) 详细解释，使用 PyTorch代码示例说明

PGSQL运维优化：提升vacuum执行时间观测能力

神奇的数据跳变

【跨国数仓迁移最佳实践3】资源消耗减少50%！解析跨国数仓迁移至MaxCompute背后的性能优化技术

【MySQL集群架构与实践3】使用Dcoker实现读写分离

maven的阿里云镜像地址