金融大模型应用评测报告出炉，安全对齐表现优异，专业认知、多模态处理能力亟待提升

2024年12月13日，上海人工智能实验室联合上海财经大学、上海库帕思科技有限公司发布《金融大模型应用评测报告（2024）》（以下简称《报告》）。评测围绕金融行业的核心业务需求及大模型在金融场景中的适配性，结合银行、证券、保险、基金等重点应用场景，对14家机构的20个主流大模型的金融专业能力进行了评测。

结果显示，参评模型在金融安全与价值对齐方面表现优异，体现出行业对关键合规性和伦理问题普遍高度重视；而在模型基础能力、金融专业认知，特别是多模态处理能力等方面，参评模型存在一定短板，尤其是在复杂金融业务场景中的表现亟待提升。按综合总分排名，Anthropic、阶跃星辰/财跃星辰和阿里巴巴的参评模型位列前三。

未来，金融领域评测报告将以每年一至两次的频率发布，旨在为行业提供客观评测结果与方向指引参考，助力金融科技在智能化、专业化、精细化方向上进一步突破与发展。

访问链接或扫描二维码可下载摘要版《报告》：

https://img.shlab.org.cn/pjlab/files/2024/12/638695925361130000.pdf

报告摘要

•参评模型在金融安全与价值观对齐方面表现优异，体现出行业对关键合规性和伦理问题高度重视。

•在模型基础能力、金融专业认知能力，特别是多模态处理能力等方面，参评模型存在一定短板，尤其是在复杂金融业务场景中的表现亟待提升。

•在金融业务辅助拓展能力维度，模型在智能投资顾问方面的整体表现尤为亮眼，这既反映了大模型的应用潜力，也揭示了评测数据集在构建业务方向的丰富性和复杂程度方面仍有较大提升空间。

•随着大模型在金融业务场景应用的深入和扩展，安全问题或以更隐蔽和多变的形式显现。因此，持续迭代更新安全评测方法，强化相关数据集建设将是未来的重点任务。

•高质量金融语料数据集的可持续供给对提升模型能力具有决定性意义。特别是在多模态金融数据集方面，当前的供给不足已成为业界共同面临的瓶颈。

为促进大模型的产业应用与生态发展，上海AI实验室构建了大模型开源开放评测体系司南（OpenCompass），客观中立地为大模型技术创新提供坚实的技术支撑；同时积极与业界共建垂类评测，通过构建评测基准-评测-应用闭环，发挥评测数据价值，为产业应用提供方向牵引与安全保障。

本次评测的开展，旨在切实提升金融服务的智能化水平，降低企业数字化转型成本，并积极探索金融垂直领域大模型应用的新理念、新机制和新手段，进一步推动金融科技创新应用的发展。

评测以司南平台为核心工具，围绕金融行业的核心业务需求及大模型在金融场景中的适配性，结合银行、证券、保险、基金等重点应用场景，形成“模型基础能力”“金融安全与价值对齐能力”“金融风险控制能力”“金融专业认知能力”“金融业务辅助拓展能力” 等五大测评维度。基于《金融大模型应用评测指南》（T/SAIAS 019—2024）团体标准，评测采用了《库帕思金融大模型评测数据集（2024版）》。评测对象包括14家机构的20个主流大模型，含闭源和开源模型，分别通过购买API 接口和下载部署的方式进行测试。综合评估分数采用线性加权模型，对每项指标进行标准化处理后加权平均计算。

《报告》显示，参评模型综合平均得分为71.9。在5大评测维度中，参评模型在金融安全与价值对齐能力维度表现最为出色，平均得分达92.8。在模型基础能力和金融专业认知能力（含多模态任务）维度得分较低，分别为59.8和52.0，且各模型表现差异较大。

综合总分排名前三的模型依次为：

1.Anthropic Claude-3.5-Sonnet-20240620， 79.8分

2.阶跃星辰/财跃星辰 Step-2-16k/Finstep，79.7分

3.阿里巴巴 Qwen2.5-72b-Instruct/Qwen2-VL-72B，77.6分

本次测评一定程度上展示了大模型在金融应用方向的能力现状，各模型整体表现基本满足当下场景需求，其中金融安全与价值对齐表现优异，但仍存在较大提升空间，如金融专业认知和多模态处理能力。本次评测是依据《金融大模型应用评测指南》（T/SAIAS 019—2024）团体标准，使用《库帕思金融大模型评测数据集（2024版）》，通过司南大模型开源开放评测体系对部分通用大模型和金融垂类大模型的一次抽样测试。评测并未涵盖所有的金融场景和模型，评测数据集的部分样例已在OpenDataLab社区公开。

本次评测是相关工作的第一步，通过选取部分模型进行评估来对方法进行验证。未来，还将每年开展至少1-2次评测，并逐步扩大测试范围，开放和共建评测工具、评测数据集和评测方法体系。同时，将与金融行业各方协同，进一步强化以金融业务为中心的模型评测体系建设，加强高质量金融语料建设，结合相关标准；加强对大模型应用实践的引导与规范，并与实践紧密结合，以更好推动大模型技术在金融领域的落地应用。

①在最新视频中，B2-W机器狗可以完成托马斯全旋、侧空翻、360°跳跃转体、冲跳、极地跑酷。
                                    ②宇树科技创始人CEO王兴兴曾表示，人形机器人（和机器狗）底层原理比较类似，包括关节电机、减速器、传感器、电控系统、控制软件、AI 算法等等。
                                    ③机器人主机厂商已陆续开始出货或加速出货。

①金山云在AI领域动作频频，青海智算中心正式开通运行，与珠海市人民政府在AI方面签署战略合作。
                                    ②AI的浪潮是对于基础设施、人才能力、隐私安全都有极大的要求，金山云需要证明自己的实力。