邮储银行“人工智能+”金融应用测试技术研究与实践
2025年《政府工作报告》明确提出推动“人工智能+”行动。金融机构围绕金融“五篇大文章”等领域,深化AI与金融服务的广泛融合,构建适配智能经济、智能社会的“人工智能+”金融应用体系。在此背景下,以大模型为代表的AI技术正全面融入金融业务,深刻改变着金融软件的形态与交互模式。传统软件测试方法依赖确定性规则,面对以概率性和非确定性为特征的AI应用时,已难以有效应对测试挑战。中国邮政储蓄银行积极响应“人工智能+”战略,聚焦AI在金融应用中的智能化交互能力,构建了一套体系化、规范化的测试技术体系,并将其与典型银行业务场景进行结合。通过制定并实施配套测试方案,该体系在试点应用中有效提升了测试覆盖度与用例丰富性,精准识别复杂交互缺陷,为“人工智能+”在金融领域的安全、高效落地提供了关键技术保障。
挑战:“人工智能+”金融对传统软件测试技术的冲击
“人工智能+”金融,特别是以大模型为代表的AI技术的融入,正在从根本上重塑金融软件的形态和交互方式。这不再是简单的功能叠加,而是一场技术范式的变革。因此,依赖于确定性和规则的传统软件测试技术,在面对这种新型的、以概率和非确定性为核心的智能系统时,显得力不从心,面临以下几个方面的深刻冲击:
1. 从“确定性”到“概率性”的范式冲击:对于给定的输入,AI系统的输出可能存在差异,且往往不存在唯一的“标准答案”。测试重点从判断“是否正确”转向评估“输出的质量与适宜性”。
2. 输入与输出的“爆炸性”增长:传统软件的输入空间相对有限,可以通过等价类划分、边界值分析等技术进行有效管理。AI输入维度众多,包括不同的参数、上下文等,这导致了测试用例数量呈指数级增长,穷举测试成为不可能。
3. 评估维度的“主观性”与“多元化”:传统测试主要关注功能正确性、性能、安全性等相对客观的维度。AI测试则需额外评估上下文连贯性、意图识别准确性等主观性较强的维度,这直接关系到用户体验和业务成效。
4. 系统行为的“不稳定性”与“漂移”:传统软件版本固定后,行为是稳定的,回归测试有效。而大模型作为AI底层引擎,其行为可能因模型更新、数据分布变化等原因发生漂移,导致系统表现不稳定。
解决方案:构建面向“人工智能+”金融应用测试技术体系
为应对上述挑战,亟需构建一套专门面向AI交互核心能力的测试技术体系。该体系应是一个分层解构、多维度量化的框架,其核心目标在于将抽象的“智能”与“体验”转化为一系列可测试、可评估的具体能力维度。基于“能力-维度-场景”三个层级,我行构建了AI智能化交互能力测试设计框架:
1. 能力分层:将复杂的AI交互能力分解为四个逐层递进、相互关联的能力,共同构成了AI在金融应用场景中智能化交互水平的衡量基准。
基础对话能力:作为交互体验的基石,评估人机沟通的基本顺畅度。
信息提取能力:作为认知智能的基础,评估从非结构化数据中精准抓取关键信息的能力。
意图识别能力:作为连接用户与业务的核心枢纽,评估理解用户真实需求的能力。
流程决策能力:作为业务价值的最终体现,评估在复杂业务流程中引导与决策的能力。
2. 维度细化:针对每一项核心能力,定义清晰、可操作的测试维度,将主观体验转化为客观判断依据。
评测“基础对话能力”时,需聚焦于“单轮交互准确性”(语法、事实性)、“多轮对话上下文连贯性”(指代、话题延续)与“噪声容错与鲁棒性”(抗错别字、口语化干扰)。
评测“信息提取能力”时,不仅关注是否“找得到”,更需考核“提取准确性”(信息无篡改)、“提取完整性”(信息无遗漏)、“复杂结构信息提取”(处理嵌套、关联信息),乃至“多模态信息提取”(图文、表格等)。
评测“意图识别能力”时,应遵循由浅入深的原则,覆盖“清晰直接意图识别”(对明确、简短请求的快速分类)、“复杂结构意图识别”(对长句、复合句中多个并列子意图的解析)与“隐含与深层意图识别”(从情绪化表达或背景信息中推断用户真实需求)。
评测“流程决策能力”时,关键在于评估其驱动并完成业务任务的水平,需涵盖“固定流程遵循”(在标准化业务流程中的执行力)、“分支决策准确性”(在多条件、多分支流程中的路径选择合理性)以及“流程闭环与结果输出”(确保流程有明确的终结状态并向用户提供清晰反馈)。
3. 场景锚定:为确保测试与业务实际紧密结合,需将上述能力维度锚定于典型金融业务场景中。通过制定《“人工智能+”金融应用测试设计参考框架》,搭建从“理论标准”到“工程实践”的桥梁,从而确保测试设计框架兼具技术先进性与业务相关性。测试设计参考框架如图1所示。

图1“人工智能+”金融应用测试设计参考框架
实践成效:构建测试用例库与人机协同评估的落地实践
为将测试技术体系有效转化为工程实践,我行制定了系统性的实施方案,其核心在于通过“业务与场景的正交组合”构建高质量的测试用例库,并推行“人机协同”的评测流程,确保测试评估兼具效率与深度。
1. 构建场景化、正交化的测试用例库
传统穷举测试方法在面对AI输入的无限可能性时已完全失效。为此,我行创新性地采用正交测试设计思想,将“核心业务”与“典型场景”进行矩阵组合,以有限的测试用例实现高效、全面的覆盖。
明确测试范围,建立正交矩阵:基于业务需求识别出所有关键业务(如“智能客服”、“贷款咨询”等),并将其与《“人工智能+”金融应用测试设计参考框架》中典型场景进行正交关联,形成《核心业务与典型场景正交表》。如图2所示,该表清晰地界定了测试边界,确保每个核心业务下的各项交互能力均得到验证,从源头避免测试盲区。

图2 核心业务与典型场景正交表
细化场景至用例,持续扩充库容:依据《“人工智能+”金融应用测试设计参考表》,将正交表中的每个“业务-场景”交叉点,细化为包含“场景描述、测试要点、用户输入、预计输出”的具体、可执行的测试用例。这一结构化方法不仅能系统性扩充测试场景,实现对目标业务的全维度覆盖,更展现出强大的用例库扩充能力。在试点应用中,该方法指导测试用例库实现了56%的增长,为后续测试工作提供了充足的、高质量的用例支撑。
2. 推行人机协同的评测流程
面对AI输出主观性强、难以二元判定的挑战,我行建立了自动化测试与人工专家评估相结合的人机协同流程,兼顾测试效率与评估深度。
自动化测试执行,保障效率与一致性:对于批量、重复性高且有明确预期输出的测试点(如固定流程遵循、单轮交互的语法正确性),优先采用自动化测试工具执行。这不仅将测试用例执行效率提升了89%,大幅增强了测试的可重复性与一致性,也为回归测试提供了稳定基础。同时,测试过程详细记录执行结果,为后续分析提供数据支持。
人工专家深度评估,精准定位复杂缺陷:对于涉及上下文推理、深层意图理解、话术友好度、复杂分支决策等主观性强、逻辑复杂的测试点,则必须依赖人工专家进行深度评估。专家会综合运用对抗性测试、边界案例构造等方法,对模型输出进行深度校验。试点结果证明,该机制能够精准识别自动化测试难以发现的复杂逻辑缺陷与体验问题,并能清晰揭示系统的质量短板(如多轮对话的意图处理准确性不足),为优化工作提供了明确方向。
通过上述实践,我行将“人工智能+”金融应用测试技术体系从理论框架成功落地为可执行的工程流程。该体系不仅兼备实用性与指导性,能对88%的核心业务功能进行有效验证,还最终形成了全面、清晰的测试报告,为“人工智能+”应用的持续迭代与稳健落地提供了可靠的质量闭环。
结语
中国邮政储蓄银行通过在“人工智能+”金融应用测试领域的探索与实践,初步构建了一套可参考、可落地的测试技术体系。通过建立分层能力模型、细化评测维度、锚定业务场景,并依托正交化测试用例库与人机协同评估流程,有效应对了AI技术带来的测试范式挑战。试点应用表明,该体系在提升测试覆盖、精准识别缺陷、指引系统优化等方面成效显著。
未来,邮储银行将持续完善评测体系,深化测试流程与现有体系的融合,并积极推动跨机构协作,促进测试工具、数据集及评价方法的共享共建。我们相信,通过不断优化与创新,能够为“人工智能+”在金融领域的稳健落地筑牢质量根基,助力金融业在智能化浪潮中行稳致远。
作者:中国邮政储蓄银行软件研发中心艾山邱、伍珍妍、彭湖、王圳萍、游慧、朱亚茹、王敏竹、余一凡
- 邮储银行浙江省分行2026-2027年信用卡商圈业务外包项目招标
- 邮储银行乌鲁木齐市分行信用卡商圈业务外包服务中标结果公告
- 邮储银行安徽省分行2026年收单业务权益服务采购项目中标候选人公示
- 邮储银行大模型平台应用服务系统工程数字员工系统配套软件技术开发项目单一来源采购
- 邮储银行2026—2028年银行卡及数字人民币硬钱包制卡服务采购项目(包4:数字人民币硬钱包制卡服务)招标
- 邮储银行2026—2028年银行卡及数字人民币硬钱包制卡服务采购项目(包3:优待证制卡服务)招标
- 邮储银行2026—2028年银行卡及数字人民币硬钱包制卡服务采购项目(包2:定制卡制卡服务)招标
- 邮储银行2026—2028年银行卡及数字人民币硬钱包制卡服务采购项目(包1:银行卡制卡服务)招标
- 邮储银行天津分行2026-2027年区域性项目开发外包服务采购项目中标候选人
- 邮储银行“平台通”产品实现禽蛋产业数字人民币结算

粤公网安备 44030602000994号