苏商银行一项发明专利取得授权:基于大模型的催收敏感词质检
1月17日,江苏苏商银行一项发明专利“一种基于大模型的催收敏感词质检方法和装置”授权公告,其申请于2023年8月30日,公布于2023年12月1日。
其方法包括:获取线上生成的催收录音;调用翻译模型API接口将催收录音转换出录音文本;对录音文本进行预处理(步骤A,下有详述),并对长文本进行分割,获得输入文本;将输入文本导入原始模型进行质检,输出第一质检结果;构建本地催收合规向量知识库(步骤B,下有详述),基于大语言模型调用向量知识库,并将输入文本导入大语言模型质检,输出第二质检结果;根据历史催收录音数据,并基于大语言模型进行P tuning训练,获得定制大语言模型(步骤C,下有详述);将输入文本导入定制大语言模型中进行质检,获得第三质检结果;若第一质检结果、第二质检结果和第三质检结果中存在至少一项不合规,则最终的质检结果为不合规。
更具体的,(步骤A)对录音文本进行预处理,包括:去除小于30秒的录音文本,并增加基于专家经验和历史投诉信息的目标标签信息。
(步骤B)构建本地催收合规向量知识库,包括:基于专家经验或历史客户投诉案例,收集催收录音;将催收录音转成录音文本后,筛选出催收员的讲话部分;使用编码软件将录音文本转化成512维的向量,并将转化后的向量存储在数据库中;将待评估的录音文本转化成512维向量后,与数据库中的所有向量进行内积计算,内积越大,相似度越高;若相似度超过设定阈值,则说明对应录音存在历史发生过的不合规问题。
(步骤C)根据历史催收录音数据,并基于大语言模型进行P tuning训练,获得定制大语言模型,包括:收集催收领域的录音和文本数据,并对数据预处理;利用ASR技术识别录音数据,区分出催收人员和逾期用户,并把录音数据转换成文本数据(步骤D,下有详述);使用专家打标签区分文本数据,根据是否合规打上正负标签,生成训练样本;将训练样本划分为训练集和测试集,训练集用于P tuning训练,测试集用于评估模型效果;配置P tuning模型参数,当模型效果达到设定阈值时,定制大语言模型训练完成;将定制大语言模型部署在生产环境(步骤E,下有详述),可供催收系统通过API的方式进行调用。
而在将输入文本导入大语言模型进行质检之前,还需要:读取内容,获取与用户请求相关的上下文;使用请求内容和上下文内容填充模板,获得提示词;将提示词输入到大语言模型中。
(步骤D)利用ASR技术识别录音数据,区分出催收员和逾期用户,并把录音数据转换成文本数据,包括:利用whisperX模型,指定语言为中文,讲话人为2人;输入录音文件至whisperX模型,输出讲话人和讲话内容文本;根据催收员的固定开场白筛选出催收员的讲话文本数据。
(步骤E)将定制大语言模型部署在生产环境,包括:将定制大语言模型导入到生产环境,模型状态调整为eval模式;使用fastapi接口对外提供API服务;在API上提供需评估的加上提示词的录音文本,即可返回录音文本的评估结果。
说明书提到该发明的背景为,随着金融行业的监管力度加大,对催收行为的合规性要求越来越高。企业需要对催收过程中的敏感词进行识别和过滤,以确保催收行为符合相关法律法规和行业标准,降低潜在的法律风险。贷后催收是金融机构风险管理的重要环节,也是人工介入最多的环节。尤其是传统催收质检领域,主要依靠人工进行,成本高且效率低,不能满足金融催收行业的发展需求。
而该发明可保障合规催收、提高效率、降低成本、减少纠纷。
- 【招聘】苏商银行发布技术类社招,涉数据治理和5个AI岗位
- 苏商银行已应用DeepSeek多模态和推理模型,实现3大领域赋能
- 【招聘】苏商银行招募大模型、AI算法等岗位
- 苏商银行申请大模型客服系统专利,大模型已用于画像生成领域
- 中信银行财富管理大模型项目,阿里云以更高价赢百度、中电金信
- 【招聘】贵州银行社招,涉数据分析、架构规划、数据安全、开发(AI、大模型方向)等岗位
- 招行CIO周天虹:大模型给银行业带来4个变化,要从4点应对其局限性
- 中信银行:以大模型提高数据资产评估准确度和效率,助力数据资产价值入表
- 中信银行财富管理大模型建设及应用实施服务采购项目招标
- 浙商银行内部提拔行长,金融科技研究院已开展大模型等研究