多方安全计算技术金融应用实施建议
当前,数字经济已进入高速发展阶段,正在推动新一轮科技革命和产业变革。我国《“十四五”数字经济发展规划》提出“数据要素是数字经济深化发展的核心引擎,要建立数据要素市场体系,充分发挥数据要素作用,加快数据要素市场化流通”。2022年人民银行印发《金融科技发展规划(2022-2025年)》也提出要“全面加强数据能力建设,在保障安全和隐私前提下推动数据有序共享和综合应用,充分激活数据要素潜能,有力提升金融服务质效。但数据流通中存在数据泄露、滥用等安全风险。特别是金融数据,涉及个人隐私和商业秘密,如出现数据泄露,将对个人、企业、社会带来重大的影响”。因此,近年来国家相继出台了《数据安全法》、《个人信息保护法》等多部法律法规,来规范数据处理活动、保障数据安全、保护个人隐私。同时,以多方安全计算为代表的隐私保护技术也受到越来越多的关注。
多方安全计算(Secure Multiparty Computation)是基于密码学实现的一种多方数据安全融合的隐私保护技术,可达到“数据可用不可见”的目的,并实现数据同途和同量的“可控可计量”,是解决金融业数据安全共享流通的可行路径。本报告通过分析目前业界主流多方安全计算技术及应用现状,总结多方安全计算技术在金融领域实践落地过程中所面临的挑战,提出多方安全计算金融应用实施的建议,并对多方安全计算金融应用的未来发展进行展望。
一、多方安全计算应用现状
(一)技术产品持续发展
多方安全计算技术由图灵奖获得者姚期智院士于1982年在解答百万富翁问题过程中首次提出。从首次提出到2009年,多方安全计算技术基本处于理论研究和实验阶段,国内外的技术专家设计出大量的模型和算法,验证实现多方安全计算的可行性。从2009年开始到2017年,多方安全计算技术从理论研究逐步过渡到实践阶段,多家厂商开始尝试推出利用多方安全计算解决实际问题的产品。2018年至今,在数字经济发展和数据要素流通需求的推动下,多方安全计算商业产品出现了爆发式增长,专利、论文、规范、实施案例也相继涌现。主流产品经过近几年实践的打磨,工程化能力不断增强,可用性进一步提升。
近几年,多方安全计算产品的权威机构认证也开始逐步建立。中国人民银行、国家市场监督管理总局于2019年10月联合发布公告,将金融科技产品纳入国家统一推行的认证体系,作为推动金融行业标准落地实施的有力保障和机制,旨在确保金融科技产品的安全性、可靠性和可用性,多方安全计算金融应用于2022年1月被纳入该认证体系,体现了该技术对金融创新的重要支撑作用。2020年11月中国人民银行正式发布《多方安全计算金融应用技术规范》(JR/T 0196-2020)金融行业标准。2021年6月中国支付清算协会发布了《多方安全计算金融应用评估规范》(T/PCAC 0009-2021)金融团体标准,对多方安全计算金融应用产品的技术、安全、性能等方面的标准符合性开展专业评估评价,首批已经有5项产品通过了该认证。
(二)金融机构争相布局
在金融行业持续加快数字化转型的背景下,金融机构在保证数据安全的前提下不断探索使用多方安全计算等隐私计算技术进行数据融合创新应用。
在这个过程中,金融机构逐步开始探索企业内部的隐私计算平台建设,再通过隐私计算平台融合不同渠道和行业的数据,探索隐私计算应用场景、积累实践经验,并持续打磨和完善平台。其中工商银行以“商用+开源自研”的方式建设多方安全计算平台,平台运用密码学和多方安全理论建立密文运算体系,包含金融函数库等近400种密文计算函数库,可对外提供联合计算、隐匿查询、隐私求交、联合建模等多数据源安全计算服务;并和区块链技术结合进行关键交易信息存证,支持对存证数据的审计和回溯;深度融入工商银行高可用运维体系,构建同城多活、灵活可扩展的部署模式。落地了引入外部数据风险防控、集团内数据要素流通共享、银行间数据合作等多种场景。
金融机构在《多方安全计算金融应用技术规范》的指导下开展应用实践,以下列举几个典型应用场景:
1)小微企业评分授信
各地企业管理机构掌握了大量企业经营数据,金融机构有自身的企业评分模型,可以通过多方安全计算平台融合金融机构的评分模型参数,结合管理机构企业经营数据进行小微企业授信评分计算,在保护各自数据隐私的情况下,支撑金融机构完成对小微企业客户的风险防控、精准授信。
2)金融机构集团内联合查询及统计
中大型金融集团内普遍存在多个子公司,子公司属于不同法人单位,数据无法通过明文共享。考虑到集团内子公司之间互信度高、科技平台能力建设相似度高,可以建立集团内统一的多方安全计算平台,各子公司分别部署多方安全计算节点,充分发挥数据要素共享流通后产生的价值。在合法合规的基础上,对客户在集团内的数据进行联合统计和隐匿查询,为后续给客户提供高效优质服务提供数据支持。
3)金融机构间联合风控
在当前的数据要素流通环境下,金融机构在自身经营过程中已融合使用来自政府机构、互联网公司等其他产业的大量外部数据,开展风险防控工作,但仍未切实解决金融机构间因跨机构资金流动而产生的欺诈漏洞,因此可考虑基于金融机构间的数据开展联合风控的合作。部署模式上,金融结构通过对等模式部署多方安全计算节点进行互联,未来还可以实现异构多方安全计算平台的互联互通。基于多方安全计算平台,可以实现数据的隐匿互查和数据的隐私统计,提升金融机构业务风险防控水平。
二、多方安全计算应用面临的挑战
(一)安全管控有待加强
1)技术产品的安全评测
多方安全计算各类产品的底层安全算法技术主要基于相关数学原理、论文来实现,但实现方式差异较大,金融机构对产品安全性难以完全把控,很难从理论上证明技术及算法的安全性,而第三方机构的检测也很难覆盖产品各方面的细节。
2)场景应用的安全准入评估
在场景应用前,如何针对场景的合法合规性、数据的安全分级、风险补偿机制等方面开展相应的安全准入评估是场景应用面临的重要挑战。
(二)技术应用复杂度高
1)计算性能的瓶颈
多方安全计算能够实现隐私求交、隐匿查询和联合计算等多种应用,技术实现中涉及大量的密文操作和网络通信,对算力要求较高,性能对比明文显著降低。
对于如何去满足一些大数据量、高实时性场景的需求,是多方安全计算技术规模化应用面对的挑战,业界一直在开展相关研究。解决该问题的一种方式是通过优化算法协议,降低整个计算过程的计算复杂度和通信复杂度。例如,在SPDZ协议的预处理阶段,使用半同态加密、可信第三方或者可信执行环境来生成三元组。USENIX Security’22上发布的研究成果Cheetah,大幅提升了用于深度神经网络的两方计算网络推理的效率,推动了多方安全计算技术在图像识别等复杂模型推理场景的落地。另一种方式是结合GPU、FPGA等异构硬件能力,提高计算速度。例如,使用GPU-Direct-RDMA等技术实现了GPU和RDMA间的数据零拷贝,从而可以数倍增加网络通信的吞吐量,降低网络通信的传输延时。USENIX Security’22上发布的多方安全计算GPU平台Piranha,是隐私计算领域使用GPU加速本地密文计算的先行者,大幅提高了计算效率。
总体来说,目前相关性能优化研究虽然取得了较大进步,但还存在很大的局限性,一方面通用性不足,另一方面成本较高,还需持续研究,不断缩小和明文计算的性能差距。
2)应用开发的便利性
多方安全计算技术还处于试点应用阶段,落地场景的数据量、复杂度、实效要求相对不高,而技术产品的成熟度往往需要经过大量的应用实践才能不断提高。由于多方安全计算需要开发密文算法逻辑,与明文开发有较大差异,同时需要根据场景设计具体算法协议,以达到最佳的性能体验。因此针对不同的场景,现有技术产品很难做到“即插即用”,还需要根据具体场景一事一议地进行底层算法和上层逻辑的二次开发,因此也进一步提升了应用开发难度。如何提升开发的便利性也是多方安全计算技术落地过程中需要考虑的关键点。
3)异构平台的互联互通
金融机构通常根据自身需求选择不同的技术平台,但由于技术当前还处于发展阶段,尚缺乏统一的技术标准,异构平台之间差异较大,互不兼容,在实际开展场景交互时,当双方都具有技术平台时,往往需要商议只选择其中一方的技术平台,而各方都希望选择各自信任的技术平台,也就大大增加了场景落地的难度。
目前业界正在逐步探索解决异构隐私计算平台间的互联互通问题,隐私计算联盟、北京金融科技产业联盟等机构正在推进隐私计算互联互通相关标准的出台。一种思路是协商算法协议,互联各方按照该协议自行开发实现的算法组件,利用算法协议的一致性达到互联互通的目标,这种方式直观、可信度高,但牺牲了产品的独立性和创造性,且改造成本高,推进难度大。另一种思路是不要求算法协议保持一致,只对算法的基本内容、输入、输出进行统一,保持各类产品算法设计的独立性,改造难度低,但是由于各自产品的算法实现不可见,互联各方会产生可信疑虑。
目前隐私计算厂商也在探索产品间互联互通的方案,已经实现的案例以相对标准的算法协议为主,比如近期华控清交和蚂蚁隐语基于ECDH椭圆曲线的隐私求交功能完成了互联互通的技术验证,但距离实现各技术平台的全部互联互通还有很大差距。
(三)运维保障亟待提升
多方安全计算技术最终需要融入到金融机构的信息系统中,而金融机构对于系统的稳定性和运维能力要求较高,在高可用、性能容量评估、应急能力、系统监控、实施能力等方面都有更为严格的要求,而目前多方安全计算的产品建设周期普遍比较短,产品的运维保障能力不足,距离金融重要应用规模化实施的要求还有较大差距,后续还需要结合场景需求持续完善。
三、多方安全计算金融应用实施建议
通过分析总结多方安全计算金融应用发展现状,以及其面临的诸多问题和挑战,明确多方安全计算金融应用实施关键要素,通过各种技术机制和保障措施,实现多方安全计算金融应用的安全、合规、便捷、灵活、可靠的目标。
(一)引入满足金融应用安全需求的产品
近年来,隐私计算技术和产品的发展迅速,按业界共识,通常将多方安全计算、联邦学习、可信执行环境列为隐私计算的三大技术路径。但从底层技术看,多方安全计算技术是基于密码学技术实现,与其他两大技术路径存在明显差异,作为密码学产品,其安全性是产品的核心。
目前,多方安全计算产品层出不穷,各类互联网头部企业、隐私计算专业厂商都推出了各自的商用产品,还涌现出不少开源类产品,各项针对产品的安全认证也在逐步展开。但总体来看,由于试点时间较短,标杆性和规模化应用场景缺乏,各类产品的安全性还有待检验。金融机构在选择产品时,由于缺乏对安全技术、密码学协议的深刻理解,产品选型时难免会被技术提供商所引导,给后期的平台建设带来安全隐患。因此,建议选择优先经过权威机构检测认证的产品,再对产品进行完备的安全评估。
1)密码算法的安全性
多方安全计算技术基于安全模型通过多种密码学技术组成多种密码学协议,实现隐私求交、隐匿查询、联合计算等应用功能。
对产品进行评测时,需要了解产品的安全设计,并进行针对性分析和测试。在构造密码学算法协议时,需要对参与方行为模式进行安全假设,只有当安全假设成立时,对应的密码学算法协议才是安全的。对于一个密码学协议,其所需的安全假设及安全性要求的集合称为安全模型,安全模型可分为半诚实模型和恶意攻击模型两类。在人民银行发布的《多方安全计算金融应用技术规范》中发布了用以衡量多方安全计算协议安全强度或破解难度的一组参数,主要包括不诚实门限、统计安全参数、计算安全参数。密码学技术主要包括秘密分享、同态加密、不经意传输、公钥密码体系等,这些技术底层安全性主要基于数学计算原理、复合剩余类判定难、格密码的寻找满足某种最小化特性的格矢量困难、离散对数指数计算难、RSA大数因式分解难数学问题。
不同产品针对隐私求交、隐匿查询、联合计算、联合建模等应用功能可能有不同的密码学实现方式。比如隐私求交应用有基于Hash函数,基于同态加密,基于公钥加密,基于不经意传输等多种实现方法,这些方法在计算性能、内存消耗、通信量等方面具有明显差异,需要根据不同场景的需求进行选择,比如同态加密适用于数据非平衡场景,不经意传输适合大集合场景。在选择不同的密码学实现方式时,需要综合考虑性能容量和安全性的因素,比如大数据量分箱后的不可区分度,不可区分度越低,性能越高,但安全性越低;比如公钥加密中的椭圆曲线算法,需要全量交换各方的原始数据对应的密文数据,需要考虑后续各类攻击算法对密文的破解隐患;又比如Hash交换当输入域很小的时候存在着一方使用暴力破解攻击的可能。
2)密钥管理的安全性
密钥在密码学体系中具有极其重要的作用,是数据安全的基础。数据通过密钥进行加密和解密,密钥的泄密可能导致整个安全基础设施的崩溃,使得攻击者能够解密敏感数据。
多方安全计算产品有自身设计的密钥管理方法,但同成熟的通用类密码产品相比,其密钥管理体系相对较弱。进行评估时需重点关注主密钥管理的方式、工作密钥的生成和存储方式、密钥的安全强度,建议尽可能多使用一次一密,减少密钥外泄的风险。此外,金融机构普遍具有一套成熟的密钥管理体系,建议多方安全计算能够适配金融机构现有密钥管理体系,可更加有效管控密钥的安全性。
3)数据的安全性
多方安全计算技术主要解决数据融合计算的安全性,如何保证数据在交互过程的安全是整个安全设计的重要一环。数据主要包括输入的计算数据、输入的特征数据、中间计算结果数据、输出的计算结果数据等。评测时主要关注是否存在数据信息泄露的情况。比如平台是否能保证不同参与方的输入数据只能为本方查看,通过网络抓包等手段探测交互的数据中是否存在明文数据,中间计算结果数据存在可反推明文的风险,输出的结果数据是否只发送给指定的结果接收方。
(二)建立场景应用的安全合规准入机制
多方安全计算技术主要解决多个参与方在进行数据融合计算过程中的数据隐私保护问题,金融机构在选择适合的多方安全计算产品后,还需针对应用场景的具体情况开展相应的准入评估,包括场景识别、风险评估、合规评估、存证监管等方面:
1)多方安全计算技术涉及的具体场景主要包括隐私集合求交、匿踪查询、联合统计、联合建模和联合预测等,需依据实际需求进行识别。
2)依据所选定的应用场景评估全流程安全风险,包括评估是否涉及重要数据或敏感个人信息,是否会对社会、企业、个人权益等产生重大影响。
3)核查其数据来源的合规性、评估隐私泄露的风险,包括确认数据处理是否符合《数据安全法》《个人信息保护法》等法规要求,数据泄露的风险是否被控制在可接受的范围内,结果的输出是否已进行明确的约定。此外,金融机构大多制定了针对自身数据的分级制度,因此,还需评估数据的交互是否符合金融机构相关制度的要求。
4)多方安全计算任务中使用的算法逻辑、各类模型较为复杂,其中一些安全隐患很难被发现,在实施前需对算法逻辑的安全性进行详细审查,对算法、模型的各项指标进行综合评估。
5)制定完备的日志记录、存证机制和操作规程,包括记录的关键节点、存储方式、保留周期和审查方式等,以满足各方对数据处理的过程管理要求和监管机构的审计要求。
6)针对可能存在的风险隐患,参与方应建立健全的风险补偿机制,通过合同等方式明确风险责任认定方式、制订风险补偿措施,切实保障各参与方的合法权益。
(三)实现功能的分层解耦支持便捷研发
多方安全计算通过组合各种密码学技术,构造密码学协议,主要包括秘密分享、同态加密、不经意传输、混淆电路、公钥密码体系等。在实际应用过程中,还需要根据场景需求进行协议的组合设计和程序开发,如需联合建模还涉及机器学习领域的算法。金融机构普遍缺少对密码学协议有深入理解且掌握机器学习等技能的技术人员,从而造成了基于多方安全计算技术的应用开发门槛较高。
针对金融机构应用研发现状,建议对功能进行分层解耦,以支持便捷研发。首先引入的密码学算法、机器学习算法作为底层基础模块,通过配置不同参数进行组合封装形成典型应用功能模块,比如平衡型的隐私求交、非平衡型的隐私求交、秘密分享型的联合计算、隐匿型的联合计算等,密码学算法通常由商用产品实现,封装的功能模块可以由金融机构和供应商进行联合研发。其次,金融机构还需要建设符合企业自身IT架构要求的应用服务层,向下对接产品功能模块,向上对接业务应用,支持根据业务逻辑进行灵活组合开发,并封装成接口供业务应用调用。另外,还需进一步打通大数据平台实现对数据源的有效管控,对接区块链平台实现存证管理。
(四)适配不同场景的灵活部署架构模式
金融行业标准《多方安全计算金融应用技术规范》对多方安全计算的参与方角色进行了明确定义,包括任务发起方、调度方、算法提供方、数据提供方、计算方、结果使用方。任务发起方负责任务有序启动,调度方确保任务高效执行,算法方赋能数据金融价值,数据提供方提供数据计算价值,计算方提供密文算力服务,结果使用方享受数据应用成果,各参与方各司其职,合作共赢。
在部署模式方面,当前多方安全计算产品存在着“对等计算”和“代理计算”两种模式。对等计算模式是指合作双方以去中心化的对等方式进行互联,每方同时兼任数据提供方和计算方角色,这种模式具备部署简单、上线快速、适宜参与方较少的场景。代理模式是计算方独立于数据方存在,即数据与计算解耦。在这种模式下,需采用技术和管理手段保证计算方多个节点在其安全假设的前提下不进行合谋。代理计算模式具有性能良好、可扩展性强、资源消耗低等特点,比较适合可信第三方机构用于构建基础设施。在实际应用场景中,金融机构可根据情况选择合适的部署模式。
(五)提炼标杆场景模式转化规模化应用
以多方安全计算为代表的隐私计算技术目前还处于应用探索期,各类试点层出不穷,但示范性、可推广可复制的典型案例受各种因素制约还比较缺乏,应用尚难以形成统一模式。
金融机构可以以业务需求为导向,通过试点来提炼标杆场景,将标杆场景进一步打磨成各类标准场景模式,转化为规模化应用能力。
标准场景模式可以考虑以下几点:
1)合作模式:说明主数据源的提供方,合作使用哪一方的平台。
2)技术功能:定义场景使用的具体技术功能,针对不同功能指明需要提供的标准化接口或标准化功能。
3)合规要求:说明数据使用审批方式并提供相关授权模板。
4)业务效益:说明解决的业务问题以及可以获得的业务收益。
(六)提升系统可靠性支持生产稳定运行
金融机构对应用系统的可靠性有很高的要求。目前多方安全计算产品的建设周期普遍比较短,还难以满足金融机构的要求。因此还需根据金融机构自身的运维架构要求,通过独立开发或联合开发,不断提升高可用、易扩展及自动化监控运维等能力。
1.高可用
金融机构在基于多方安全计算技术构建平台部署架构时,需重点关注系统高可用问题。在部署架构上可结合金融结构自身数据中心架构体系,构建同城主备、同城双活、异地灾备、异地多活等部署模式。对于实时在线场景,需使用负载均衡和智能域名技术,优先将服务分发到本地负载较低的节点;在本地机房发生故障时,可以自动将服务路由到异地的节点。保障在任意服务、节点或机房故障时,在线服务不会中断。对于离线场景,可降低高可用配置要求,减少资源开销。
2.易扩展
在多方安全计算技术所构建的平台部署架构中,还应关注参与方和集群资源的可扩展能力。可根据实际情况新增或者减少参与方参与协同计算。支持部署集群资源可弹性扩展,一是硬件资源的弹性增减,如CPU、存储设备、IO设备、加速卡等。二是软件层面的调度节点、计算节点等支持分时调度和弹性扩展,实现资源的按需使用和高效复用。
3、自动化运维
系统还应具备限流、超时控制、监控等方面的自动化运维能力。结合系统资源配置和处理能力进行合理的性能容量评估,在流量接近系统服务能力时,应按任务的优先级对交易流量进行限制,避免对系统稳定造成冲击;系统应对各节点实施可用性监控,对系统资源使用情况、交易运行情况进行趋势监控及事件监控,当达到监控阈值进行自动化的分级预警。
四、未来工作展望
目前的多方安全计算金融应用尚处于发展阶段,应用场景呈现出如集团内部应用较多、两方数据融合计算为主、小范围的互联互通等典型特性,跨金融机构的大规模应用尚未到来,在金融应用实施过程中还存在不少问题和挑战。伴随着金融数据要素融合应用需求的推动,未来多方安全计算金融应用在数据要素流通层面前景将更加广阔,我们也对多方安全计算金融应用未来的发展提出如下展望:
(一)完善制度规范推动数据要素市场有序流通
数据要素有序流通的前提一是相关制度规范的建立,二是市场机制的完善。“数据二十条”为我国数据要素流通发展举旗定向,对金融企业深入数据要素市场、挖掘金融数据要素价值产生积极影响,给数字金融的发展带来了新的机遇。但目前数据要素流通具体的规范指引,及市场交易规则还不完善,数据流通的通道还未真正建立起来。展望未来,金融业需要依托国家数据产权制度相关要求,建立金融数据资产登记标准体系和面向金融数据交易流通的制度规范,完善金融数据要素市场监管体系,助力国家不断完善数据流通交易生态,提升数据价值释放效能。
(二)建设多技术融合的数据要素流通基础设施
多方安全计算金融应用实践在技术层面,还需进行持续不断地研究与实践。基于关键要素,金融机构和科技公司应当对多方安全计算技术产品的安全、功能和性能等方面进一步增强和完善,实现异构产品之间的互联互通,并加强对可监管性、易用性、可扩展性的关注。在此基础上多方安全计算可以联合区块链、大数据等其他技术类型,建设多技术融合的数据要素流通基础设施,向各类金融业务条线拓展和赋能。
(三)推广标杆案例实现对金融业务的长效赋能
金融机构在多方安全计算领域已经进行了大量实践,但目前还未形成规模化和体系化。未来还需要以发力重点领域、推广服务模式、形成数据生态作为推进思路,“以点带面、以面立体、以体谋态”,不断打造标杆案例,逐步形成场景应用的规模化和体系化,不断提升金融机构自身经营管理水平和客户服务水平,实现多方安全技术对金融业务高质量发展的长效赋能。