葡萄牙央行规模化提升LEI数据质量的实践路径
葡萄牙中央银行(Banco de Portugal)数据管理部门数据科学家Ana Sofia Afonso分享了一种在规模化场景下保障数据质量最高标准的实践方法——通过结合基于人工智能(AI)的权威国家数据源交叉校验机制,以及基于全球法人识别编码基金会(GLEIF) API的“批量数据质疑”(Bulk Challenge)机制,实现高效的数据质量管理。
高质量的全球法人识别编码(LEI)数据,是确保全球范围内各类机构实现“可信”与“被信任”的关键基础。然而,这种数据质量无法通过零散、一次性的人工“清洗”(clean-ups)来实现——此类方式往往标准不一、效率低下且成本高昂。相反,提升数据质量日益依赖于可审计、可重复的流程体系,以在规模化场景下持续优化数据质量,同时减少人工干预。
以“如何判定未经年检(lapsed)的LEI是否应被注销(retired)?”这一问题为例:所谓“未经年检”(lapsed)的LEI,是指未按时完成年度更新的LEI,其背后的法定实体可能已停止运营。如何在大规模数据环境中高效完成此类判定?更为关键的是,如何基于清晰、一致且可验证的证据支撑相关决策?
在本篇博客中,葡萄牙中央银行(Banco de Portugal)数据管理部门数据科学家Ana Sofia Afonso对此进行了详细阐述。通过将机器学习(ML)和人工智能(AI)算法与严格的数据质量控制机制及专家验证相结合,对符合注销条件的LEI进行识别,从而有效提升了国家及国际参考数据体系之间的数据一致性与治理水平。这一实践为所有LEI数据使用者提供了可借鉴的范式,有助于在全球LEI体系中进一步提升数据的时效性、准确性与可靠性。
国家级参考数据环境中的LEI诠释
在葡萄牙,所有本地注册的法定实体均必须持有国家级标识符,以满足法律及税务管理要求。然而,LEI仅在特定监管场景下为强制要求,因此其整体覆盖范围相对有限。此外,LEI生命周期相关事件往往由外部报送义务触发,而非基于法定实体法律状态的实际变化。
这一情况带来了结构性挑战。随着国家企业登记体系的不断演进,LEI数据——尤其是那些未持续更新参考信息的实体——可能逐渐出现不同步现象。随着时间推移,我们观察到这一问题主要表现为以下几个方面:
- 在国家企业登记系统中已处于非活跃状态的实体,其对应的LEI仍长期处于“未经年检”(lapsed)状态;
- GLEIF记录中的国家标识符与国家主管机构所持有的数据(即葡萄牙银行参考数据系统的数据来源)之间存在不一致;
- 需要开展大量人工核查工作,这类工作不仅耗时较长、难以确定优先级,而且难以在规模化层面有效推进。
为什么需要审慎解读处于“未经年检”状态的LEI
针对上述挑战,我们着手探索一种能够在LEI全生命周期内高效提升数据质量、并增强全球参考数据可信度的方法。
初步分析得出的一个关键结论是:LEI处于“未经年检”(lapsed)状态,并不意味着其对应的法定实体已不再活跃。未完成续期可能仅反映报送义务的变化,而非实体本身的终止。反之,某些法定实体在法律上可能已停止运营,但其LEI仍可能处于已发行(Issued)或“未经年检”(lapsed)状态。
更为重要的是,我们认识到一个关键原则:错误地将LEI“注销(retire)”所带来的后果,比未进行注销更为严重,因为这将错误地表明相关法定实体已停止运营。由此可能对该实体的交易能力及正常经营活动造成不利影响。因此,将“未经年检”(lapsed)状态作为自动触发注销的依据,会引入显著的治理风险。这也意味着,任何解决方案都必须采取审慎原则,基于充分证据,并具备完整的可审计性。
因此,真正的挑战在于准确区分以下两类情形:
- 未完成续期但仍对应活跃实体的LEI;
- 对应在葡萄牙法律上已不再活跃法定实体的LEI。
葡萄牙中央银行的解决之道:基于权威国家数据交叉校验的人工智能(AI)应用
要实现上述区分的准确性,需要整合多源数据,并应用一致且基于证据的数据质量控制机制。我们的方法建立在一个简单而核心的原则之上:LEI生命周期相关决策必须依托权威的国家级信息,并以可控、可规模化的方式执行。
为此,我们将来自GLEIF、外部数据源以及国家企业登记系统的数据持续整合至统一的参考数据环境中,从而形成对实体身份、法律状态及LEI注册状态的全景视图。在此基础上,运用机器学习(ML)与人工智能(AI)算法,对实体名称及标识符进行标准化处理,并计算跨数据集的相似度评分,实现LEI记录与权威国家数据源之间的大规模自动化交叉校验,以识别需要更新的数据。
在完成验证后,相关更新通过基于GLEIF API的“批量数据质疑”(Bulk Challenge)机制进行落地实施,大幅降低人工操作成本并优化内部流程。同时,该机制还引入独立第三方验证,进一步增强数据处理的可靠性与公信力。这确保了经过核验的LEI注销操作能够以一致、高效且全流程可追溯的方式完成,同时避免不必要的临时性或人工干预。
需要强调的是,在整个流程中,人工监督仍然不可或缺。对于复杂或存在不确定性的情形,将升级至专家层面进行复核,以确保自动化手段是对治理机制的强化,而非替代。
实施成效:从被动核查走向规范化流程
该方法的应用取得了清晰且可量化的成效。首先,我们基于经验证的法定实体法律非活跃状态(而非仅依据是否续期),识别出真正符合注销条件的LEI。

其次,我们发现了大量与注销无关但影响数据质量的问题,尤其体现在标识符准确性方面。对这些差异进行修正后,有效提升了国家参考数据库与GLEIF记录之间的一致性。
第三,通过对LEI注册状态的纵向分析,我们发现“未经年检”(lapsed)和“已注销”(retired)LEI数量的增加,主要反映了法定实体生命周期的真实变化,而非系统性数据质量下降。将时间维度纳入分析,对于准确解读相关数据具有关键意义。
最后,我们实现了从临时性、人工驱动的核查方式,向基于明确标准和可追溯结果的可重复、可审计流程的转变,从而显著提升了数据处理的一致性与治理水平。
提升全球LEI体系的数据质量
除已实现的显著运营效益外,该方法亦体现了我们对全球LEI体系的坚定承诺。通过及时共享信息,并在常规续期周期之外更新LEI参考数据,我们积极推动数据质量持续提升,确保LEI参考数据始终保持准确、最新。这对于促进葡萄牙乃至更广泛经济体系中的信任与透明度具有重要意义。

粤公网安备 44030602000994号