螞蟻數(shù)科隱私增強(qiáng)型數(shù)據(jù)協(xié)作平臺(tái)(FAIR)在數(shù)據(jù)要素領(lǐng)域的應(yīng)用——螞蟻區(qū)塊鏈科技(上海)有限公司
案例基本內(nèi)容和執(zhí)行情況
螞蟻區(qū)塊鏈科技(上海)有限公司(以下簡(jiǎn)稱螞蟻數(shù)科)圍繞數(shù)據(jù)要素為核心,融合隱私計(jì)算、區(qū)塊鏈、大數(shù)據(jù)、可驗(yàn)證計(jì)算等技術(shù)推出隱私協(xié)作平臺(tái)(簡(jiǎn)稱FAIR平臺(tái)),實(shí)現(xiàn)面向數(shù)據(jù)開放與數(shù)據(jù)基建的隱私增強(qiáng)型數(shù)據(jù)計(jì)算樞紐,并在監(jiān)管、營銷、風(fēng)控、民生等多個(gè)垂直領(lǐng)域的落地使用,推動(dòng)了隱私安全、可信的數(shù)據(jù)共享及價(jià)值流轉(zhuǎn)。
平臺(tái)全面建設(shè)并實(shí)踐了隱私保護(hù)模式下的數(shù)據(jù)查詢,統(tǒng)計(jì)分析,聯(lián)合建模等能力,并融合軟硬結(jié)合技術(shù)實(shí)現(xiàn)特定算法的高性能硬件加速。支持快速對(duì)接現(xiàn)有數(shù)據(jù)源,提供資源友好的可配置輕量化底座,在多個(gè)場(chǎng)景實(shí)踐中展示出大規(guī)模數(shù)據(jù)下生產(chǎn)級(jí)可用的標(biāo)準(zhǔn)。例如在風(fēng)控的使用場(chǎng)景中,可以在保護(hù)數(shù)據(jù)隱私的前提下實(shí)現(xiàn)聯(lián)合建模,可在2分鐘完成10萬樣本100棵樹的XGB建模,產(chǎn)出模型精度相比單方建模精度提升30%以上,極大提升了風(fēng)控識(shí)別準(zhǔn)確率,降低了運(yùn)營成本。
案例主要經(jīng)濟(jì)成效和社會(huì)成效分析
2021年12月,我國首次提出“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃,其中明確指出“(數(shù)字經(jīng)濟(jì))是以數(shù)據(jù)資源為關(guān)鍵要素...的新經(jīng)濟(jì)形態(tài)。”。同時(shí)我們也看到數(shù)據(jù)要素在輔助企業(yè)進(jìn)行智能化分析與決策等方面發(fā)揮著重要的作用,但在綜合運(yùn)用多方數(shù)據(jù)產(chǎn)生更大乘法效應(yīng)的階段,卻面臨數(shù)據(jù)共享存在隱私安全風(fēng)險(xiǎn)、數(shù)據(jù)持續(xù)流通存在可信挑戰(zhàn)的問題。螞蟻數(shù)科基于這一背景,綜合隱私計(jì)算、區(qū)塊鏈、大數(shù)據(jù)、可驗(yàn)證計(jì)算等技術(shù)推出隱私協(xié)作平臺(tái)FAIR,實(shí)現(xiàn)面向數(shù)據(jù)開放與數(shù)據(jù)基建的隱私增強(qiáng)型數(shù)據(jù)計(jì)算樞紐,并賦能落地了監(jiān)管、營銷、風(fēng)控、民生等多個(gè)垂直領(lǐng)域。FAIR產(chǎn)品每年銷售收入數(shù)千萬元并實(shí)現(xiàn)了穩(wěn)步、高質(zhì)量增長(zhǎng),除此之外,作為一款面向企業(yè)的隱私增強(qiáng)型數(shù)據(jù)平臺(tái)產(chǎn)品,通過其密態(tài)分析與密態(tài)機(jī)器學(xué)習(xí)能力,在企業(yè)提升生產(chǎn)效率、降低運(yùn)營成本、提升公共服務(wù)水平等方面帶來了諸多實(shí)際落地成果。后續(xù)將以幾個(gè)典型落地案例分別闡述這幾個(gè)方面的提升。
在信貸風(fēng)控場(chǎng)景的案例中,通過FAIR平臺(tái)的高精度密態(tài)機(jī)器學(xué)習(xí)能力,提升了客戶風(fēng)控能力,降低運(yùn)營成本?蛻魹槟称嚱鹑趶S商,通過機(jī)器學(xué)習(xí)模型進(jìn)行信貸授信、反欺詐等風(fēng)險(xiǎn)防控。但其風(fēng)險(xiǎn)標(biāo)簽一般來自人工認(rèn)定,往往數(shù)據(jù)量較少,且汽車廠商的用戶畫像特征數(shù)據(jù)維度偏少,訓(xùn)練后的機(jī)器學(xué)習(xí)模型精度不高,影響了風(fēng)控質(zhì)量?蛻衾肍AIR平臺(tái)的密態(tài)機(jī)器學(xué)習(xí)算法,聯(lián)合合作方提供的消費(fèi)、交易、金融偏好等特征數(shù)據(jù),充分融合多參與方、多維度的數(shù)據(jù)形成聯(lián)合訓(xùn)練數(shù)據(jù),在隱私保護(hù)多方數(shù)據(jù)的前提下進(jìn)行聯(lián)合建模,產(chǎn)出的模型精度提升30%以上。FAIR密態(tài)機(jī)器學(xué)習(xí)能力具備常見特征工程、建模、推理與評(píng)估能力,同時(shí)針對(duì)風(fēng)控領(lǐng)域常見的樣本不均衡等問題進(jìn)行了針對(duì)性優(yōu)化,最終可以在2分鐘內(nèi)完成10萬級(jí)樣本百棵樹XGB模型的訓(xùn)練,1小時(shí)內(nèi)完成數(shù)億樣本的模型推理,提升了密態(tài)機(jī)器學(xué)習(xí)效率,有效幫助客戶改善了風(fēng)險(xiǎn)防控能力,實(shí)現(xiàn)降本提效與高質(zhì)量發(fā)展。
在公共服務(wù)的案例中,通過FAIR平臺(tái)的多方數(shù)據(jù)密態(tài)分析能力,幫助相關(guān)部門實(shí)現(xiàn)了多方數(shù)據(jù)安全核驗(yàn),提高了公共服務(wù)水平?蛻粜枰C合社保、稅務(wù)等政務(wù)數(shù)據(jù)對(duì)企業(yè)數(shù)據(jù)進(jìn)行交叉核驗(yàn),判斷其是否滿足特定政策。然而由于政務(wù)數(shù)據(jù)的敏感性,無法歸集到此部門進(jìn)行調(diào)用,往年只能通過人工方式進(jìn)行核驗(yàn)。通過引入FAIR平臺(tái)的多方數(shù)據(jù)密態(tài)分析能力,在政務(wù)原始數(shù)據(jù)不出域的情況下實(shí)現(xiàn)聯(lián)合計(jì)算,核驗(yàn)數(shù)據(jù)數(shù)千萬條,實(shí)現(xiàn)相關(guān)事項(xiàng)的智能核驗(yàn)與秒批秒辦,高效服務(wù)企業(yè)超千家。
在醫(yī)學(xué)數(shù)據(jù)分析的案例中,通過FAIR平臺(tái)的密態(tài)數(shù)據(jù)計(jì)算能力,完成了跨地區(qū)多家醫(yī)院數(shù)據(jù)的聯(lián)合統(tǒng)計(jì)分析。特定疾病的發(fā)生率是支撐衛(wèi)生政策的重要信息,一般可基于人口學(xué)信息、實(shí)驗(yàn)室檢查檢驗(yàn)信息、住院信息等,經(jīng)特定規(guī)則運(yùn)算分析得出。而綜合多家醫(yī)院的數(shù)據(jù)將極大提升準(zhǔn)確率,并可通過FAIR平臺(tái)的數(shù)據(jù)脫敏與密態(tài)數(shù)據(jù)統(tǒng)計(jì)分析能力,解決多方數(shù)據(jù)交互過程中的隱私安全問題。FAIR平臺(tái)提供SQL化的數(shù)據(jù)分析接入界面,客戶通過構(gòu)造SQL語句,就可以方便地完成多方數(shù)據(jù)的聯(lián)合查詢、統(tǒng)計(jì)分析、統(tǒng)計(jì)分布和相關(guān)性分析,進(jìn)而實(shí)現(xiàn)疾病發(fā)生率的分析,為當(dāng)?shù)毓残l(wèi)生政策制定提供決策支撐。
本文選自數(shù)據(jù)要素價(jià)值創(chuàng)新示范案例集(2023年度)