聯邦學習: 統一數據協作和隱私保護的技術解決之道

將門創投
關注

隨著數字化經濟時代的到來,數據作為生產要素其價值愈發明顯,越來越多的企業或組織需要與產業鏈上下游業務伙伴在數據流通和交易領域進行深度合作,只有通過各方數據協同計算,才能更好地釋放數據價值。

但用戶對隱私日益重視,政策法規趨向嚴格,數據協作和隱私保護這一矛盾也日益嚴重,如何用技術手段來解決這一難題呢? 在聯邦學習的探索中可以幫你找到答案。本文主要內容如下:

1. 隱私計算產生背景:數據價值和隱私

2. 隱私計算技術

安全多方計算

可信執行環境

聯邦學習

3. 聯邦學習的拓展

分布式機器學習

聯邦學習和傳統分布式系統的差異

計算挑戰

聯邦學習的拓展與安全性

實際案例講解

1. 數據價值和隱私

為什么需要隱私計算呢?首先,數據的產生過程是分散的,數據具有天然的割裂性。不同類型的公司提供不同的業務和服務,產生的數據類型也是不同的,例如社交公司產生用戶大量的社交數據,電商產生的是用戶的消費數據。但是在計算分析過程中,我們需要以“人”為單位,多維度、全面理解一個人才能進行高效的智能化的推薦。

其次,不同機構有不同的覆蓋范圍,他們分別只能收集到一部分人群的數據。現階段,智能化的進程仍然需要依賴數據,可數據孤島的存在成為人工智能發展的一大壁壘,極大限制了企業可利用的數據量。

除此之外,在數據的實際應用中,企業也有保護其核心高價值數據的需求,通過隱私計算和聯邦學習實現數據的所有權和使用權分離是一種有效的解決方式。

2. 隱私計算技術

由于企業和機構對數據自身價值的保護以及對用戶隱私授權的保護,數據被儲存在不同地方,像一個個孤島難以被有效的連接互動。傳統的商業協議無法有效保護數據的安全,原始數據一旦出庫,就會面臨完全失控的風險。

典型的反面案例就是臉書的劍橋門事件。雙方按照協議:Facebook 將千萬級別的用戶數據轉交給劍橋分析公司,用于學術研究。但原始數據一經出庫后就完全失控,被用于學術之外的用途,導致 Facebook 面臨的巨額罰金。

我們需要從技術層面提供更加安全的解決方案,用來保證數據流通協作過程中達到數據使用權的細分。隱私計算應運而生,它是數據科學與工程、密碼學、分布式計算與存儲的綜合工程,包括多方安全計算、可信硬件、聯邦學習等多項技術。

安全多方計算

講到多方安全計算(MPC),就會提到姚氏百萬富翁問題:有兩個很有錢的富翁,他們想知道誰更有錢,他們又都不想讓除己以外的任何人知道自己實際有多少錢(即不信任任何第三方)。這是一個典型的兩方安全計算案例,需要在不分享原始數值的情況下,得出想要的結論。其中相關的技術包括:秘密分享,模糊傳輸,同態加密,混淆電路。

MPC技術的優點:單次隨機加密,加密數據無法重復使用;?加密數據基礎上直接進行運算,原始數據不出庫/不能被還原;?每次計算要所有方共同協調:在計算前就要確定參與方。

可信執行環境

可信執行環境(TEE)也是一種解決方案:將計算運行在一個獨立的環境中,而且與操作系統并行運行。在CPU 上確保 TEE 中代碼和數據的機密性和完整性都得到保護,通過同時使用硬件和軟件來保護數據和代碼,故而TEE比操作系統更加安全。

市面上常見的解決方案有 Intel 的 SGX,ARM 的 TrustZone,服務器或者 PC 上的解決方案主要是 Intel 的 SGX;而 arm 的 trustzone 主要用在手機 CPU 上,如手機里面的指紋識別,人臉識別過程的數據安全保護。

可信執行環境依賴芯片隔離機制,在隔離區內,數據被解密成明文直接計算,整體效率會比較高。但是由于計算還是在明文層面進行,仍然會帶來對應的安全困擾,比如會受硬件漏洞影響;而且更新需要硬件升級,無法快速迭代。

聯邦學習

聯邦學習(Federated Learning)是另一種解決方案,也是我們今天重點要講述的方案。

傳統聯邦學習

聯邦學習最早由谷歌提出,用于解決安卓手機終端用戶在本地更新模型的問題。早期聯邦學習可以在保證數據隱私安全及合法合規的基礎上,通過本地存儲數據和模型計算由邊緣設備完成,實現共同建模,提升模型的效果。

聯邦學習能解決問題和適用場景:? 多方數據補充,用在樣品數量不夠充足,數據維度不夠豐富的場景;? 保護數據隱私/核心價值,整個學習訓練過程,沒有傳輸任何原始數據,用來保護數據隱私安全。

接下來我們針對聯邦學習,進行系統性的討論,包括起源,雛形,發展,應用等。

3. 聯邦學習的拓展

分布式機器學習

嚴格意義上說,聯邦學習其實并不是一個全新的概念,而是基于分布式機器學習發展而來。分布式機器學習,又叫Distributed MachineLearning,是大數據背景下的產物,也是當前機器學習最熱門的研究領域之一。

在大數據時代,數據發生爆炸式增長,大數據具有五大特征:大數據量(Volume)、多類型(VarieG ty)、低價值密度(Value)、高時效(Velocity)和數據在線(OnG line),大規模訓練數據的產生為模型的訓練提供了必要條件,同時也帶來訓練的挑戰。

傳統的機器學習注重在單機中處理數據的速度,但龐大的數據存儲和計算僅在單機上是遠遠做不到的,而且硬件支持的有限性使得在單機上做大數據處理時顯得十分吃力,例如: 數量大、計算復雜度高,單機訓練時長遠超過可接受的范圍,不實用;存儲容量和內存需求增加,單機無法滿足需求,難以落地。

將模型計算分布式地部署到多臺、多類型機器上進行同時計算,成為必要的解決方式。正如我們上面提到的,將模型計算分布式地部署到多臺、多類型機器上進行同時計算是解決大數據運算的必須條件。

圖片引用自:《分布式機器學習:算法、理論與實踐》

聲明: 本文由入駐OFweek維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。
侵權投訴

下載OFweek,一手掌握高科技全行業資訊

還不是OFweek會員,馬上注冊
打開app,查看更多精彩資訊 >
国产欧美另类久久久精品