在一個以數(shù)據(jù)為王的算法驅(qū)動的世界里,一個失誤可能導(dǎo)致一場大混亂。Netflix在2009年發(fā)布由訂戶撰寫的匿名電影評論時發(fā)現(xiàn)了這一點。通過將那些簡短評論與另一個網(wǎng)站上的評論進行交叉比對,數(shù)據(jù)偵探發(fā)現(xiàn)他們可以識別個人訂戶和他們在看的內(nèi)容。一名同性戀客戶起訴該公司侵犯隱私;Netflix與其達(dá)成了和解。
這一事件仍被尋求在不暴露提供信息的個人的情況下從數(shù)據(jù)中篩選有用信息的學(xué)者們引用。在匿名化處理失敗的地方,合成數(shù)據(jù)可能會成功。
顧名思義,合成數(shù)據(jù)是人工生成的。它通常是通過加噪算法,將真實世界的數(shù)據(jù)匯集起來構(gòu)建一個新的數(shù)據(jù)集而產(chǎn)生的。由此產(chǎn)生的數(shù)據(jù)集捕獲原始信息的統(tǒng)計特征,而不是變成一件暴露信息來源的復(fù)制品。它的有用性取決于一個被稱為差分隱私的原則:任何挖掘合成數(shù)據(jù)的人,都可以像他們從真實數(shù)據(jù)中那樣,得出同樣的統(tǒng)計推斷,但無法識別貢獻(xiàn)信息的個人。
您已閱讀25%(373字),剩余75%(1105字)包含更多重要信息,訂閱以繼續(xù)探索完整內(nèi)容,并享受更多專屬服務(wù)。