您的位置: 首頁 >互聯(lián)網(wǎng) >

研究人員使用統(tǒng)計模型跟蹤兩個數(shù)據(jù)集中用戶的位置標(biāo)記

2019-06-05 17:34:21 編輯: 來源:
導(dǎo)讀 麻省理工學(xué)院研究人員的一項新研究發(fā)現(xiàn),編寫關(guān)于人類運動模式的大規(guī)模匿名數(shù)據(jù)集的不斷增長的做法是一把雙刃劍:雖然它可以提供對人類研究

麻省理工學(xué)院研究人員的一項新研究發(fā)現(xiàn),編寫關(guān)于人類運動模式的大規(guī)模匿名數(shù)據(jù)集的不斷增長的做法是一把雙刃劍:雖然它可以提供對人類研究行為的深刻見解,但它也可能使人們的私人數(shù)據(jù)處于危險之中。

公司,研究人員和其他實體開始收集,存儲和處理包含用戶“位置標(biāo)記”(地理坐標(biāo)和時間戳)的匿名數(shù)據(jù)??梢詮氖謾C記錄,信用卡交易,公共交通智能卡,Twitter帳戶和移動應(yīng)用程序中獲取數(shù)據(jù)。合并這些數(shù)據(jù)集可以提供有關(guān)人類旅行方式的豐富信息,例如,優(yōu)化交通和城市規(guī)劃等。

但是大數(shù)據(jù)帶來了很大的隱私問題:位置標(biāo)記非常特定于個人,可用于惡意目的。最近的研究表明,在移動數(shù)據(jù)集中只有少數(shù)隨機選擇的點,有人可以識別和學(xué)習(xí)有關(guān)個人的敏感信息。使用合并的移動數(shù)據(jù)集,這變得更加容易:代理可能會將來自一個數(shù)據(jù)集的匿名數(shù)據(jù)中的用戶軌跡與另一個數(shù)據(jù)集中的去匿名數(shù)據(jù)進行匹配,以取消屏蔽匿名數(shù)據(jù)。

在今天發(fā)表在IEEE大數(shù)據(jù)交易的一篇論文中,麻省理工學(xué)院的研究人員展示了如何在新加坡的兩個大型數(shù)據(jù)集中首次分析所謂的用戶“匹配性”,一個來自移動網(wǎng)絡(luò)運營商和一個來自當(dāng)?shù)氐慕煌ㄏ到y(tǒng)。

研究人員使用統(tǒng)計模型跟蹤兩個數(shù)據(jù)集中用戶的位置標(biāo)記,并提供兩組數(shù)據(jù)點來自同一個人的概率。在實驗中,研究人員發(fā)現(xiàn)該模型可以在一周的數(shù)據(jù)中匹配大約17%的個體,并且在一個月的收集數(shù)據(jù)后超過55%的個體。這項工作展示了一種有效,可擴展的方式來匹配數(shù)據(jù)集中的移動軌跡,這可以成為研究的福音。但是,研究人員警告說,這樣的過程可以增加對真實用戶數(shù)據(jù)進行去匿名化的可能性。

“作為研究人員,我們相信使用大規(guī)模數(shù)據(jù)集可以發(fā)現(xiàn)有關(guān)人類社會和流動性的前所未有的見解,使我們能夠更好地規(guī)劃城市。然而,重要的是要證明識別是否可行,以便人們意識到潛力分享移動數(shù)據(jù)的風(fēng)險,“新加坡麻省理工學(xué)院研究與技術(shù)聯(lián)盟未來城市交通小組的博士后Daniel Kondor說。

麻省理工學(xué)院城市系教授Carlo Ratti補充說:“在公布結(jié)果時 - 特別是對數(shù)據(jù)進行去匿名化的后果 - 我們感覺有點像'白帽'或'道德'黑客。”麻省理工學(xué)院Senseable City Lab的研究和規(guī)劃以及主任。“我們認(rèn)為重要的是要警告人們[數(shù)據(jù)合并]和[考慮]我們?nèi)绾螌ζ溥M行監(jiān)管的新可能性。”

消除誤報

要了解匹配位置標(biāo)記和潛在的去異?;墓ぷ鞣绞剑埧紤]以下情況:“我兩天前在新加坡的圣淘沙島,昨天來到迪拜機場,今天在迪拜的朱美拉海灘。我不太可能看到另一個人的軌跡完全相同。簡而言之,如果某人有我的匿名信用卡信息,也許是我在Twitter的開放位置數(shù)據(jù),他們就可以對我的信用卡數(shù)據(jù)進行匿名化,“拉蒂說。

存在類似的模型來評估數(shù)據(jù)中的去異義化。但是那些使用計算密集型方法進行重新識別,這意味著將匿名數(shù)據(jù)與公共數(shù)據(jù)合并以識別特定個體。這些模型僅適用于有限的數(shù)據(jù)集。麻省理工學(xué)院的研究人員使用更簡單的統(tǒng)計方法 - 測量誤報的概率 - 有效地預(yù)測大量數(shù)據(jù)集中用戶的數(shù)量之間的匹配。

在他們的工作中,研究人員編制了兩個匿名的“低密度”數(shù)據(jù)集 - 每天一些記錄 - 關(guān)于新加坡的移動電話使用和個人交通,2011年記錄了一周。移動數(shù)據(jù)來自大型移動網(wǎng)絡(luò)運營商和包含來自超過200萬用戶的超過4.85億條記錄的時間戳和地理坐標(biāo)。運輸數(shù)據(jù)包含超過7000萬條記錄,其中包含個人在城市中移動的時間戳。

給定用戶在兩個數(shù)據(jù)集中都有記錄的概率將隨著合并數(shù)據(jù)集的大小而增加,但誤報概率也會增加。研究人員的模型從一個數(shù)據(jù)集中選擇用戶,并從具有大量匹配位置標(biāo)記的其他數(shù)據(jù)集中查找用戶。簡單地說,隨著匹配點的數(shù)量增加,假陽性匹配的概率降低。在沿著軌跡匹配一定數(shù)量的點之后,該模型排除了匹配是誤報的可能性。

他們關(guān)注典型用戶,估計一周編譯數(shù)據(jù)的匹配成功率為17%,四周為55%。根據(jù)11周的數(shù)據(jù)編制,這一估計數(shù)躍升至95%左右。

研究人員還估計了在一周內(nèi)匹配大多數(shù)用戶需要多少活動。通過查看具有30到49個個人交通記錄和大約1,000個移動記錄的用戶,他們估計一周的編譯數(shù)據(jù)成功率超過90%。此外,通過將兩個數(shù)據(jù)集與GPS跟蹤相結(jié)合 - 由智能手機應(yīng)用程序主動和被動地定期收集 - 研究人員估計,他們可以使用不到一周的數(shù)據(jù)匹配95%的個別軌跡。

更好的隱私

通過他們的研究,研究人員希望提高公眾意識并促進更嚴(yán)格的共享消費者數(shù)據(jù)的法規(guī)。“所有帶有位置標(biāo)記的數(shù)據(jù)(這是今天收集的大部分?jǐn)?shù)據(jù))都可能非常敏感,我們都應(yīng)該就我們與誰共享它做出更明智的決定,”Ratti說。“我們需要繼續(xù)思考處理大規(guī)模數(shù)據(jù),個人以及提供足夠保障以保護隱私的正確方法所面臨的挑戰(zhàn)。”

為此,Ratti,Kondor和其他研究人員一直在廣泛研究大數(shù)據(jù)的倫理和道德問題。2013年,麻省理工學(xué)院的Senseable City Lab啟動了一項名為“參與數(shù)據(jù)”的計劃,該計劃涉及政府,隱私權(quán)組織,學(xué)術(shù)界和企業(yè)界的領(lǐng)導(dǎo)者,他們研究如何在今天的數(shù)據(jù)收集公司中使用移動數(shù)據(jù)。

“今天的世界充斥著大數(shù)據(jù),”Kondor說。“在2015年,人類產(chǎn)生的信息與人類文明前幾年創(chuàng)造的信息一樣多。盡管數(shù)據(jù)意味著更好地了解城市環(huán)境,但目前大部分信息都是由少數(shù)公司和公共機構(gòu)掌握的。很多關(guān)于我們的事情,雖然我們對它們知之甚少。我們需要注意避免數(shù)據(jù)壟斷和濫用。“


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。