從臉書數據泄露談起:社交中如何保護隱私

從臉書數據泄露談起:社交中如何保護隱私
2018年04月04日 08:58 科學大家

  出品 | 新浪科技《科學大家》

  撰文 | 朱廷劭 中國科學院心理研究所 研究員

  2018年3月17日當地時間,美國紐約時報和英國觀察者報(英國衛報的周日版)共同發布了深度報道,” The Cambridge Analytica Files”,稱Facebook上超過5000萬用戶信息數據被一家名為Cambridge Analytica(劍橋分析)的公司不當獲取,用于在2016年美國總統大選中對目標受眾進行精準信息投放,可能影響到大選結果。這篇報道在世界范圍內引發了軒然大波,并不斷發酵至今,也引起人們對社交網絡數據隱私保護的熱切關注。

  事情起因于劍橋大學的心理學講師Aleksandr Kogan通過一款用于科研的Facebook應用(thisisyourdigitallife)收集了約27萬用戶的數據記錄,并通過好友關系抓取了共5000萬名Facebook用戶數據。Facebook宣稱Kogan后來將這些數據轉手賣給了第三方,其中就包括劍橋分析公司。劍橋分析通過對Facebook數據挖掘獲取選民的心理特點,進而有針對性地為特朗普投放競選廣告,由此輔助特朗普贏得2016美國大選,從而名聲大噪。事件曝光后在媒體和網絡上持續發酵,報道中遭到個人數據泄露的用戶數量在不斷放大,甚至有媒體宣稱挖到了“通俄”線索,Facebook股價也隨之大跌,一時眾說紛紜,好不熱鬧。

  在熱鬧與震驚背后,這一事件觸及了在以社交網絡為代表的大數據時代,用戶數據應該被如何使用的一些關鍵問題。這些問題在近年來社交網絡心理學研究中被不斷提及,在學術界也已有若干討論與共識。巧合的是,這次事件的起源恰恰有可能與對科研倫理的違背有關。下面我們來逐一分析。

  網絡上沒有留下個人關鍵信息,隱私還可能泄露嗎?

  隨著網絡的普及,人們對于網絡信息的安全性愈加關注,不會輕易把個人的關鍵信息放在網上。但縱然如此,隱私真的就萬無一失了嗎?2006年6月,Pass等人在香港舉辦的一個國際會議上發表了”A Picture of Search”的論文,并將文中使用的美國在線2006年3月1號到5月31號的搜索日志公開,包括1900萬次搜索、1080多萬搜索詞以及65萬余匿名化處理后的用戶ID。雖然這些數據中已經將用戶信息刪除,但是有的搜索本身就含有個人隱私性質。一些搜索記錄可能與特定的人能夠相聯系,縱然用戶ID已經被匿名化處理,但是從某個用戶ID所做的一系列搜索,仍然有可能找到這個用戶的真實身份。紐約時報記者根據搜索數據輕易地找到一位62歲的老太太,這個老太太證實那些列出的搜索關鍵詞確實是她的。事后,這個研究小組被解散,并最終導致AOL首席技術官引咎辭職。個人隱私的泄露除了自己主動放到網上被他人不當獲取之外,通過對網絡留痕的分析,也可以對一些比較隱私的個人關鍵信息(如年齡性別等)進行有效推斷。

  人們在社交網絡上的一舉一動,都是性格特點與內心狀態等心理特征的某種反映。個人往往不需要在社交網絡上直接寫下“我是××性格的人”,只要對社交網絡的日常使用積累到一定數量,科學家就能夠運用人工智能技術,通過其在社交網絡上日常展示的信息自動計算出心理特征,目前在Facebook/Twitter以及微博上相關研究也證實了這種個人心理特征自動獲取的可行性。如果我們在社交網絡上展示的內容足夠豐富,對我們心理特征的計算可以做到很準確,甚至能超過家人對我們的了解程度。這些心理特征可能對許多應用有重要的指導作用,比如可以根據用戶的心理特征來推薦他感興趣的內容,帶來更佳的用戶體驗;又比如可以根據這些心理特征有針對性地投放廣告,提高宣傳的效果,而這正是Cambridge Analytica公司據稱在英國脫歐和美國大選中所做的事情。

  運用類似的方法,通過社交網絡行為數據還有可能識別出個體的性取向、政治傾向、價值觀等通常意義上更“敏感”的個人信息。而在其他一些只反映某種特定行為的數據集上,如利用匿名之后的信用卡刷卡的地點記錄,用戶的身份更是很容易被定位。因此,只隱去傳統意義上的個人關鍵信息,在人工智能和大數據的配合下,可能我們的隱私反而會以一種更深刻的形式泄露出去。

  當然,利用人工智能技術算出上述個人特征的前提,是掌握了此人足夠多的數據。如果此人在社交網絡上留下的有效行為數據不夠多,那再厲害的算法也無能為力。而且,我們可以在社交網絡平臺上為自己所展示的內容設定不同的私密等級,比如把有些內容設置為只有好友可見,這樣一來,如果沒有我們的授權,陌生人就不能獲得這些數據。因此通常而言,在社交網絡上獲得大量用戶的、足夠準確計算其中每個人心理特征的數據,并不是一件容易的事。

  社交網絡App被允許收集用戶數據,理應更好地服務于大眾

  社交網絡上的第三方App的一個共同特點,就是需要用戶授權,授權App服務的提供者(比如本次事件中的Kogan團隊)獲取用戶在社交網絡上發表的各種數據。如果用戶想要使用這項App服務,那就必須對其授權。事實上,所有社交網絡平臺都允許這樣的App存在,并提供相應的開發接口,因為只有如此,社交網絡才能具有豐富多彩的功能和不斷提升的用戶體驗。通常App訪問用戶數據的目的,是為實現和提升其服務功能,例如我們想讓App推薦附近的餐館,自然要允許它訪問我們的位置信息。不只社交網絡,搜索引擎、電商、網絡媒體等各種網絡平臺功能與體驗的提升,都依賴于對用戶數據的收集分析。換句話說,網絡用戶允許自己的數據在某種程度上被分析和利用,也是享受到更多、更好服務的必然前提。

  同時,社交網絡中積累的海量用戶行為數據,是科學研究的資源寶庫。合理分析利用這些數據,能夠獲得大量關于人類行為與心理的新知,不僅能有力促進心理學、社會學等基礎學科和人工智能技術的發展,更能為解決諸如心理健康、自殺等實際挑戰帶來新的曙光。社交網絡行為數據由大眾自發產生,也應當被用于旨在增進大眾福利的探索與實踐。

  怎樣利用這些數據才是可以接受的?

  在Facebook事件曝光之后,不僅公眾反應強烈,互聯網巨頭們也紛紛表態強調對用戶隱私的保護,表達了“隱私是基本人權”、“數據是個人資產”、“保護信息安全是公司責任”等原則性觀點;同時,他們也指出了讓數據得到合理利用而不被浪費的重要性。那么,怎樣利用這些數據才是可以接受的?就操作層面而言,關鍵是保障用戶對數據被使用的知情權與選擇權。

  Facebook事件之所以成為公眾無法接受的丑聞,核心在于公眾對自己的數據用于干預選舉并不知情,更談不上同意。從目前的公開報道來看, Kogan團隊和Facebook公司對這一局面的形成可能都負有一定責任:如果Aleksandr Kogan對其App用戶聲稱數據收集只用于科研目的,由此獲得了用戶授權,但之后卻把數據或分析結果賣給了第三方,則這一行為明顯違背了科研倫理;如果Facebook在明確得知以科研名義獲取的數據被挪作他用之后沒有及時采取措施,則也應承擔相應責任。更重要的是,據報道2015年之前Facebook在App權限的管理規則上存在漏洞,造成Kogan的App在只有27萬用戶授權的情況下能夠獲取約5千萬用戶的數據,這種數據量上的擴增是導致“一個App可能影響大選”的重要原因。

  事實上,從人工智能技術最早在科研中被用于分析社交網絡數據的那一刻起,學術界就已經開始了對相關倫理標準的探討,并已達成了基本共識:基于社交網絡的行為心理研究同樣應當遵守人類被試研究的一般倫理原則,使用需要用戶授權的數據必須征得用戶的知情同意,并嚴格按照經由倫理委員會審核批準的程序進行,尤其不能將研究數據用于倫理委員會批準范圍之外的目的(如轉賣給第三方)。即便是使用不需用戶授權的公開網絡數據,在用于科研時也應同時滿足以下四項標準:

 ?。?)用戶對數據公開是知情的;

 ?。?)數據收集后應匿名處理;

 ?。?)研究中不存在與用戶的互動和溝通;

 ?。?)在公開發表物中不得出現能夠識別用戶個人身份的信息。

  上述倫理原則對網絡行為數據在非學術領域的使用也具有借鑒意義。無論我們以何種名義,都應該確保用戶對自己數據被使用的知情權和選擇權,任何形式的越廚代庖都是對用戶的不尊重,最終也必然被用戶所拋棄。

  怎樣避免類似事件再次發生?

  社交網絡滿足了人們的諸多需求,它的普及乃是大勢所趨,人工智能的發展和應用更是人類技術與產業進步的希望所在。我們不可能也不應該因噎廢食,因存在個人隱私泄露的風險而廢止社交網絡、禁止對社交網絡數據的分析和利用。我們真正需要做的,是用制度和規則來規范對網絡平臺用戶數據的使用,使之在法律和道德的框架之內有序運行,這樣才能避免類似丑聞再次發生,保證網絡行為數據這一由大眾產生出的寶藏最終服務于增進大眾的福祉、促進人類進步。

  對基于社交網絡的科學研究應當予以鼓勵,但必須與其他傳統研究領域一樣,在嚴格的科研倫理標準和有效的違規懲戒機制下運行。研究人員要謹遵知情同意原則和隱私保護原則,在從數據到成果的整個流程中都采取有效措施避免用戶的利益受到侵害。如果研究項目有商業機構的參與,尤其需要謹慎處理。

  為保障普通用戶的知情權和選擇權得以充分落實,一方面網絡平臺須在功能上充分滿足用戶知情同意的要求,如在用戶授權之前提供充足的說明,提供方便的隱私設定選項等,尤其要在數據管理規則上與用戶授權的等級嚴格匹配;另一方面也應對普通網絡用戶進行必要的知識普及。當用戶在社交網絡上展示自我、享受關注與互動的同時,應當充分意識到自己的行為數據根據自身設定的私密等級,處于不同程度的暴露狀態,并將基于自己的授權而為社交網絡平臺和各種第三方所分析和利用。

  相信隨著Facebook數據泄露事件的真相逐步厘清,不管是對科研倫理的違反還是數據安全管理的疏漏,終將有著明確的責任認定和懲戒方案。而在這個互聯網大數據時代,如何讓人工智能更好地造福于人,而不是帶來煩惱甚至危險,這依然需要緊隨技術發展的腳步,不斷開展持續深入地討論,并在實踐中不斷修正。

  《科學大家》專欄投稿郵箱:sciencetougao@sina.com  來稿請注明姓名、單位、職務

了解更多信息 歡迎關注科學探索微信公眾號及微博了解更多信息 歡迎關注科學探索微信公眾號及微博
新浪科技公眾號
新浪科技公眾號

“掌”握科技鮮聞 (微信搜索techsina或掃描左側二維碼關注)

創事記

科學探索

科學大家

蘋果匯

眾測

專題

官方微博

新浪科技 新浪數碼 新浪手機 科學探索 蘋果匯 新浪眾測

公眾號

新浪科技

新浪科技為你帶來最新鮮的科技資訊

蘋果匯

蘋果匯為你帶來最新鮮的蘋果產品新聞

新浪眾測

新酷產品第一時間免費試玩

新浪探索

提供最新的科學家新聞,精彩的震撼圖片