科技公司需要用戶的全部資料?

Do Tech Companies Really Need All That User Data?
華特.福力克 Walter Frick
瀏覽人數:3204
一項新研究指出,遵守隱私規則的產品不一定就較差。

從搜尋到電子郵件到社群媒體,線上經濟一大部分的基礎,在於消費者願意提供有關自己的資料,以換取免費而好用的產品。這種取捨背後的假設是:如果消費者不放棄擁有那些資料,拿到的產品就不會那麼好,或者就得付費。

然而,美國西方學院(Occidental College)的邱佳菁(Lesley Chiou)和麻省理工學院(MIT)的凱薩琳.塔克(Catherine Tucker)發表一份新的研討會論文指出,這種取捨不見得必要。她們研究歐盟隱私法規造成的影響,以評估如果讓搜尋資料匿名、除去身分識別資訊,是否會影響搜尋結果的品質。

大多數搜尋引擎都會擷取使用者資料,包括IP位址和其他資料,能在使用者每一次拜訪網站時識別他。接著搜尋公司就可以用這些資料,來改善演算法,為那位使用者提供個人化的搜尋結果。至少本意是如此。邱佳菁和塔克想了解,儲存使用者個人資料是否真能改善搜尋結果,於是檢視在歐盟執委會(European Commission)有關資料保存的法規改變之前和之後,微軟搜尋引擎Bing和雅虎(Yahoo)的搜尋結果有何差別。2008年,歐盟執委會建議,搜尋引擎應縮短保存使用者紀錄的時間。於是雅虎決定加強隱私政策,保留使用者資料九十天之後,便讓那些資料匿名化。2010年,微軟改變政策,在使用者使用微軟Bing搜尋引擎六個月之後,刪除搜尋時的IP位址資訊,並在使用者造訪18個月後,刪除所有可能在使用者每次拜訪網站時,用來識別他的資料點。2011年,雅虎再次改變政策,這次決定要把個人資料保存得更久,從90天拉長到18個月;這讓研究人員有另一次觀察機會,衡量若是資料保存時間改變,對搜尋結果有什麼影響。(Google在這段時間內並未改變政策,因此未納入這項研究。塔克過去的部分研究曾獲得Google經費資助。)

接著,研究人員檢視英國居民在那些改變前後的網路紀錄。為了衡量搜尋品質,研究人員檢視重複搜尋的次數,重複搜尋代表使用者對搜尋結果不滿意。在這三個情況裡,他們發現,資料保存政策改變之前與之後,對搜尋結果品質的影響都未達到統計顯著性。換句話說,讓資料匿名化,或是除去其中的身分識別資訊,看來並不會影響搜尋體驗。這兩位研究人員寫道:「我們的研究結果顯示,隱私成本似乎比目前認為的低。」但她們也提到,過去的研究得到不同結論。

這兩位研究人員也認為,她們的研究結果有助於討論反壟斷,以及有關所謂資料壟斷(data monopoly)的疑慮。她們的論文指出,「對擁有資料的公司來說,保有歷史資料帶來的助益,並不如預期來得高。」

這個詮釋還有些地方要留意。第一,雅虎的改變只是匿名化,這種做法或許有助於保護使用者的隱私,但不一定會減少既有業者的資料優勢。第二,微軟除去使用者的身分識別資訊,才更能直接探討既有業者擁有大量個人化資料集的優勢;但微軟的這個改變執行長達數個月,這兩位研究人員六個月的研究期內可能掌握不到這個變化。此外,就算長期持有大量歷史資料並不是優勢,資料收集的其他層面,仍可能有利於既有業者。舉例來說,大型搜尋業者可能快速把新資料整合進演算法裡,這可能表示資料對既有業者有利,但這項研究無法衡量是否有這項好處。

無論如何,這兩位研究人員嘗試衡量資料帶來的競爭優勢,值得贊許。微軟的研究已經發現,使用者資料能帶來更好的搜尋結果。但究竟要多少資料,才能產生品質夠好、足以吸引使用者的搜尋結果?這個問題的答案不僅對搜尋重要,對正在萌芽的人工智慧(AI)產業也很重要。如果必須要有大量資料,才能產生夠好的人工智慧搜尋解決方案,那麼未來的人工智慧產業,很可能就會被現在的科技巨擘主導掌控,因為它們有能力收集、分析夠多的巨量資料。如果新進業者也能收集到足以訓練智慧型系統的資料量,這個產業就可能變得更加競爭。

兩位作者也提到,雖然有理由認為,資料會為搜尋引擎帶來競爭優勢,但也有些理由應保持懷疑態度。她們表示,時間久遠的資料對搜尋結果的助益,可能比不上較新的資料,而且,有相當高比率的搜尋實在很不常見,因此可能無法收集到足夠的資料量,就算是大型搜尋公司也做不到。

目前的人工智慧熱潮,大幅助長收集巨量資料集的潮流,持續帶來各種隱私疑慮。收集資料的企業必定會說,使用者只要放棄自己的資料就能換來好處。但邱佳菁和塔克的論文質疑這種說法。沒錯,現在有各種優異且免費的科技產品,為人們帶來好處。沒錯,由人工智慧推動的新解決方案,也可能帶來數不盡的好處。但這並不表示使用者一定要放棄自己的隱私,才能得到這些好處。

(林俊宏譯)



華特.福力克 Walter Frick

《哈佛商業評論》資深編輯。


本篇文章主題安全與隱私